黒木玄 Gen Kuroki(@genkuroki)/2020年02月24日

@y__hiroyuki #統計私のTLでは、渡辺澄夫『ベイズ統計の理論と方法』が定番の教科書になっています。統計力学の素養があれば楽しんで読めるはず。

しかし、その本はとても難しいので、私のTLでは、渡辺澄夫さんのウェブサイトにあるスライドを最初に見ておくことが勧められています。

watanabe-www.math.dis.titech.ac.jp/users/swatanab...

タグ：統計

posted at 23:58:48

@pmagshib 数学的モデル内では、パラメータが確率的に生成されるという非現実的設定も可能なので、そういうこともできて面白いわけです。既知の確率データを使った自明な計算問題とは違う。(いずれにせよ、条件付き確率の概念からベイズの定理は自明に出るので、ベイズの定理を前もって知っている必要はない。)

タグ：

posted at 23:55:13

#統計全体で100%になるように2×2の表を書いてしまえば、状況全体を直観的に把握し易くなり、ベイズの定理も必要なくなります。

社会的には、「偽陽性の問題を扱うときには、ベイズの定理は直観的理解を阻害する不適切な数学的道具である」と伝えて行くべきだと思います。

タグ：統計

posted at 23:50:07

#統計添付画像左半分はヨビノリたくみさんの動画の一部分で2×2の表に罹患率の情報が入っていません。右半分は罹患率を使って2×2の表全体で総和が100%になるようにしたものです。

右側の表であれば、例えば陽性になった人の大部分が非罹患者であることもすぐに分かり、状況を直観的に把握し易い。 pic.twitter.com/gHxrsmQSgO

タグ：統計

posted at 23:49:23

しぶちん⏳ @pmagshib

@genkuroki 私は、パラメータからデータへの確率が、データからパラメータへの確率にひっくり返せる所が面白かったです。まあ、そう言う使い方をしているのですが。

タグ：

posted at 23:45:24

あ、誤操作でせっかく書いたツイートを消してしまった。ガーン。

タグ：

posted at 23:44:42

(｢・ω・)｢ｶﾞｵｰ @bicycle1885

#統計あと、【今や機械学習などで大活躍の「ベイズの定理」】と書いているが、機械学習ではモデル内確率分布について条件付き確率分布を扱っており、現実世界における既知の確率のデータを使って条件付き確率を求めるのとは異なる種類の問題を扱っています。 pic.twitter.com/nZkaZJQD0s

タグ：統計

posted at 23:18:05

s/コロナ/Julia/gしただけ。汎用性の高いテンプレだ。

タグ：

posted at 23:07:36

(｢・ω・)｢ｶﾞｵｰ @bicycle1885

#統計このツイートを含むスレッドの文脈ではそのヨビノリたくみ氏の動画は「有害動画」に分類されます。

罹患率の影響も含めた2×2の分割表を書いて説明すれば何が起こっているかを直観的に理解し易くなるのにそうせずに、わざわざベイズの定理を使った直観的に分かりにくい解説をしている。 twitter.com/_trukz/status/... pic.twitter.com/QRYmqDA8J7

タグ：統計

posted at 23:06:36

いちおう書くと、現在はブロガーにとってチャンスですよ。言うまでもなく、Juliaです。
初心者ブロガーなら、例えば「Juliaに関する必読記事10選」とかを書けば、かなり読まれやすいはず。もしくは、Juliaに関する海外ニュース翻訳など。読まれる記事を書きたいなら、時代の空気を読もう😌

タグ：

posted at 23:04:58

#統計偽陽性の話もベイズ統計とは無関係の易しい話だが、社会的な価値は高い。

そういう社会的に重要な話題について、わざわざ無用のベイズの定理を使って直観的に分かりにくく説明するのは極めて有害。

その続きで、ベイズの定理は統計学や機械学習で重要だなどと誤誘導するのも有害。

タグ：統計

posted at 22:40:48

吉田弘幸 @y__hiroyuki

@genkuroki お勧めの本を教えていただけますか。

タグ：

posted at 22:38:23

#統計モンティ・ホール問題は確率が絡むゲームが好きな人にとっては当たり前過ぎてつまらない話。

そういうつまらない話を持ち出して、本当は面白いはずのベイズ統計の話を下らない話に見せてしまう解説は非常に有害だと思う。

タグ：統計

posted at 22:37:52

#統計ベイズ統計についてはトンデモ解説の方が圧倒的多数派なのでそういう読むべきでない本を手に取ったのだと思います。

モデル内標本分布の条件付き確率分布を予測分布として採用することのメリットは非自明で面白いので、そういう本を手に取るべきだったと思います。 twitter.com/y__hiroyuki/st...

タグ：統計

posted at 22:37:40

#超算数また
藤井信厚他編『和算教授書』巻之上栃木町、万象堂、1877年。dl.ndl.go.jp/info:ndljp/pid...
では1から9までの自然数の順序対、81個を加法九々と呼んでいる。

管見の限り、仲本のように1から9までの自然数の非順序対45個を加法九々と称する珠算書はなかった。

タグ：超算数

posted at 22:14:47

#超算数例えば、
長井忠三郎編『開化算法通書』上四日市、宝雲堂、1882年。dl.ndl.go.jp/info:ndljp/pid...
は、足して10になる自然数による、9個の順序対を、加法九々と読んでいる。

タグ：超算数

posted at 22:02:01

#超算数おそらく、仲本の加法九々と当時の国定算術教科書の方針の違いは、暗記させるかどうかにある。国定教科書も和が20以下の足し算の徹底を求めていたが、それは暗記ではなく暗算だったと考えられる。珠算の用語としての加法九々は、仲本の用語とは異なる。

タグ：超算数

posted at 21:58:32

#超算数仲本は減法九九という語はもちいない。減法は【加法九々を順逆両方面から徹底させる事である】という指示の【逆の練習】にあたる。これは1951年指導要領の減法九九の【減法九々は、さきの加法九々の逆の計算をまとめたものである。】www.nier.go.jp/guideline/s26e...という定義にほぼ同じ。

タグ：超算数

posted at 21:51:01

棚瀬(TANASE Yasushi) @tanaseY

ぱっと見、なぜ6五銀と5五銀がこんなに差があるのかが分からない。 pic.twitter.com/Ye5ISkfyF6

タグ：

posted at 21:36:56

Hidekazu Shiozawa @shiozawa_h

float f,x,y,p=30,w=600,u,v;void setup(){size(480,480,P3D);fill(0,255,0);}void draw(){clear();x=w*cos(f+=2/w);y=w*sin(f*2);camera(u+=(x-u)/p,v+=(y-v)/p,0,x,y,0,0,0,1);for(x=-w;x<w;x+=24)for(y=-w;y<w;p=-p){push();translate(x,y,p*noise(x,y+=24)+p);box(24);pop();}}#つぶやきProcessing pic.twitter.com/gy3wPA7rBf

タグ：

posted at 21:35:34

@OokuboTact #超算数加法九九は元は珠算の用語だ。しかし
仲本三二『実験新主義算術教授』東京、中文館書店、1922年。dl.ndl.go.jp/info:ndljp/pid...
のように、【合計四十五個の加法九々】(194,5)を暗記させる指導を提唱する算術教師がいた。【口調で覚えるのではない】(203)と注記しているが、暗記ものである。 pic.twitter.com/3iKX96hTUZ

タグ：超算数

posted at 21:32:36

ながぴい @Nagapiii

しかしまー自分より長いこと勉強してる連中をディスる風潮はどこから来るんかいな？ twitter.com/hashimoto_lo/s...

タグ：

posted at 20:56:00

ごまふあざらし(GomahuAzaras @MathSorcerer

@tsatie 「条件付き確率」という言葉は必要ないけど、

サイコロを振ったときに、偶数の目が出ていてかつ4,5,6のどれかが出た確率

と

サイコロを振って偶数の目が出たときに、4,5,6のどれかが出た(条件付き)確率

を絶対に混同せずに済むためのコミュニケーション方法は必要。

タグ：

posted at 20:51:44

そんなことよりもJuliaをやれ！

タグ：

posted at 20:47:34

™️ @hydrocoastjp

@triwave33 いえいえ…
bmatrix などは amsmath パッケージに属するので Julia の中で宣言できたらいいんですけどね(できるかどうか知らない)

タグ：

posted at 20:31:03

@tsatie 【この手の話はベイズ理論と呼ばれる事があるよ】は事実だが、さらに「そういう言い方をする人たちはよく分かって__いない__人達である」という事実の解説も付けておかないとまずいと思いました。

「掛算の順序が逆なら誤りとされることもあるよ」と同じ扱い。

タグ：

posted at 19:22:20

#統計ベイズ統計は「モデル内標本分布を現実世界で得られたサンプルが生成された場合に制限して得られる条件付き確率分布を予測分布として採用する方法」だとわかっていれば、ベイズの定理の式はベイズの定理を知らなくても自然に出て来るようになります。ベイズ統計の理解にベイズの定理は必要ない。 pic.twitter.com/KSaMUI2U05

タグ：統計

posted at 19:19:12

まさに其処。条件付確率という言葉は何故必要なのやろか？ twitter.com/genkuroki/stat...

タグ：

posted at 19:15:33

そうなのだけど，この手の話はベイズ理論と呼ばれる事があるよという話はする。それも駄目なのだと言われるとそれはそれでまたモヤモヤする。 twitter.com/genkuroki/stat...

タグ：

posted at 19:14:40

#統計モンティ・ホール問題の図をもう一枚書いた。

地道に可能な状態とその確率を全部書けばいいんじゃね？

「○○○の定理を使って格好良く処理する」という発想はものすごく教育的に有害だと思う。実際には格好良くないし。

twitter.com/genkuroki/stat... pic.twitter.com/4xRqHZVn61

タグ：統計

posted at 18:45:53

#統計公平なサイコロを自分には見えないように振ったひとが「偶数の目が出た」と正直に報告して来たときに、low{1,2,3}とhigh{4,5,6}のどちらの目が出たかに賭ける問題について2×2の分割表を描くと添付画像のようになる。

直観的に把握出ていれば何でもよい。 pic.twitter.com/yA3WtcxJUu

タグ：統計

posted at 18:30:27

#統計「条件付き確率」という用語も知らなくても、概念を把握していれば困らない。

公平なサイコロを自分には見えないようにふった人が「偶数の目が出た」と報告して来たときに、high{4,5,6}とlow{1,2,3}のどちらの目が出たかに賭けなさい、に正しく判断出ることは大事。

twitter.com/sekibunnteisuu...

タグ：統計

posted at 18:06:44

Habu九段 @habu1010

藤井猛ポケカミュウツーHR争奪選手権者
鈴木大介麻雀最強位
森内俊之バックギャモン王位

タグ：

posted at 17:29:08

#統計「ベイズの定理」は条件付き確率の定義から即出るし、知らなくても勝手に使ってしまいそうな自明な結果なので、わざわざ教えなくても問題がない定理。

しかし、使う人が多い用語でもあるのでコミュニケーションを円滑にするために「そういう用語もある」という事実に触れておく方が親切。

タグ：統計

posted at 17:20:12

yuri @syoyuri

いわゆる「保守論客」は、レクソールやメラルーカ関係者として有名なケント・ギルバート氏や、過去にスカイビズに関わっていた竹田恒泰氏などマルチ商法関係が目立つので、お金のためなのだろうと思っていたけれど。官邸から仕事をもらっていたのか…
しかし選挙の応援演説で謝礼って、違法ですよね？ pic.twitter.com/7fcJS3ZX4s

タグ：

posted at 17:19:10

Qiita_Python @qiita_python

scipy のマンホイットニーU検定の実装が少サンプル数非対応なので、代わりに rpy2 を使って R の wilcox.exact を使う - qiita.com/Masahiro_T/ite...

タグ：

posted at 17:11:55

むいみ @muimi

金田雅司(Masashi KANETA) @Kaneta

半分以上が非正規雇用だと思ってもみなかった。国家公務員の仕事なんだよね？なんでこんなことに…

タグ：

posted at 17:10:21

永田啓一【永田式英語の本、KADOKA @nagata_k1

場合によっては、男女関係無く地元に帰れの雰囲気があるのが田舎なんだよなぁ、と。

地方女子を潰す地方の大人たち｜とかげ @I2Our #note note.com/tokageno_435/n...

タグ： note

posted at 16:56:28

小学校・中学校からの積み重ねの結果がこれ。 twitter.com/ysmemoirs/stat...

タグ：

posted at 16:54:30

おばけ @triwave33

@hydrocoastjp @nomorepython いけました！！！！ありがとうございます！😊

タグ：

posted at 16:50:39

積分定数 @sekibunnteisuu

Σ((k+1)^4-k^4)なんかも、展開して処理しそう。 twitter.com/ysmemoirs/stat...

タグ：

posted at 16:46:26

#統計

 www.youtube.com/results?search...
YouTubeで"ベイズの定理"を検索

YouTuber的には「統計学や機械学習で重要になるベイズの定理について説明します」と宣伝した方が「お金」になるかもしれない。

その結果「偽陽性」云々の理解に「ベイズ」が必要だと誤解する人達が増えて我々の社会は危険になる。

タグ：統計

posted at 16:21:31

#統計 YouTubeの動画を検索しても、「偽陽性」云々について2×2の分割表を使った直観的な説明を強調すれば良さそうな場面で、わざわざ直観的に分かりにくくなる「ベイズの定理」を用いた説明を追加しているものが多い。

そういう人達が我々の社会を危険にしている。

twitter.com/genkuroki/stat...

タグ：統計

posted at 16:17:13

mtmt @mtmtlife

あなたは大学受験を控えている受験生の親だとします。将棋好きの子が叡王戦挑決の中継を見ているので「明日の国立二次試験は大丈夫なのか」と尋ねたところ「現代最高峰の豊島－渡辺戦をリアルタイムで見ないと、生きている意味がない」と言われたとします。どう反応しますか？

タグ：

posted at 16:14:35

僕は知らない（気にはなったけど）。何で気になったのかってのは確か看護師の国家試験云々の相談を受けた時。薬剤師やったかも知れんけど。或いは両方か。

タグ：

posted at 16:07:47

4つ揃うと「分からなくなる」とは思うた。言われる通り何をリテラシーというか問題でもあるけど。結局のところ何が目的で何が知りたいか。というところが肝要でそこが分かってさえいれば何とかなる話だけど統計というよりは確率。これらの数値の信頼度とか言い出せば統計なのだろうけど其の手の話は twitter.com/genkuroki/stat...

タグ：

posted at 16:06:47

@tsatie 【ちょっと表書けば直ぐにわかる話なのだけど先ず言葉が煩雑】という感覚に同感。

そして、「ベイズ○○」を持ち出す困った先生達をどうにかして欲しいです。↓↓↓

twitter.com/genkuroki/stat...

タグ：

posted at 15:59:48

開米瑞浩 @kmic67

表を作ると微妙な違いに気がつける｜開米瑞浩 @kmic67 #note note.com/kaimai/n/nd05d...

タグ： note

posted at 15:56:10

「偽陽性」「偽陰性」について無用な「ベイズの定理」を使って直観的に分かりにくく説明するという有害な教え方をして来た大学の先生は相当に多いと思われます。

そういう行為はこういう緊急時に社会的に我々の安全を脅かすことになるのです。

タグ：

posted at 15:45:18

概念的には易しいことなのだから、特殊なジャーゴン(特に「感度」「特異度」)に頼らずに、有名だが役に立たない(使うと直観的に分かりにくくなる)自明でつまらない定理である「ベイズの定理」を使わずに説明するべきだと思います。

関連スレッド↓ twitter.com/genkuroki/stat...

タグ：

posted at 15:40:21

むしろ、あきれるのは、「偽陽性」「偽陰性」「感度」「特異度」の話を「ベイズの定理」「ベイズ推定」「ベイズ統計」「ベイズ理論」の話であるかのように語る人達。

この緊急時に何寝ぼけた説明をしているんだか。もう、うんざりだ。

2×2の分割表を描いて説明すれば「ベイズ○○」はいらなくなる。

タグ：

posted at 15:40:20

「偽陽性」「偽陰性」「感度」「特異度」などの用語の意味を知らないのは単に特殊な専門用語を知らないだけでリテラシーがないことにならないと思います。

特に「感度」「特異度」という用語は本当にそうだと思う。

でも、「偽陽性」「偽陰性」は漢字に意味から用語の意味が分かって欲しいかも。続き twitter.com/junsaito0529/s...

タグ：

posted at 15:40:17

非公開

タグ：

posted at xx:xx:xx

™️ @hydrocoastjp

nomorepythonさんを巻き込んでしまいましたごめんなさい

タグ：

posted at 15:27:57

™️ @hydrocoastjp

◤◢◤Taranto◢◤◢ @taranto_mmm

@triwave33 @nomorepython bmatrix や pmatrix を認識してくれないみたいですが，代わりの array は既にお試しでしょうか？

title=L"\left[ \begin{array}{cc} 3.0&0.0 \\ 0.0&3.0 \\ \end{array}\right]", pic.twitter.com/uYW0mdLwKW

タグ：

posted at 15:23:56

ミャンマーの琥珀中から発見されたオオツチグモの一種、Protertheraphosa spinipes
およそ１億年前のものと推定され、琥珀中から見つかったクモとしては最も大きい（体長1.8cm）そうな。 twitter.com/tarantupedia/s...

タグ：

posted at 15:12:34

おばけ @triwave33

ゆるぼ
JuliaでPlots (bachend GR)の図中でLaTeXを用いて(2x2)行列を表示できる方法

タグ：

posted at 14:15:53

おばけ @triwave33

LaTeXStringsは何か特別なことをしてるわけではなくて、もともと備わっているJuliaのLaTeXを書きやすいようにエスケープシーケンスを自動化してくれてるものなのね

タグ：

posted at 14:06:15

ちょっと表書けば直ぐにわかる話なのだけど先ず言葉が煩雑。その上統計というよりは確率話になり分離しているから教える方がわかってないケースは多いな。 twitter.com/junsaito0529/s...

タグ：

posted at 14:01:26

twitter は mp4 なら 100MB でもアップできる。

タグ：

posted at 13:58:48

yamazaks @yamazaksv2

私が不勉強なだけかもしれませんが、偽陰性、偽陽性を知ったのは大学で統計を学んでからですし、感度と特異度についてはつい最近知ったばかりです。
統計を専門的に学んで理解できている人は、決して多くないと考えます。 twitter.com/junsaito0529/s...

タグ：

posted at 13:50:52

解像度 2000x2000にして保存したら Makie.jl がバグった pic.twitter.com/iGJY7B9JoE

タグ：

posted at 13:46:20

動物・癒し動画 @doubutu_iyashi1

100x100 までやって気づいたけど転移って表面の効果大きい? やっぱ周期境界条件もやらなきゃだめだな。 pic.twitter.com/YsafAJxLpt

タグ：

posted at 13:40:14

非公開

タグ：

posted at xx:xx:xx

癒されるにゃpic.twitter.com/XGxCPITpKu

タグ：

posted at 12:19:29

Yoshihiro KANAMORI @yshhrknmr

前にも書いたけど…僕が博士号を取った10年前ですら、東大理情の優秀勢が軒並みGoogleに就職してしまって教授が「このままでは日本企業が没落してしまう」と慌てたというのに…何周遅れの化石のような議論をしているんだろう…。 twitter.com/hashimoto_lo/s...

タグ：

posted at 12:18:44

#Julia言語 Profiling julia code disq.us/t/3jj867l

タグ： Julia言語

posted at 11:37:15

#統計続き

(5) この場合のAIC, WAIC, LOOCVによるモデル選択失敗確率の15～16%は、χ²分布を使う対数尤度比検定と関係があって、「自由度1のχ²分布で2以上になる確率」にn→∞で一致。

(6) 仮説検定とベイズ統計が水と油だという意見は全く訳がわからない。どのような勉強をするとそう言えるのやら。

タグ：統計

posted at 10:54:20

#統計続き

(4) 横軸のスケールは確率に比例するように調節してある。AIC, WAIC, LOOCVによって、「表の出る確率は0.4である」という真の分布よりも、ベルヌイ分布モデルでの推定結果の方を選択してしまう確率(グラフが0以下の部分の確率、モデル選択に失敗する確率)は15～16%程度である。

タグ：統計

posted at 10:49:31

@kankichi57301 @kankichi57301

@ysmemoirs すでに平方完成された二次方程式(x-a)^2=bを解けと言う問題で展開してから解の公式に代入するという壮大な構想と同根。

タグ：

posted at 10:47:36

#統計続き。

(2) 一方、AIC, WAIC, LOOCV(からある値を引いたもの)は、k=40で最大になり、kが偏るほど小さくなる。

(3) 真の予測誤差とAIC, WAIC, LOOCVの動く方向はちょうど逆向きになるので、kの偏りが大きいとAIC, WAIC, LOOCVによる判断は間違ったものになってしまう。

タグ：統計

posted at 10:43:29

#統計添付画像から以下を読み取れる。

(1) 表の出る確率が0.4のコインを100回投げたとき表の出た回数をkとすると、最尤法でもJeffreys事前分布のベイズ法でも、予測分布の予測誤差が k=40 で最小になり、k が偏るほど大きくなる。

続く pic.twitter.com/vVnTbQq2EK

タグ：統計

posted at 10:43:28

#数楽新たに学ぶ数学的概念をいきなり鮮明に理解できることはほとんどなくて、少しずつ鮮明さが増して行く方が普通。

問題はどのようにして理解の明晰度が上がるルートに乗るか？

そこは各自が真剣に考えてベストを尽くすべきところ。ベストを尽くした上で「写経」になるようではお話にならない。

タグ：数楽

posted at 10:33:02

#統計数学的なことの勉強は常に「易しいことから順番に」が原則。

例えば、渡辺澄夫『ベイズ統計の理論と方法』の内容の論理的フォローのような固い岩盤掘削にいきなり挑戦するのは非常識レベルでおかしい。

まずはコンピュータでWAICの具体例を計算するという易しい作業から始める方が良いと思う。

タグ：統計

posted at 10:27:02

#数楽リンク先の添付画像は「後で清書する」のようなことを一切していない「一発勝負」(笑)の手計算の実例です。普段はこんなに気楽にいーかげんにやっているわけです。

線形代数について話すときには「成分が全部文字も3×3行列の逆行列を一度でいいから直接的に求めてみるべき」と言っている。 twitter.com/genkuroki/stat...

タグ：数楽

posted at 10:01:58

#数楽 #Julia言語 #SymPy

こっちなら、a₁₂ のように表示されている。

nbviewer.jupyter.org/github/genkuro... pic.twitter.com/2QCFF0Sgep

タグ： Julia言語 SymPy 数楽

posted at 09:55:37

#数楽 #Julia言語 #SymPy

SymPyとJuliaでのLU分解の合体技

github.com/genkuroki/Line...

行列式とLU分解の関係は基本的。

Julia言語での行列式の実装はLU分解経由。

非可換行列式の定義もLU分解経由。

LU分解はソリトン方程式の佐藤幹雄理論の基礎でもある。τ函数が行列式になるのはLU分解より。 pic.twitter.com/qrbRHmhKkQ

タグ： Julia言語 SymPy 数楽

posted at 09:52:13

#数楽手計算でいえーい✌️

3×3の逆行列を計算して分母に行列式が自然に出て来てしまうことの確認。LU分解の計算にもなっている。

これは人生のうちに一度はやっておくべき計算。

github.com/genkuroki/Line... twitter.com/mathsorcerer/s... pic.twitter.com/ZpWxYCi6qD

タグ：数楽

posted at 09:47:20

#超算数これは知らなかったもっと早く取り上げていてしかるべきだったごめんなさい情報。
オガワン「掛け算の順序問題で日本の教育を憂う」2019年1月28日。note.com/ogawan/n/n444a...
英語圏(おそらくアメリカ)の3つのかけ算指導例を見る。結構順序をいい加減に扱うものもある。

タグ：超算数

posted at 09:40:43

#統計関連

twitter.com/genkuroki/stat...

タグ：統計

posted at 09:22:03

#統計情報量規準には予測分布の汎化誤差系のAIC, WAIC, LOOCVだけではなく、ベイズ自由エネルギー系のBIC, WBICがあります。ベイズ自由エネルギーそのものの近似計算法も色々ある。

twitter.com/genkuroki/stat...

タグ：統計

posted at 09:20:36

#統計 WAICやLOOCVだけではなく、最尤法でパラメータw*を得て、

AIC = -2Σ_{k=1}^n log p(X_k|w*) + 2(モデルのパラメータ数)

も計算しておくと良いと思います。あと

BIC = -2Σ_{k=1}^n log p(X_k|w*) + (モデルのパラメータ数)log n

も。

タグ：統計

posted at 09:18:02

#統計 #R言語 #Stan

Stanの使い方については松浦さんのブログ記事が非常によいです。

statmodeling.hatenablog.com/search?q=Stan

statmodeling.hatenablog.com/entry/bayesian...

タグ： R言語 Stan 統計

posted at 09:09:58

#Julia言語

 nbviewer.jupyter.org/github/genkuro...
DynamicHMC.jl v2.0.0 の使用例

* ベルヌイ分布モデル
* ロジスティック回帰
* 線形回帰

タグ： Julia言語

posted at 09:06:30

#Julia言語でMCMC法の使い方を学びたい人には DynamicHMC.jl (NUTSの実装例の1つ)が結構おすすめかも。

モデルの対数尤度函数を自分で書いて与える必要がある(面倒！)お陰で理解が捗ります。

本当はMCMC法の簡単な場合を自分で実装した方が良いのですが、NUTSをいきなりやれとはとても言えない。

タグ： Julia言語

posted at 09:04:08

#統計この手のまだ普及し切っていない数学的道具については、勉強し始めた人達が他人がやった計算結果を参考にできないと、めちゃくちゃ苦しいと思います。

みんなで計算結果を公開して行くことは大事なことだと思います。

タグ：統計

posted at 08:59:32

#統計歪んだコイン投げのモデル化とみなされるベルヌイ分布モデル(最もシンプルな確率モデル)の場合のWAICやLOOCVの公式を使った計算については

nbviewer.jupyter.org/gist/genkuroki...

を見て下さい。正規分布モデルの場合については

nbviewer.jupyter.org/gist/genkuroki...

を参照。

タグ：統計

posted at 08:57:08

#統計あと、MCMC法を使わずに手計算で直接WAICやLOOCVの公式を作れるケースで公式を使った計算結果とMCMC法での計算結果を比較することも、理解度と実装の正しさの確認に使えます。

タグ：統計

posted at 08:53:55

#統計もう少し高級で格好良いチェック方法は、渡辺澄夫『ベイズ統計の理論と方法』のp.119定理15とp180の上から6行目の式のβ=1の場合が再現されるかどうかを確認することです。

実際にやってみると、実装に成功していると、かなり強烈な感じでうまく行きます。

タグ：統計

posted at 08:51:24

#統計自分でWAICやLOOCVのコードを書いて勉強したい場合の不安は「これで正しく計算できているか」です。そのときチェックするべきことは、まず、WAICとLOOCVの値が近いかどうかです。常に全然違う値になったならば、少なくともどちらか片方の実装に失敗しています。

タグ：統計

posted at 08:47:27

#統計 WAICとLOOCVの両方についてしっかり書いてある本は渡辺澄夫さんが書いた『ベイズ統計の理論と方法』しか知らない。

LOOCVについては書かれていないですが、WAICだけではなく、WBICについても、最近出た『社会科学のためのベイズ統計モデリング』に書いてあります。この本は理系にもお勧め。

タグ：統計

posted at 08:43:57

#統計多くに場合にLOOCVとWAICの値は近い値になります。コンピュータでp(y|w)を一発で計算できて、MCMCで事後分布のサンプルも作れる場合には、予測分布、T、WAIC、LOOCVを比較的容易に計算できます。

MCMC法はこんな感じでも十分に役に立ちます。

タグ：統計

posted at 08:39:17

#統計 WAICと同じように使えるLOOCV(1個抜き出し交差検証)

LOOCV=2Σ_{k=1}^n log(p(Y_k|W)⁻¹の事後分布に関する平均)

のlogの中身はMCMC法で作ったサンプルw_1,…,w_Lを使って

(1/L)Σ_{i=1}^L p(Y_k|w_i)⁻¹

で近似計算できます。LOOCVが小さいモデルの予測分布の方が誤差が小さいと推測される。

タグ：統計

posted at 08:39:13

#統計 2つ以上にモデルの予測分布の予測誤差の差の推測ではなく、個々のモデルの予測分布の予測誤差を推定できればうれしいのですが、そういう都合の良いことは無いです。

我々は予測誤差そのものの大きさを知ることなく、モデルの相対比較によって、ベストのモデルを探す以上のことはできません。

タグ：統計

posted at 08:27:53

#統計警告: 個々のWAICの値の絶対値には大して意味がない。それらの差のみが重要。あと、繰り返し述べておきますが、サンプルY_1,…,Y_nが大幅に偏っていると、WAICによって予測誤差が小さいと推測された予測分布の方が予測誤差が大きくなる場合があります。こういう確率的リスクは避けられない。

タグ：統計

posted at 08:24:13

#統計補足: 以上で採用したWAICのスケールは対数尤度比検定での対数尤度比のスケールに合わせてあります。対数尤度比検定に慣れている人はこちらのスケールを採用することにメリットがあります。渡辺澄夫さんの本でのWAICは上のWAICの1/(2n)倍です。

タグ：統計

posted at 08:20:28

#統計そして、

WAIC = T + V

を計算します。異なるモデルの異なる予測分布の比較は、このWAICの大小関係で比較できます。WAICが小さい方が予測誤差が小さいと推測されます。(確率的に間違う場合があることに注意！しかし数値実験すると結構うまく行き、悪いギャンブルにはならないです。)

タグ：統計

posted at 08:17:27

#統計さらに、サンプル中のY_kが独立試行で生成されたとみなされるならば、以下も計算する。

V = 2Σ_{k=1}^n (log p(Y_k|W)の事後分布に関する分散).

和の各項は、MCMCで得た事後分布のサンプルwiから

(1/L)Σ_{i=1}^L (log p(Y_k|w_i))² - ((1/L)Σ_{i=1}^L log p(Y_k|w_i)²

で近似計算可能。続く

タグ：統計

posted at 08:14:29

#統計まず、事後分布に従う確率変数から以下を計算します。

T = -2Σ_{k=1}^n log p*(Y_k).

予測分布の近似計算方を知っているのでこれも計算できます。Tは予測分布の対数尤度の-2倍で、これが小さいほど、予測分布がサンプルY_kに適合しています。

続く

タグ：統計

posted at 08:07:04

#統計二種類以上にモデルを使って、別の予測分布を以上のようにして作ったときに、二つ以上の予測分布の予測誤差の大小を以下のようにして比較することができます。ただし、以下の比較の仕方は確率的に間違う可能性があるので注意。続く

タグ：統計

posted at 08:02:48

残り14件のツイートを見る

#統計～すれば、ベイズ統計の分析結果としての予測の様子が見えるわけです。

w_1,…,w_Lからw_iをランダムに何個か選んで、その各々について確率分布p(y|w_i)の乱数を発生させてプロットしても、ベイズ統計の分析結果としての予測の様子を見ることができる。

MCMC法はこのように使えます。

タグ：統計

posted at 08:00:15

#統計事後分布に従う確率変数Wの函数f(W)の期待値=平均をE[f(W)]と書くと、

E[f(W)]=∫f(w)φ*(w)dw ≈ (1/L)Σ_{i=1}^L f(w_i).

これを使うと、予測分布p*(y)=E[p(y|W)]を

p*(y) ≈ (1/L)Σ_{i=1}^L p(y|w_i)

によって近似計算できます。予測分布p*(y)の様子を何らかの方法でプロット～続く

タグ：統計

posted at 08:00:14

タグ：統計

posted at 08:00:11

カットオフやり治し
80.557479 seconds (1.00 M allocations: 1.454 GiB, 0.24% gc time) pic.twitter.com/cJKuenNNjM

タグ：

posted at 02:43:48

カットオフなし
299.434459 seconds (150.08 k allocations: 1.123 GiB, 0.03% gc time) pic.twitter.com/1aYox7urcC

タグ：

posted at 02:42:16

相互作用カットオフ(失敗)
計算は速くなった(1000粒子で1分くらい) pic.twitter.com/hfDBfZ7kFu

タグ：

posted at 02:30:49

松浦晋也 @ShinyaMatsuura

正確には「目覚めた日本人になった気分が味わえる」か。

タグ：

posted at 01:18:57

松浦晋也 @ShinyaMatsuura

最近では「関東大震災での朝鮮人虐殺はなかった」「南京虐殺はなかった」「731部隊は人体実験していない」「日本はアジアの植民地を解放した」あたりがトレンドじゃないかな。>唱えるだけで頭の良い人になった気分が味わえるお題目 twitter.com/mishiki/status...

タグ：

posted at 01:16:48

#統計「確率や期待値を定義するために必要な最小限の情報」を具体的にどのように定式化するかは非自明な問題なのですが、1つの扱い易い定式化が測度論と積分論です。

「必要最小限の情報」のように曖昧な言い方をされるとすっきりしないのですが、測度論の直観があるとイメージが鮮明になります。

タグ：統計

posted at 00:51:46

#統計確率変数Wの函数f(W)も確率変数。

「確率変数」だけではなく、「確率測度」という専門用語がありますが、「確率変数達の期待値を定義するために(定義されない場合の定義も含む)必要な最小限の情報」のことを「確率測度」と呼んでいると思ってそう間違いはないです。

タグ：統計

posted at 00:47:00

@OokuboTact #超算数ただし佐藤武のモナスが後年、これを大正末期の算術とかなんとかいう名前で独自に出版。その時山内が自分が書いたと認めている。内容は多岐にわたるが、比の順番だっけかを正しくするよう指導したとか、結構細かく統制していたことが分かりました。

タグ：超算数

posted at 00:37:44

#統計 E[f(W)]の近似計算が可能ならば

① m := (Wの期待値) = E[W] ≈ (w_1+…+w_L)/L

② (Wの分散) = E[(W-m)²] ≈ ((w_1-m)²+…+(w_L-m)²)/L,

③ f(w) = if w≧a then 1 else 0 のとき

(W≧aとなる確率) = E[f(W)] ≈ (f(w_1)+…+f(w_L))/L

など確率変数Wに関係する多くの量を近似計算可能。 twitter.com/genkuroki/stat...

タグ：統計

posted at 00:37:41