黒木玄 Gen Kuroki(@genkuroki)/2016年10月04日

#数楽余談。AICには確率モデルp(x|w)のパラメーターwの次元=パラメーターの数kを含んでいます。パラメーターの数のような単純な量が近似値として出て来る理由は自由度kのカイ二乗分布の平均値がkだからです。続く

タグ：数楽

posted at 23:57:51

#数楽続き。そのようなリスクを減らすためには、AICの代わりにWAICを用いれば解決するかもしれないという知識を持ち、しかもそれをコンピュータで計算する方法を知らなければいけない。やはり、「実戦」は色々大変。

タグ：数楽

posted at 23:54:20

#数楽続き。しかし、実際には、可能なサンプルサイズには物理的・予算的な厳しい限界があったり、フィッシャーの情報行列は理想的には可逆であっても、0に近い固有値を持っているせいで、「あまり可逆ではない」かもしれない。

タグ：数楽

posted at 23:51:44

#数楽続き。簡単のために確率モデルp(x|w)が真の分布q(x)をw=w_*の場合として含んでいると仮定しましょう。w_*におけるフィッシャー情報行列が可逆であるという条件がAICの導出で本質に使われます。理想化された状況なら大抵そうなっていると考えてよいでしょう。しかし、続く

タグ：数楽

posted at 23:47:48

#数楽続き、真の確率分布が不明だからこそそれを推定しようとしているのだから、多くの場合にAIC(およびその変種)が使えるための条件が成立しているかどうかは簡単にはわからないことを覚悟しておく必要があります。

タグ：数楽

posted at 23:39:37

baibai @ibaibabaibai

まだMCMCが新鮮な時代で，格子のサイズを大きくしながら，大型計算機で走らせて，いろいろ解析したりしていたわけですね．もちろん，ベイズ統計なんて誰も知らないし，データ解析にMCMCが使えるなんてほとんどの人は想像もしていなかった．

タグ：

posted at 23:36:44

#数楽続き。しかし、応用上大事なことは、その近似がどのような条件のもとで正当化されたかをきちんと認識しておくことです。たとえばAICの導出では中心極限定理を用いた近似を使います。その近似が有効になるための条件が成立していない場合にAICは使えないし、続く

タグ：数楽

posted at 23:36:37

#数楽続き。生真面目に理解するためには、各情報量規準ごとに(KL情報量)-(定数のエントロピー)=-∫q(x) log p(x) dxのスケール変換をどのように近似したかを追跡しなければいけません。やってみたことのある人なら誰でも知っている通り、結構面倒。続く

タグ：数楽

posted at 23:32:18

#数楽以上に解説を読めば、AICなどの「モデルの予測精度」の指標になる情報量規準を使う人が理解しておくべき２つの事柄のうちの片方である「予測精度」の正確な意味(Sanovの定理)は理解できるはず。もう一方の「KL情報量の近似の仕方」を理解することは結構面倒です。

タグ：数楽

posted at 23:27:26

#数楽以上のような理由で、統計学諸分野ど素人の私は、大数の法則と中心極限定理の次に位置する基本定理としてKullback-Leibler情報量に関するSanovの定理に触れてみたらどうかと提案しているわけです。連続版ではなく有限離散版のSanovの定理ならかなり易しい。

タグ：数楽

posted at 23:14:09

#数楽確率分布のモデルをコンピューター上に実現した場合には、それを使って真の分布のシミュレーションを実行することは自然であり、実際そうすることも多いはず。Sanovの定理は実際にそうしたときにアラが目立つ速さがKL情報量になることを教えてくれます。まさにぴったりの定理！

タグ：数楽

posted at 23:09:01

#数楽 [0,1)上の一様分布とは限らない乱数生成プログラムで真の確率分布をシミュレートしたときにどの程度の速さでアラが目立つようになるかをKL情報量は意味する。乱数発生装置pで別の乱数発生装置qをシミュレートするときの「精度」の定義にKL情報量D(p||q)は使えるわけです。

タグ：数楽

posted at 23:03:03

鰹節猫吉 @sunchanuiguru

教科書会社（大日本図書）が作成した小学校教師向アンチョコ。小学２年生で最初にかけ算を導入してから４時間目で交換法則の指導が始まるが、１３時間目で #掛算の正しい順序指導が行われる。５つの班にそれぞれ４人いるときの人数を５×４＝１２人とするとバツ。 pic.twitter.com/bdu2QJfmZb

タグ：掛算

posted at 23:00:44

#数楽続き。しかし非常に残念なことにSanovの定理を大雑把に易しく解説している文書を見付けることは難しい。情報理論の教科書でもクソ真面目に証明していたりする。学生向けのつもりで自前で作った解説文書が例のノートのこれです→ www.math.tohoku.ac.jp/~kuroki/LaTeX/...

タグ：数楽

posted at 22:56:25

#数楽統計学を使っている人なら多項分布は知っているはずだし、階乗の精密な近似式であるスターリングの公式は超有名な公式なので、Sanovの定理を経由して「KL情報量でモデルの予測精度を測れること」の正確な意味を理解することはあまり難しくないはず。

タグ：数楽

posted at 22:51:09

#数楽以上におけるSanovの定理の解説を読めば、Kullback-Leibler情報量はモデルによるシミュレートによる真の分布の予測精度意味するというKL情報量の解釈の正確な意味を理解できるようになるはずです。

タグ：数楽

posted at 22:46:18

#数楽 Kullback-Leibler情報量は多項分布の確率の対数の-1/n倍を k_iがほぼnq_iに等しいという条件のもとでnを大きくする極限を取ったものに一致します。大雑把には、確率の対数はエントロピーと呼ばれ、確率の対数の-1倍は情報量と呼ばれています。

タグ：数楽

posted at 22:40:31

#数楽続き。以上の議論で使ったのは、階乗のスターリングの公式と多項分布の確率の式だけです。スターリングの公式のたった数行の証明を含む詳しい解説が www.math.tohoku.ac.jp/~kuroki/LaTeX/... の第1節にあります。

タグ：数楽

posted at 22:33:59

#数楽続き。以上で説明した結果をKullback-Leibler情報量D(p||q)=Σq_i log(q_i/p_i) に関するSanovの定理と言います。真の分布qに対するKL情報量が小さなモデルpほど真の分布のシミュレートでアラが目立つのが遅くなります。

タグ：数楽

posted at 22:29:46

#数楽続き、その0に近付く速さ(モデルのアラが目立つようになる速さ)がD(q||p)=Σq_i log(p_i/q_i)の大きさで測ることができます。モデルで真の分布をシミュレートしたとき、D(q||p)が小さなモデルpほど真の分布qとの違いが明らかになる速さが遅くなる。続く

タグ：数楽

posted at 22:25:15

#数楽続き。モデルp_iが真の分布q_iからずれていると、モデルが生成したサンプルの経験分布が偶然に真の分布を再現する確率はサンプルサイズが大きくなると0に近付く(nが大きくなるとモデルのアラが明瞭になって来る)のですが、続く

タグ：数楽

posted at 22:20:22

#数楽続き。その両辺の対数をとると、

log P=-nΣq_i log(p_i/q_i)+O(log n).

すなわち、確率Pは

P=exp(-nΣq_i log(p_i/q_i)+O(log n))

の形をしている。続く

タグ：数楽

posted at 22:13:07

#数楽続き。k_i/n=q_iを使うと、

P=Πp_i^{k_i}・n!/Πk_i!
=Πp_i^{k_i}・Πq_i^{-k_i}/√((2πn)^{r-1}Πq_i)
=(Π(q_i/p_i)^{-q_i})^n/√((2πn)^{r-1}Πq_i).

これが欲しい式。

タグ：数楽

posted at 22:08:07

#数楽続き。n!=n^n e^{-n}√(2πn) (本当はぴったり等しくないが、精度は高いので問題ない)とk_iに関する同様の式を代入すると、Σk_i=nより分子分母で指数函数部分がキャンセルし、次が得られます。続く

タグ：数楽

posted at 22:00:27

#数楽続き。そのとき、モデルp_iが生成したサイズnのサンプルの経験分布が真の分布に一致する確率は多項分布によって、P=Πp_i^{k_i}・n!/Πk_i! になります。これを近似する簡単な式を求めたい。そのためにはこれにスターリングの公式を代入すればよい。

タグ：数楽

posted at 21:54:49

#数楽続き、偶然にそのサンプルの経験分布が真の確率分布q_iにほぼ一致する確率を計算しましょう。サンプルi_1,…,i_nの経験分布はk_i/n=(サンプルに含まれるiの個数)/nと定義されます。nは大きいとし、k_i/n=q_iが成立しているとみなしてよい状況を考えましょう。

タグ：数楽

posted at 21:48:03

#数楽以下は有限集合{i=1,…,r}上の確率分布に関するSanovの定理の解説。真の確率分布q_iを何らかの方法で推測して作った確率分布をp_iをモデルと呼びましょう。モデルの確率分布p_iに従ってランダムにサンプルi_1,…,i_nを生成するとき、続く

タグ：数楽

posted at 21:39:45

#数楽よる正確には、KL情報量を真の分布のエントロピーの分だけずらして、スケール変換したものの「近似」になっている。AICなどのユーザーが理解しておくべきことは、「どのような条件のもとでその近似がどの程度正確か」と「KL情報量に関するSanovの定理」の２つに分類されます。

タグ：数楽

posted at 21:31:45

#数楽赤池情報量基準AICを代表とする情報量基準がモデルの「予測精度」の指標になっていることを理解するためにはKL情報量に関するSanovの定理の理解が必須。なぜならばAICなどは適切な仮定のもとでモデルと真の分布のあいだのKL情報量の「近似」になっているから。

タグ：数楽

posted at 21:25:23

趣味の #数楽の時間。メモ。
田村要造・千代延大造、大偏差原理
stokhos.shinshu-u.ac.jp/PSS2007/pdf/PS...

一般の場合のKullback-Leibler情報量に関するSanovの定理の証明の解説を含む。

タグ：数楽

posted at 21:19:00

そんな感じです

タグ：

posted at 20:21:04

渦には左巻きと右巻きがある。「コステリッツ・サウレス相転移(KT転移)」の相転移温度以上では渦がてんでばらばらに存在できるけど、KT転移温度以下では左巻き渦と右巻き渦がペアを作る。渦が単独で存在できるかどうかで状態が区別される。そういう微妙な相転移

タグ：

posted at 20:20:21

ところが、そのような矢印が平面に並んでいる2次元のモデルでは、矢印が揃った「強磁性状態」は絶対零度でしか存在しない。少しでも温度があると強磁性は壊れる。それにも関わらず、ある温度を境に状態が変化するんだと言ったのがコステリッツとサウレス。彼らは、矢印が作る「渦」を考えた(続く

タグ：

posted at 20:17:17

平面内をぐるぐる回転する矢印がたくさん並んでいて、隣の矢印と同じ方向を向きたがるような相互作用が働くような「磁石」のモデルを考える。3次元空間でなら、「相転移温度」以上では矢印がばらばらの方向を向き、相転移温度以下で矢印がだいたい同じ方向に揃う。これが常磁性と強磁性の相転移(続く

タグ：

posted at 20:15:20

KT転移はなんというか、今となっては当たり前すぎて念頭になかったけど、たしかにノーベル賞ものだわね。物性理論系のノーベル賞は地味だから、話題になりづらいね

タグ：

posted at 20:12:23

天むす名古屋 Temmus @temmusu_n

#数楽 f(w)^sのb函数とゼータ函数の話(代数解析の話)が、f(w)をKullback-Leibler情報量とすることによってベイズ推定の漸近挙動の解析に役に立つというのは個人的にとても面白い話だと思う。KL情報量となっているようなf(w)^sの解析は結構大事。

タグ：数楽

posted at 18:33:38

天むす名古屋 Temmus @temmusu_n

#言娯紀元前二千年頃のシュメール・アッカドでは、文字に通じた王族としてエンヘドゥアンナやシュルギを上げることができるが、ペルシャ帝国はどうなのだろう。前者は例外的個人という気はするし、古代イラン史を細かくみれば、紀元前5世紀イランにも識字個人はそれなりにいるかもしれない。

タグ：言娯

posted at 18:33:35

#言娯ペルシャ語の文字資料は王碑文がほぼ全てで、行政言語は、書記言語のアラム語だった。王朝幹部がアラム語を話せなかったことは、アラム語資料に残るペルシャ語的語法で判断するようだ。話せない言葉が書くこともできないので、支配層でさえ識字率が高くなかったことを示唆するように思った。

タグ：言娯

posted at 18:29:42

天むす名古屋 Temmus @temmusu_n

#数楽 sBIC論文(1309.0911)で重要な役目を果たしているlearning coefficientはζ(s)=∫K(w)^s φ(w)dwと定義されたゼータ函数の原点に最も近い極の-1倍。ここでK(w)=D(q|p_w)、φ(w)は事前分布。

タグ：数楽

posted at 18:23:30

#言娯 "Translation in the ancient Iranian world" books.google.com/books?id=oD0dB... アケメネス朝では帝国アラム語が公式の書記言語として流通。王が古ペルシャ語で口述し書記がアラム語化。送り先でも書記が即興で翻訳し朗読。

タグ：言娯

posted at 18:20:14

#数楽 RTsと一つ前のツイートのsBICは先行するWBICとどのような関係になっているのかな？

arxiv.org/abs/1208.6338
A Widely Applicable Bayesian Information Criterion
Sumio Watanabe

タグ：数楽

posted at 17:54:16

Re:RTs
arxiv.org/abs/1309.0911
A Bayesian information criterion for singular models
Mathias Drton, Martyn Plummer

タグ：

posted at 17:51:49

非公開

タグ：

posted at xx:xx:xx

久保拓弥 @KuboBook

お，ここに Plummer さんの写真が… www.statslife.org.uk/events/eventde... 特異モデル BIC (sBIC) 共著者の Drton さんも．library(sBIC) はこちら cran.r-project.org/web/packages/s... (作者は Weihs さん)

タグ：

posted at 15:05:12

久保拓弥 @KuboBook

A Bayesian Information Criterion for Singular Models martynplummer.wordpress.com/2016/10/03/a-b...

JAGS の Plummer さんたちが提案する特異モデルの BIC

タグ：

posted at 14:59:04

#数楽続き。真の分布の推定結果と未知の真の分布のあいだの「誤差」の概念を理解するためにはKullback-Leibler情報量の知識が必須。KL情報量について知らないと赤池情報量基準AICの類も理解できなくなる。ベイズ推定の挙動の分析はAICの導出よりも難しい。

タグ：数楽

posted at 11:14:27

#数楽続き。我々が数値的に信頼できる知識を得ているケースでは何らかの形で「漸近挙動が単純になる」という事情を使っていることが多いと思う。統計学ではその点が顕著で大数の法則と中心極限定理は「漸近挙動が単純になること」の典型例。ベイズ学習についてもそれに類する定理がある。

タグ：数楽

posted at 10:58:52

#数楽続き。「俺の主観的意見を尊重しろ」と言われても「おまえと俺は違う」と言われてお終いになる可能性が高いですが、サンプルサイズが大きくなるときの推定結果の確率的漸近挙動に関する知識があれば、推定結果の「精度」について客観的な指標を計算することが可能になります。これが大事。

タグ：数楽

posted at 10:53:36

#数楽続き。Aさんは推定結果と真の分布のあいだの「誤差」の推定値の数値を示すべきだし、批判する側もAさんにそうすることを要求するべき(Aさんの側に立証責任がある)。統計学を利用する場合にはベストの分析法が不明な場合が多いので、試行錯誤の出発点に主観が入るのは仕方がない。続く

タグ：数楽

posted at 10:50:52

#数楽続き。Aさんが確率モデルと事前分布を主観的に選び、サンプルからのベイズ学習によって、推定結果を得たとする。これだけで、Aさんは「俺の推定結果を信用しろ」とは言えないし、批判する側も「Aは主観から出発したので方法自体が誤り。特に事前分布の主観的採用はおかしい」とも言えない。

タグ：数楽

posted at 10:48:40

非公開

タグ：

posted at xx:xx:xx

#数楽続き。真の分布が未知のままであっても、推定結果と真の分布のあいだの「誤差」の近似値をサンプルを用いて計算できます。「おまえは事前分布を主観的に選んだから信用できない」という類の議論をする必要は一切なくて、単に「誤差」の大きさを評価すればよいだけ。

タグ：数楽

posted at 09:52:52

#数楽続き。ほぼ同じ数学的設定のもとで互いに似ている推定法なので、どちらが良いかは目的に応じて便利で優れているものを使えばよいだけの話。推定結果と真の分布のあいだの誤差を小さくしたいならば、誤差が小さくなる推定法を採用すればよいだけ。続く

タグ：数楽

posted at 09:51:12

#数楽続き。最尤法ではサンプルの尤度を最大にするパラメーターw=θに対応する確率分布p(x|θ)を真の分布の推定結果とみなし、ベイズ法ではサンプルからベイズ学習の結果得られた事後分布Ψ(w)によるp(x|w)の平均を真の分布の推定結果とみなします。デルタ分布と一般の分布の違い。

タグ：数楽

posted at 09:49:04

#数楽続き。最尤法とベイズ法の違いは昨晩も書きましたが、パラメーターに関するデルタ分布で真の分布を推定しようとするのか、パラメーターに関する一般の分布で真の分布を推定しようとするかの違いでしかありません。しかも逆温度β→∞の極限でベイズ推定は最尤推定と繋がっている。

タグ：数楽

posted at 09:46:26

#数楽続き。普通に実用的な数学的道具として解説しているベイズ統計の教科書(渡辺澄夫著『ベイズ統計の理論と方法』)を読むと、学部生向けの普通の統計学に教科書に書いてある確率概念と同一の確率概念を用いてすべてを説明しています。続く

タグ：数楽

posted at 09:43:58

#数楽続き。ググってみると、まるで頻度論に基いた統計学とそれとは全く違う確率概念に基いたベイズ統計学の二つの分野があるかのように解説している人が大多数派だよね。そうなってしまったのは、不幸な歴史的経緯が原因に過ぎないように思われるのだがどうだろうか？続く

タグ：数楽

posted at 09:40:15

#数楽ベイズ更新(ベイズ学習、ベイズ更新)を「合理的な個人の主観的確信の度合の更新」のモデルとみなすずさんな「哲学もどき」が否定されるべき理由続き。
(2)二つ目の理由はもっと単純。そのような「哲学もどき」の拡散は統計学教育にとって極めて有害だと思われる。

タグ：数楽

posted at 09:34:37

#数楽続き。以上のような数学的知識を前提にすれば、「固定された確率モデルと事前分布からのベイズ更新」を科学的な知識の改善のモデルとして採用することは考慮に値しないくらいずさんな考え方だということがわかる。不幸な歴史的経緯によって広まったずさんな考え方は更新されるべきである。

タグ：数楽

posted at 09:31:58

#数楽続き。だから、十分に合理的な個人が固定された確率モデルと事前分布からのベイズ更新だけで分析をお終いにする可能性はない。真の分布が未知のままであっても使用できる推定結果と真の分布のあいだの「誤差」の指標の計算に基いて確率モデルと事前分布の組の改善を試みるはずだ。続く

タグ：数楽

posted at 09:29:57

#数楽続き。真の分布が未知のままであってもサンプルデータをもとに採用したp(x|w)とφ(w)による推定の精度を近似的に計算することができる。十分に合理的な個人は数学的能力にも秀でているはずなので、この事実を当然知っているはずだ。続く

タグ：数楽

posted at 09:27:43

#数楽続き。ベストの分析方法がわかっているならそんな方法を採用する必要はない。採用した確率モデルp(x|w)と事前分布φ(w)を用いた推定で真の確率分布に近付ける保証はない。常に真の分布は未知のままである。それにもかかわらず、推定結果と真の分布の違いを計測する方法がある！続く

タグ：数楽

posted at 09:24:39

#数楽続き。(1)ベイズ統計では確率モデルp(x|w) (パラメーターw付きのxの確率分布族)と事前分布φ(w) (パラメーターwの確率分布)を用いて、真の確率分布が生成した有限サイズのサンプルから真の確率分布を推定しようとする。続く

タグ：数楽

posted at 09:19:43

#数楽最近しつこく繰り返しているのだが、ベイズ更新(ベイズ学習、ベイズ更新)を「合理的な個人の主観的確信の度合の更新」のモデルとみなすのは苦しい。その手のずさんな思考に基いた「哲学もどき」は否定されるべきだと思う。その理由は以下の通り。続く

タグ：数楽

posted at 09:15:52

Kohta Ishikawa @_kohta

最小作用の原理からオイラーラグランジュを導くのは基本的にはstraightforwardだと感じるけど、変分ベイズの式は何か天下り式に当てに行った感があってそれで上手くいくのは分かるんだけど他の可能性についてはどうなのっていう感じがする。

タグ：

posted at 08:26:04

motivic @motivic_

地下人間肉球（阿僧祇いんふぃにてぃ子） @tendontennuki

JRSS-Bで特異モデルの情報量規準の論文が出るので、discussion partでコメントを発表しに行ってきます twitter.com/datasci_blogs/...

タグ：

posted at 07:36:45

ベイズ統計の長所がわかる本としては『ベイズ統計の理論と方法』がオススメだと思う．

タグ：

posted at 01:26:49

#数楽以上の返答連鎖と twitter.com/genkuroki/stat... は関係ある。具体例。

タグ：数楽

posted at 00:57:46

#数楽続き。【ベイズ法は主観的で・最尤法は客観的】とか【ベイズ法と最尤法は，確率について異なる哲学を基礎としている】と学生に教えてしまった先生はかなりいるんじゃないかな? これから講義を受ける側の学生はこんなことを授業で言う先生に論争をいどんでフルボッコにしてあげるべきかも。

タグ：数楽

posted at 00:55:53

#数楽 watanabe-www.math.dis.titech.ac.jp/users/swatanab... からの引用
【（注１）【ベイズ法は主観的で・最尤法は客観的】という意見は100年くらい前の誤った考え】
【（注２）【ベイズ法と最尤法は，確率について異なる哲学を基礎としている】という意見も100年くらい前の誤った考え】

タグ：数楽

posted at 00:48:29

#数楽ベイズ統計の理解のためには、(1)数学的に何をやっているか(数学的証明そのもののことではない)をきちんとと理解することを優先し、(2)ベイズ学習の挙動を理解してなさそうな人達による「哲学的議論」は真の哲学とは無縁の低レベルな議論とみなして全部無視することがきっと大事。

タグ：数楽

posted at 00:35:58

#数楽 watanabe-www.math.dis.titech.ac.jp/users/swatanab... はiPhoneの場合にはドルフィンブラウザで閲覧すれば文字化けせずにすみます。誰かsedで全htmlファイルに適切なMETAタグを挿入してあげるべきだと思う。私はしばらくのあいだ文字化けが原因で読むのを諦めていた。

タグ：数楽

posted at 00:22:36

#数楽ベイズ統計では、事前分布は個人ごとに固定された信念や確信の度合いではない。事前分布を決めるハイパーパラメーターを「誤差」の指標に基いて調節している時代になっているのに、そのような解釈を拡散しちゃまずいと思う。
watanabe-www.math.dis.titech.ac.jp/users/swatanab...

タグ：数楽

posted at 00:14:38

#数楽続き
【公共の場で，相異なる主観的な事前情報をもつ個人どうしの結論がいったん対立してしまうと，それを解決するすべはない】←これは明瞭に誤り。三中さんが引用した2013年の前年には渡辺澄夫さんの教科書が出版済みなので、この引用はするなら否定しておくべきだったと思う。

タグ：数楽

posted at 00:08:09