黒木玄 Gen Kuroki(@genkuroki)/2017年11月11日

#統計サンプル (X_k,Y_k) の回帰の場合には確率モデルは p(y|x,w) の形になるのですが、以上における p(X_k|w_l) を p(Y_k|X_k,w_l) に置き換えればWAICを計算できます。(注意：X_kをY_kの対応させる函数の推定だけではなく、X_kの分布も推定する必要がある場合には修正が必要になる。)

タグ：統計

posted at 21:04:45

タグ：統計

posted at 21:01:30

#統計
(3) T = -2Σ_{k=1}^n log mean{ exp(L[k,l])=p(X_k|w_l) | l=1,…,L }
(予測分布の対数尤度の-2倍, sum log mean exp の形)

(4) V = 2Σ_{k=1}^n variance{ L[k,l] | l=1,…,L }
(sum var の形)

(5) WAIC = T + V.

L[k,l] = log p(X_k|w_l) さえ得られれば簡単に計算できます。

タグ：統計

posted at 20:55:50

#統計 MCMCでベイズ推定したときのWAICの計算の仕方

(0) 確率モデルを p(x|w) と書き、サンプルをX_1,….X_nとする。
(1) MCMCの結果からパラメーターの事後分布のサンプル w_1,…,w_Lを取り出す。
(2) L[k,l] = log p(X_k|w_l) を計算する。
WAICは(実際にはWBICも)L[k,l]だけから計算可能。続く

タグ：統計

posted at 20:48:52

やねうら王 @yaneuraou

千日手打開してやねうら王がAperyに勝利して、やねうら王、決勝進出確定しました！

結局、やねうら王が負けたのは、横歩取りの定跡で負けた二局だけとなりました。この定跡変化の修正は明日までになんとかしておきます(T_T) 昨日寝れてないのでもう眠いんですけど…。

タグ：

posted at 19:44:28

#統計最尤法でAICを愛用して来た人達は、ベイズ推定法ではWAICを使うのがよいです。

watanabe-www.math.dis.titech.ac.jp/users/swatanab...

を見れば計算の仕方がわかります。E_w[f(w)] は事後分布のサンプルw_1,…,w_lを用いて、(1/L)Σ_{l=1}^L f(w_l) で近似計算できます。自分で実装するのは簡単。

タグ：統計

posted at 19:40:27

#統計 2つのモデルのAIC(または最大対数尤度の-2倍)がそれぞれ98765と98712と計算されたとします。「それらの差は53しかない」のように見えてしまいがちなのですが、絶対値に意味はなく、差だけに意味があるのでそのような感覚は誤りです。

タグ：統計

posted at 19:24:13

#統計続き。パラメーターの一部(k個とする)を固定した部分モデルとの比較をAICで行う場合には、AICの差は自由度kのカイ二乗分布のスケールになっています。カイ二乗分布は統計学ユーザーにとって正規分布の次に身近な分布なので、この点に注意すればAICの差に関する感覚がつかみやすいと思います。

タグ：統計

posted at 19:20:11

#統計以上のような事情で、対数尤度(の-2倍)やAIC(=最大対数尤度の-2倍＋パラメーター数の2倍)の絶対値には意味がありません。差だけに意味がある。そして、そこで採用されているスケールはカイ二乗分布のスケールと同じです。続く

タグ：統計

posted at 19:17:08

やねうら王 @yaneuraou

この歴史的対局（？）、お互い千日手が読みにはいりつつある。千日手指し直しはなく0.5勝扱いなので、両者決勝に残る可能性出て来た。

タグ：

posted at 19:15:45

#統計続き～座標系yでの尤度は

p(X_1)…p(X_n)×|x'(y(X_1))|…|x'(y(X_n))|

になります。×以降の因子の分だけ尤度が変わってしまいます。しかし、尤度比を考えるとその部分が分子分母でキャンセルして、座標不変になります。尤度は座標依存だが、尤度比はそうではないわけです。

タグ：統計

posted at 19:12:15

#統計尤度の「次元」の話に戻る。

サンプルX_1,…,X_nに関する確率密度函数p(x)の尤度の定義は

p(X_1)…p(X_n)

なのですが、xを座標変換すると全然違う値になります。x=x(y)をp(x)|dx|に代入すると、

p(x(y))|dx(y)| = p(x(y))|x'(y)||dy| となり、x(y)の逆函数をy(x)と書くと～続く

タグ：統計

posted at 19:09:04

やねうら王 @yaneuraou

ソルコフは分からないが、次のやねうら王 vs Apery、負けたほうが5勝3敗になり、予選落ちある。今回、評価関数が一番強くなった（ただし探索部は去年のまま）Aperyが予選落ちするのは、残念だし、私の方もこのまま番組で1分しか喋らずに予選落ちするのは嫌である。

タグ：

posted at 19:03:18

「単純計算の1億回のループ」の類を気軽に回したければ、 #JuliaLang がおすすめ。対話的に気軽に使えて速いです。

julialang.org/downloads/

Jupyter notebookとの組み合わせで使うと超高級高速電卓のできあがり。

nbviewer.jupyter.org/gist/genkuroki...

に私によるインストールの記録があります。

タグ： JuliaLang

posted at 18:51:52

#統計 #JuliaLang のJupyter notebook

nbviewer.jupyter.org/gist/genkuroki...
対数尤度の比較によるモデル選択の簡単な例

は next.juliabox.com にアップロードして誰でも利用できます。適当に書き直して遊んでみるとよいと思います。

タグ： JuliaLang 統計

posted at 18:42:39

#統計添付画像は、サンプルが標準正規分布で生成されており、H_1がパラメーター数2の正規分布モデルで、H_0が標準正規分布のときの、最大対数尤度の比の2倍の経験確率分布のグラフである。見事に自由度2のカイ二乗分布で近似されている。(カイ二乗分布の自由度はパラメーター数の差になる。) pic.twitter.com/JaAfbMRA1b

タグ：統計

posted at 18:35:19

#統計続き。この結果を利用するとH_0を帰無仮説とする仮説検定をカイ二乗分布を使って行うことができる。すなわち、H_1の最大対数尤度がH_0の最大対数尤度よりも十分に大きければ、サンプルを生成している確率分布は H_0 に含まれないと判断することができる。続く

タグ：統計

posted at 18:32:35

#統計続き。この場合には、サンプルを生成している確率分布が部分モデルH_0の方に含まれるとき、H_1の最大対数尤度とH_0の最大対数尤度の差の2倍はサンプルサイズが大きなとき漸近的にカイ二乗分布に従う(Wilksの定理)。続く

タグ：統計

posted at 18:31:26

#統計以下、最尤法が有効な状況を仮定。

モデルH_1のパラメーターをk個固定して得られる部分モデルをH_0と書く。モデルH_1はモデルH_0を含んでいるので、同一のサンプルの最大尤度は常にH_1の方がH_0より常に大きい。このケースでは単純に尤度が大きい方がよいとは言えない。続く

タグ：統計

posted at 18:28:07

#統計 #JuliaLang サンプルサイズを256に増やせば、最大尤度の比較によって90%以上の確率で(正規分布モデルではなく)ガンマ分布モデルを選択できる。 pic.twitter.com/7IzpmuKueN

タグ： JuliaLang 統計

posted at 18:25:28

#統計 #JuliaLang

nbviewer.jupyter.org/gist/genkuroki...
対数尤度の比較によるモデル選択の簡単な例

こんなに正規分布に近いガンマ分布で生成されたサイズがたったの16のサンプルの最大尤度を比較するだけで63%の確率で(正規分布モデルではなく)ガンマ分布モデルを選択できる。 pic.twitter.com/5URwQlq9v5

タグ： JuliaLang 統計

posted at 18:23:31

みゅみゅ @miyumiyuna5

OpenCVで美女になれるツール作ってみた
画像のURLを入れるとその人になれちゃうｗ pic.twitter.com/qtby9wVDRB

タグ：

posted at 17:29:52

#数楽大数の法則が有効になるだけ十分にnを大きくできない場合でも使える道具として、赤池さんは対数尤度よりも精密なAICを用意してくれた。

対数尤度がどうして有用であるかに関する数学的根拠を知らないと、AICは対数尤度の精密化なので、AICについて理解することは不可能になる。

タグ：数楽

posted at 15:31:23

#数楽 q(x)が未知の場合には、対数尤度比は未知のままだが、pの対数尤度はサンプルだけから計算できる。大数の法則が有効になるだけ十分にnを大きくできれば、対数尤度の大小関係を見て、予測誤差の大小関係を推定できる。これも赤池さんが繰り返し強調していること。

タグ：数楽

posted at 15:29:00

#数楽対数尤度比 Σ log(q(X_i)/p(X_i)) の1/n倍は、大数の(弱)法則より、n→∞でKL情報量

D(q||p) = ∫q(x)log(q(x)/p(x))dx

に(確率)収束する。D(q||p)はpによるqの予測誤差を表わしている(Sanovの定理)。赤池弘次さんが1980年の論説で重要性を強調していたことはこういう話。

タグ：数楽

posted at 15:26:34

#統計 X_1,…,X_nは各々が確率分布q(x)に従う独立な確率変数であるとすると、隔離分布p(x)の対数尤度の-1倍の定義は

- Σ log p(X_i).

p(x)は測度の「次元」を持つのでlogの中を「無次元」にするためには対数尤度比

Σ log(q(X_i)/p(X_i))

を考えればよい。続く

タグ：統計

posted at 15:23:26

#統計離散分布と連続分布の尤度比を考えると、離散分布の方から来るδ(0)=∞のせいで∞または0になってしまう。

タグ：統計

posted at 15:13:25

#統計 Radon-Nikodym導函数は直観的には易しい概念だと思うのですが、そういう言葉遣いをすると論理的に厳密に説明しなければいけないような気持ちになるので、統計がらみの話をするときに私はその言葉を使わないことにしている。その代わり「δ函数はふつう」ということにしてしまう。

タグ：統計

posted at 15:10:55

#統計続き。整数値の離散確率変数に対応する確率測度は Σ p_k δ(x-k)dx の形(kは整数を走る)。サンプル K_1,…,K_n に対するその尤度は

(p_{K_1}δ(0)dx_1)…(p_{K_n}δ(0)dx_n)

になる。尤度比を考えればδ(0)dx_iが分子分布でキャンセルして無次元量になる。比を考えれば問題無し。

タグ：統計

posted at 15:08:00

#統計続き。しかし、2つの確率分布p_0とp_1の尤度比は分子分布の dx_i 達が全部キャンセルして「無次元」になる。

一般論的には、確率を測度で定式化しておいて、Radon-Nikodym導函数(スカラー函数になる)のX_iでの積が尤度比だと考える。

対数尤度比でも同様に考えることができる。

タグ：統計

posted at 15:00:23

Norio Maeda⚧️ @nmaeda2

@genkuroki ネットはこういうのが楽しいw ただ、昔は著書に自宅の住所を書くことも多かったから、郵便で読者と直接やり取りしている著者も少なくなかったとは思う。

タグ：

posted at 14:55:45

#統計測度の「次元」を持つものには dx とか |dx| とかを付けておいた方が「間違い」が減るかも。例えば確率密度函数を p(x)dx とか p(x)|dx| のように書くとか。このとき、サンプル X_1,…,X_n の尤度は

p(X_1)dx_1…p(X_n)dx_n

なので、dx_i 達の取り方の分だけ定数倍の不定性が生じる。続く

タグ：統計

posted at 14:55:35

detail.chiebukuro.yahoo.co.jp/qa/question_de...
【田崎晴明著「統計力学I」(培風館)の注釈に「対数の引数は必ず無次元になるとはいえない」とあり、これが理解できません。
何か具体例をあげて説明してもらえませんか。～

ベストアンサーに選ばれた回答～
田崎です。拙著をお読みいただき、ありがとうございます。～】(笑)

タグ：

posted at 14:48:40

@hottaqu 統計力学はむしろ「主要項以外は無視する」のがいちばん基本にある考え方だから、そこはだいぶ違いますかね

タグ：

posted at 14:37:43

@kikumaco プランクは原理的限界ですが、現実の場合は実験のセットアップで決まるのだと理解してます。

タグ：

posted at 14:36:27

@hottaqu 量子重力なら長さの下限としてプランク長が現れるのでしょうが、身の丈サイズの量子系の測定にプランク長が出てきたらちょっとおかしいですね

タグ：

posted at 14:28:23

@hottaqu 実験の場合には「何があろうとこれより小さい差は無意味」という下限がどこかにあるはずで、それを使ってpを「無次元関数/下限値」にするのだと思います。測定誤差は「誤差/下限値」の形にまとめられるはずです。ただ、「エントロピーの主要項が大きい」という条件が満たされないと意味ないですが

タグ：

posted at 14:26:55

@kikumaco 有限次元物性系だとOKですが、量子場だとそれがどこまでOKなのかが最近問題だなと再認識しています。

タグ：

posted at 14:23:33

@kikumaco @Hal_Tasaki 統計力学はそれができるから分かりやすいですね。

タグ：

posted at 14:22:21

@hottaqu 完全に一般的な問題を考えると、病的なものを含むので、僕にはわかんないです。熱力学極限で生じる問題は多くの場合「まずは有限系で考える」で解決するように思います

タグ：

posted at 14:21:11

@Hal_Tasaki @hottaqu 有限じゃない問題は困りますね。統計力学の問題なら「常に有限の箱に閉じ込めた系を考えてから無限大の極限を取る」で解決できるでしょうか

タグ：

posted at 14:19:27

@kikumaco そうですよね。熱力学極限のエントロピーだと、そう理解できるのですよね。一般論だといろいろ難儀です。

タグ：

posted at 14:18:56

@hottaqu 微視的尺度のない問題で、純粋に数学的な話とすると、僕にはわかりません。ただ、現実的な問題なら必ず微視的尺度は存在するのではないかという気がします

タグ：

posted at 14:17:49

@hottaqu するため、第二項のΔEはε<<ΔE<<Eを満たしさえすれば、なんであってもエントロピーは同じです。典型的にはΔEはNに比例でしょうから、第二項はO(1)の量の対数で第一項に比べて無視できます。少なくとも統計力学については「微視的エネルギー尺度」の存在から、こうなるはずです

タグ：

posted at 14:16:27

@hottaqu 完全に一般的な状況での数学の話としては僕にはわかりません。統計力学の問題なら、微視的なエネルギー尺度εが必ず存在して、状態密度は無次元関数ΩによりΩ(E/Nε,N)/Nεの形に書けます。エントロピーはS=logΩ(E/Nε,N)+logΔE/Nεの形になって、第一項はNに比例

タグ：

posted at 14:13:41

@kikumaco 一般に次元をもった連続量xに対する確率分布p(x)に対して、情報量としてのS（Δｘ）=－∫dxp(x)ln(p(x)Δx)は幅Δxに依存してしまいます。シャノンをS=－∫dxp(x)lnp(x)をとすると、S（Δｘ）=S―ln Δxという結果になりますから。この―ln Δxを気にしてます。

タグ：

posted at 13:52:20

@kikumaco @hottaqu 全空間の測度が有限なら一様分布に対する KL が「正しいシャノン」ですがそうじゃない時には困りますね。

タグ：

posted at 13:51:39

@Hal_Tasaki @hottaqu カルバック・ライブラーを使え、ということでしょうね

タグ：

posted at 13:48:56

@hottaqu 結果がエネルギー幅に依存しないことはすぐにわかるので、その問題に関してだけなら、「適当な幅でよい」が答えだと思います

タグ：

posted at 13:42:18

@hottaqu @kikumaco 連続変数の場合のシャノンは単に差だけが意味を持つということでしょうね。さらに言えば（よく言われるように）シャノンよりも相対エントロピーの方がより本質的な量だということかなとも思います。

タグ：

posted at 13:40:20

@togetter_jp 接種者のみに全数調査をしても、ワクチンとの因果関係は確定しません。非接種者との比較をしなければいけません。

仮定の話ですが、全数調査をし、ワクチンとの因果関係が否定されたら、Seki_yoさんはそれを『受け入れる』のですよね？

twitter.com/seki_yo/status...

タグ：

posted at 13:16:28

@kikumaco 実数値を取る確率変数Xの確率密度関数をp(E)とするとき、エントロピーをS=-∫p(E)lnp(E)dEで定義する場合がありますが、これはやっぱり対数の引数に次元の問題が起きてます。このせいで、Sは負になったり、またE'=f(E)という変換でSは不変でなかったりするわけで。

タグ：

posted at 13:09:10

#統計現実には好きなだけサンプルサイズを増やせることは極めてまれなので、尤度を見るだけでは現実の問題に対処できません。その問題への突破口を赤池情報量規準AICもしくは "an infomation criterion" が開いたわけです。ベイズ推定法を使っている場合にはWAICがおすすめ(ABICは時代遅れ)。

タグ：統計

posted at 13:07:36

@kikumaco 離散量なら問題ないですが、連続量の場合、適当なエネルギー幅はどうするのか、いつも疑問に思います。

タグ：

posted at 13:05:56

全エネルギー一定の条件で状態をランダムにサンプリングするとミクロカノニカルアンサンブルが得られるけれども、条件を緩めて全エネルギーの上限が決まっているとしても同様のアンサンブルが得られる。理由は多くの場合に状態密度はエネルギーの急激な増加関数だから。これを使う計算手法は少しある

タグ：

posted at 13:04:39

#統計この問題が解ければ、サンプルに対する確率分布の尤度は、その確率分布のもっともらしさの指標になっていることが納得できると思う。

ヒント：大数の法則とKullback-Leibler情報量に関するSanovの定理。既出の赤池弘次さんの論説に答えが書いてあります。Fisherさんも理解していなかったこと。

タグ：統計

posted at 13:03:06

#統計問題補足：サンプル(確率分布 q(x) に従う乱数の列) X_1,…,X_nに対する確率分布(密度函数) p(x) の尤度は p(X_1)…p(X_n) と定義されます。尤度によって確率分布を選択する場合には尤度の大きな方を選択します。

タグ：統計

posted at 13:00:41

計算機の中で曲がりなりにも熱平衡を作り出せるのは、それがありふれた状態のアンサンブルだからで、「すごく珍しい状態を集めてこい」と言われると難しい。レア・イベント・サンプリングはそれをやろうとしている。そのためには、その珍しい状態が「もっともありふれたもの」になる拘束条件を探す

タグ：

posted at 12:58:17

#統計問題：未知の確率分布qとほぼそれに一致している確率分布p_0とp_0よりqから離れている確率分布p_1が任意に固定されているとする。真の分布qに従って独立生成されたサンプルのサイズを十分に大きくできれば、p_0とp_1の尤度の比較によってp_0をほぼ確実に選択できる数学的理由を説明せよ。

タグ：統計

posted at 12:55:16

統計力学は、与えられた拘束条件のもとでもっともありふれた状態とはどんなのか、を知る枠組み。世の中で起きることの殆どすべてはありふれている、ということ

タグ：

posted at 12:55:08

対数の中が無次元かどうかで引っかかる可能性があるのは、統計力学に出てくる「エントロピーは状態密度の対数」というところか。状態密度はエネルギーの逆数の次元を持つので、このままでは無次元にならない。これは適当なエネルギー幅をつけて状態数にするのがたぶん正しい解決法

タグ：

posted at 12:46:59

Haruhiko Okumura @h_okumura

（データサイエンス向き）尤度関数は無次元か？もしそうでないなら対数尤度はどうなる？

タグ：

posted at 12:34:59

僕が対数の中も無次元にしたほうが見通しがいいんだなと気づいたのはキャレンの教科書を読んだとき

タグ：

posted at 12:19:31

無次元になるべきものがちゃんと無次元になっているかを確認するのは、計算間違いを見つける上では便利。僕は計算間違いが多いので

タグ：

posted at 12:16:26

キャレンに倣って、理想気体のエントロピーは
S=N(s0+logU/Nu0+logV/Nv0)のような書き方をします。s0,u0,v0は基準状態1モルのエントロピーとエネルギーと体積。あ、logの前の係数は省きました

タグ：

posted at 12:15:02

@Hal_Tasaki 僕は計算間違いが多いので、間違いを減らすためのルールみたいなものです

タグ：

posted at 12:05:35

@Hal_Tasaki 僕はカウンターパートを持ってきて無次元にします

タグ：

posted at 12:02:55

たとえば、理想気体のエントロピーを logT+logV+Cように書いてしまう初等的な熱力学の教科書は多いけれども、基準状態のエントロピーを使うと対数の中はちゃんと無次元化される。僕が見た範囲ではキャレンの教科書ではそこに気を遣って、無次元にしてある

タグ：

posted at 12:02:18

@kikumaco たぶん、僕らは無次元にしてないですよ。統計力学の計算で log V とか普通に書きませんか？（もちろん、counterpart はある。）

タグ：

posted at 12:00:08

これも実は僕のunpublishedなノートには書いてあって、講義では話している。対数の中を無次元にするためのカウンターパートが必ず存在して、きちんと組み合わせると必ず無次元にできるし、無次元にする方がよい twitter.com/hal_tasaki/sta...

タグ：

posted at 11:57:21

FYI
@h_okumura
detail.chiebukuro.yahoo.co.jp/qa/question_de... twitter.com/h_okumura/stat...

タグ：

posted at 11:52:11

@togetter_jp 問4の回答
『結核の発症を52-74％程度、重篤な髄膜炎や全身性の結核に関しては64-78％程度予防することができると報告』『効果は10-15年程度続く』
『小児に限ると米国の小児の患者の発生率を下回って』

『全年齢』の結核でなく、『小児』の結核予防に有効なのよね、BCGは

www.mhlw.go.jp/seisakunitsuit...

タグ：

posted at 11:45:28

@togetter_jp 『本の帯だけ、表紙だけで判断するな！』というワクチン反対する人達からお言葉頂戴したので、「はじめに」をためし読み。

いきなり結核の死亡率でBCG接種の必要性を論じている。BCGにも結核に関しても理解がない事が露呈。

books.bunshun.jp/ud/book/num/97...

タグ：

posted at 11:41:45

@togetter_jp 『「不要だ！」という医者も、小児のワクチンの専門家でもないし、感染症の医師でもないし、公衆衛生の専門家でもないし、婦人科検診や腫瘍の治療をしているわけでもない内科医』

今回の近藤誠(『放射線科医』)の反ワクチン本にも通じる話。ワクチン接種も、麻疹やB型肝炎の治療に関わってもいない

タグ：

posted at 11:17:07

@togetter_jp 『HPVワクチンを不妊になるぞ！的脅しデマ』
『そもそも不妊の人を診察している人なのか』
『不妊の専門家でも婦人科腫瘍の専門家でもない人たちが、証拠もなく書いているだけ』

因果関係を認めたいがために『有害事象』を悪用したデマですね。

blog.goo.ne.jp/idconsult/e/23...

タグ：

posted at 11:14:31

@togetter_jp なので、ワクチン接種後に起きた出来事で、ワクチンによる可能性があるものは報告され、有害事象として集積されます。よくワクチンに反対する人達が『ワクチン後に問題があった事例がこんなに！』と言ってますが、『有害事象』であって『副反応』ではありません

d.hatena.ne.jp/usausa1975/201...

タグ：

posted at 11:01:32

@togetter_jp 『因果関係を否定したいがため「有害事象」だ』とSeki_yoさんはおっしゃってますが、よくある有害事象の誤認識です。

『有害事象のうち、ごく一部が副反応』で、『医療行為と「因果関係のある」有害事象』が副反応です(trendy.nikkeibp.co.jp/article/column...)。

twitter.com/seki_yo/status...

タグ：

posted at 10:50:58

#統計赤池さんの解説を読めば、尤度よりも対数尤度を考えることの優位性がどこにあるかが明瞭にわかるし、その結果として、どうして尤度がもっともらしさの指標に成り得るかもわかるし、どうして最尤法が有効であるかもわかるし、さらに、尤度を上げればいいってもんじゃないこともわかる。

タグ：統計

posted at 10:24:29

#統計赤池弘次さんの論説

ismrepo.ism.ac.jp/?action=pages_...
統計的推論のパラダイムの変遷について

www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度

「尤度ってどうしてもっともらしさなの？」「客観確率 vs. 主観確率という対立図式はおかしいよね？」のような疑問を持つ人達には特におすすめ。

タグ：統計

posted at 10:04:06

#統計
 www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度
赤池弘次

には他にも色々面白い部分があって、赤池さんは

AIC (an information criterion)

と書いていて、それに編集委員会が脚注を付けています(笑)。 pic.twitter.com/e6v49w9jlC

タグ：統計

posted at 09:59:02

#統計私が書いたSanovの定理(の易しい場合)に関する非常に詳しい解説が次の場所にあります。階乗のスターリングの近似公式の解説はその最初の部分にあります。

尤度の概念が「もっともらしさ」であることを納得するにはKL情報量に関するSanovの定理の理解が必須。

genkuroki.github.io/documents/2016...

タグ：統計

posted at 09:54:47

#統計モデルの確率分布 q に従うN回の独立試行で真の確率分布 p が(ほぼ)得られる確率(モデルによる予測が当たる確率)の -1/N 倍は Kullback-Leibler 情報量 D(p||q) で近似されるというのがSanovの定理です。

タグ：統計

posted at 09:52:19

#統計 N_i = N p_i (の整数部分)とおいて(p_i達は固定)、スターリングの公式

N_i! = N_i^{N_i} e^{- N_i}√(2πN_i)(1 + o(1))

を多項分布の確率の式に代入すると、

log(確率) = - N D(p||q) + o(N).

ここで D(p||q) = Σ p_i log(p_i/q_i) はKullback-Leibler情報量です。
これがSanovの定理。

タグ：統計

posted at 09:47:11

#統計添付画像は赤池弘次さんによるKullback-Leibler情報量に関するSanovの定理の簡潔な解説。

www.jstage.jst.go.jp/article/butsur... より

「Sanovの定理」とか呼ぶと何か難しい結果のように誤解してしまうかもしれないが、実際には多項分布の確率の式にスターリングの公式を代入しただけの結果である。 pic.twitter.com/4AbNKDjPNC

タグ：統計

posted at 09:39:12

2C1Pacific @2C1Pacific

私が大学行政のあり方に決定的に違和感を持つようになったのは、東京23区内の大学新増設の禁止を大学設置基準という文科省告示だけで決めることができたということ。国土行政では工場等制限法という法律で決めてたことで同法は廃止されたのに、大学行政だと告示一本で決められるって何なのかと。

タグ：

posted at 07:59:27

ʇɥƃıluooɯ ǝıʇɐs @tsatie

流石に工学だなぁ。的確な表現で現状の問題 #掛算 #くもわ #筆順等に代表される数多の問題を指摘してるのだな、、多分。 twitter.com/a_saitoh/statu...

タグ：くもわ掛算筆順

posted at 07:52:38

なんなら、教員採用試験の問題にしたらいいと思うｗ

答案Ａを正答、答案Ｂを誤答　とする屁理屈
答案Ａを誤答、答案Ｂを正答　とする屁理屈

をそれぞれ2つずつ記述せよ

このくらいのことが出来ないと、採点への抗議に太刀打ちできないからねｗ

タグ：

posted at 06:58:38

もちろん、「7a/12　が正解　　ａ/4＋ａ/3　はバツ」を「正当化」する屁理屈も思いつける。

なるべく短い式にしないとならない

とか

通分がちゃんと出来るかを示すべきだ

とか

タグ：

posted at 06:55:59

しかし、#超算数　案件を多数知っていると、

「7a/12　はバツ　　ａ/4＋ａ/3　が正しい。後者の方が往路と復路が分かれていて問題文の意味に合っているし、それぞれの所要時間が分かり易い」

という、逆の採点基準を「正当化」する屁理屈がすぐに思いつける。

タグ：超算数

posted at 06:53:24

一体何を言っているのか分からなくて、？？？となってしまった。模範解答を見たら、7a/12　が正解とされていた。

えっ、そこ？

タグ：

posted at 06:47:57

ある中学での数学のテスト、

ａkmの距離を、往路は時速4kmで復路は時速3kmで往復するのにかかる時間は？

ａ/4＋ａ/3　という答案にバツがついていて、「これは、分からなくて何も書かなくてバツで、そのあと直しで正解を書いたのかな？」と思ったら、そうじゃなくて「この答えでバツ」とのこと。

タグ：

posted at 06:46:39

Cory Simon @CoryMSimon

🤣 Let's all transition to Julia! julialang.org #julialang twitter.com/jakevdp/status...

タグ： julialang

posted at 04:40:26

#統計次のリンク先に、赤池さんの２つの論説を読む前に私が書いた尤度の理解の仕方に関する解説があります。

mathtod.online/@genkuroki/815...

数学好きは数式を自由に使える mathrodo.online に登録しよう！(宣伝)

タグ：統計

posted at 02:22:51

#統計統計学教育的には、ベイズ統計以前の問題として、尤度について「もっともらしさ」という言葉のちからで何か説明したつもりになっているような解説が非常に多いことの方が問題かも。どうして尤度が「もっともらしさ」の指標として使えるかに関する数学的理由が重要。

タグ：統計

posted at 02:20:11

⚡️ "WBICの計算の仕方について"

twitter.com/i/moments/9290...

タグ：

posted at 02:12:46

⚡️ "赤池弘次さんの2つの論説を読んで"

twitter.com/i/moments/9290...

タグ：

posted at 02:08:51

#統計以上の話は以下のリンク先のまとめの続き

twitter.com/genkuroki/stat...

タグ：統計

posted at 02:01:40

#統計注意：私の理解では「統計的意思決定論はベイズ統計でも何でもない」という立場であれば統計的意思決定論自体に問題があるとは思えません。統計的意思決定論には、未知の確率分布を推定するベイズ統計とはまったく無関係の、独立した数学的価値があると思います。

タグ：統計

posted at 01:55:36

#統計おまけ2：数学がからむ事柄では同じ用語を使っていても違う話であることがよくあります。例えば「ナイーブベイズ」はベイズ推定法ではないし、事後分布を使っていても事後確率最大化法(所謂MAP法)もベイズ推定法ではありません。少なくとも以上の話の文脈ではそういうことになります。

タグ：統計

posted at 01:50:19

#統計おまけ：どこかで「それらの情報量規準は漸近論を前提にしているので、階層モデルでは有効ではない」というようなひどい誤解を見たような気がします。階層ベイズモデルでもWAICの類は当然有効です。

タグ：統計

posted at 01:46:38

残り26件のツイートを見る

#統計赤池情報量規準AICやそのベイズ推定法版のWAICなどの優れた情報量規準を使えば、主観や思い込みが入り込んだ複数の推定結果を客観的に比較する方法が得られます。

タグ：統計

posted at 01:45:15

#統計事前分布を変えたときの予測分布の予測精度の変化(WAICが低いほど予測分布の予測精度が高いと推定される)の実例については既出の次のリンク先を見て下さい。(WBICの実装にはまだ自信がないので要注意。)

nbviewer.jupyter.org/gist/genkuroki...

バグを見付けたら教えて下さい。直します。 #JuliaLang

タグ： JuliaLang 統計

posted at 01:40:23

#統計「頻度主義 vs. ベイズ主義」という対立図式でベイズ統計に関する講義をしてしまった人が、赤池さんの論説を読んだら、顔が真っ青になるんじゃないかと思いました。

ismrepo.ism.ac.jp/?action=reposi...
統計的推論のパラダイムの変遷について

www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度

タグ：統計

posted at 01:24:27

#統計尤度の概念の理解にはKL情報量のSanovの定理が必要だとか、「頻度主義 vs. ベイズ主義」という対立図式は誤りであるとか、予測分布の予測精度を問題にすれば最尤法とベイズ推定法を統一的に理解できるとか、赤池さんが言っていたことが日本国内で常識になっていないように思えます。残念な話。

タグ：統計

posted at 01:20:14

#統計どの事前分布(先験分布)を選択するかについても、何らかの情報量規準で決めることができるわけです。情報量規準を使えば、一様事前分布やそれに近い事前分布を使うと予測精度が下がる場合があることがわかる。一様もしくはそれに近い分布で事前分布を固定すると予測精度の点で不利になります。

タグ：統計

posted at 01:14:23

ぱりー @Woofer30

この批判については、統計学者よりも経済学者の意見を聞きたいですね。特に、現代の経済学者に。 twitter.com/genkuroki/stat...

タグ：

posted at 01:10:12

#統計ベイズ統計や主観確率や頻度主義などについてググると、予測分布とKL情報量結び付けることによって予測の精度という観点からすべてを統一的に理解する道を赤池さんが何十年も前に提案しているのに、それを無視して「頻度主義 vs. ベイズ主義」という図式で解説する人達がたくさん見付かる。

タグ：統計

posted at 01:09:39

#統計私は「頻度主義 vs. ベイズ主義」とか「最尤法 vs. 事前分布を使うベイズ推定法」のような対決図式を描いてベイズ統計の解説を行うことはひどいと感じており、何度もそういう発言を繰り返しているのですが、赤池さんが書いたものを読んで自信を深めました。

タグ：統計

posted at 01:07:25

Stats for bios @StatsForBios

Just a gallery of nice machine learning examples in Julia. #julialang github.com/cstjean/Scikit... pic.twitter.com/4cBylzeFIM

タグ： julialang

posted at 01:07:00

#統計「エントロピーとモデルの尤度」におけるエントロピーは実質的にKL情報量であり、KL情報量はSanovの定理より、予測分布の予測精度を表わします。予測分布の予測精度(＝KL情報量)を考えれば、最尤法とベイズ推定法を統一する視点が得られることもはっきり述べています。

タグ：統計

posted at 01:06:03

#統計私の持論は、統計学を学ぶための確率論における基本定理は

* 大数の法則
* KL情報量に関するSanovの定理
* 中心極限定理

の3つだということです。尤度の概念を理解するためには、大数の法則だけではなく、Sanovの定理の理解が必須だと思う。Sanovの定理は中心極限定理より易しいです。

タグ：統計

posted at 01:02:36

#統計赤池さんは、尤度の概念の統計学的有用性をKL情報量のSanovの定理を用いて説明しています。私は、尤度の概念を理解するためにはSanovの定理の理解が必須だという意見を持っていたので、その説明に私はとても喜びました。尤度の説明については赤池さんにみんな従えばよいと思いました。

タグ：統計

posted at 01:00:45

#統計赤池さんは「エントロピーとモデルの尤度」のp.610の右半分ではSanovの定理(←易しい定理なので本当は名前をつけるまでもない)の解説もしてくれています。非常に親切な解説の仕方だと思いました。B(p,q)の-1倍がKL情報量です。

タグ：統計

posted at 00:58:30

#統計
「統計的推論のパラダイムの変遷について」
ismrepo.ism.ac.jp/?action=reposi...

を読んで疑問が残った人はもう一つの

「エントロピーとモデルの尤度」
www.jstage.jst.go.jp/article/butsur...

も読むと得るところが多いと思います。そこでのエントロピーはKL情報量のことだと思って構いません。

タグ：統計

posted at 00:56:09

#統計赤池さんによれば、フィッシャーの側は尤度の「信念」(主観)としての理解にとどまっている点で不完全であり、サベジの側は主観確率の変な形での正当化にこだわった点で完全にアウト。これは「頻度主義 vs. ベイズ主義」のような図式の描き方は不適切だと言っているに等しい。

タグ：統計

posted at 00:52:23

#統計「主観確率」なる概念を変な形で正当化することによるベイズ統計の正当化に対する赤池さんの批判は

ismrepo.ism.ac.jp/?action=reposi...

の第7節にあります。そこではサベジがフルボッコにされています。

タグ：統計

posted at 00:47:42

#統計統計学において「信念」という言葉を聞くと「ベイズ統計」を思い浮かべる人は多いと思います。しかし、赤池さんは、ベイズ統計を広めた人たちが「主観確率」の概念を変な形で正当化することによってベイズ統計をも正当化したつもりになっていることを強く批判しています。

タグ：統計

posted at 00:44:54

#統計要するに、尤度とKL情報量を結び付けることができれば、尤度の概念の有用性に確率論的な基礎付けを与えることができるわけです(大偏差原理に関係がある)。ところが、赤池さんによれば、フィッシャーさんは尤度を「合理的な信念の尺度」だと言ってしまっているらしい。信念…

タグ：統計

posted at 00:43:18

#統計尤度は確率そのものではないのですが、「平均対数尤度ー定数＝KL情報量」はSanovの定理によって「n回続けて予測が当たる確率の対数の-1/n倍」と漸近的に一致します。確かに尤度は確率ではないのですが、KL情報量を通して予測分布の確率的精度と結び付いています。

タグ：統計

posted at 00:40:19

#統計フィッシャーさんは最尤法を広めたことで有名なのですが、赤池さんによれば(以下は私による意訳)、フィッシャーは平均対数尤度の-1倍がKullback-Leibler情報量と定数差の違いを除いて等しいことに気付いていなかったせいで、尤度の概念を十分に理解できずに終わった。手厳しい。

タグ：統計

posted at 00:36:20

#統計 11/5にGoogleのロゴが赤池弘次さんになっていたので、赤池さんが書いたものをググって読んでみました。次の2つ(どちらも1980年の論説)：

ismrepo.ism.ac.jp/?action=reposi...
統計的推論のパラダイムの変遷について

www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度

タグ：統計

posted at 00:30:50

#統計 - log p は「確率pで成功」の確率分布で「確率1で成功」の確率分布をシミュレートしたときの予測精度を表わすKullback-Leibler情報量(低いほど精度が高い)そのものです。1 log(1/p)+(1-1)log((1-1)/(1-p) = - log p.

この例を見れば、KL情報量が予測精度の指標である理由が少しわかる。

タグ：統計

posted at 00:21:15

#統計 #Baysian 確率pで成功する独立試行をn回繰り返したとき、全部成功する確率の対数の -1/n 倍は (-1/n)log p^n = - log p であり、これのスケールがKullback-Leibler情報量のスケールに一致しています。- log pが0に近いほどたくさん成功し続ける確率が高くなる。(予測においては精度が高い。)

タグ： Baysian 統計

posted at 00:15:25