Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2016年09月29日
並び順 : 新→古 | 古→新

2016年09月29日(木)

matu @matu6809

16年9月29日

iOS 10.0.2 の Safari では、最初のテスト用のページ以外は問題無い。最後の tokugawa.gr.jp/museum/index.h... はリンク切れ。 twitter.com/genkuroki/stat...

タグ:

posted at 00:05:42

非公開

タグ:

posted at xx:xx:xx

PAGANINI_Nicolo @PAGANINI_Nicolo

16年9月29日

@motoken_tw
なるほど。理解出来たつもりです。有り難う御座います。

タグ:

posted at 00:32:15

銀髪推進派 @alpaka

16年9月29日

ところで最近ちきりんが話題に上がることがない気がするけれどブロックしまって情報が流通・共有されないようになったからなのかな?書いてないだけかもしれんけど(確認しに行くのめんどい・・・)
前者ならネットでの流通・共有を拒否しまくった結果死んでいったコンテンツと同じだなーと思ったり

タグ:

posted at 01:03:34

非公開

タグ:

posted at xx:xx:xx

overleo @overleo

16年9月29日

Pythonでベイズ識別 - 元理系院生の新入社員がPythonとJavaで色々頑張るブログ: 2015 - 03 - 06 Pythonでベイズ識別 python プログラミング 機械学習 確率論… goo.gl/9mtgEj [ml]

タグ:

posted at 02:48:10

こげぱん @kogetxk

16年9月29日

今日の授業で"9"と書いたのを学生の一人が"q"と読み間違えて質問してきて、一瞬日本語しゃべってるのかと思った。「混乱したよ。だって日本語で9はkewと発音するから」って言ったら爆笑だったw

タグ:

posted at 04:53:46

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 ベイズ学習の定式化における逆温度βはベイズ推定(β=1)と最尤推定(β=∞)を補完するパラメーターになっていて、サンプルX^n=(X_1,…,X_n)の分配函数Z(X^n)は学習モデルと事前分布から定まるサンプルの確率密度函数になっているんですね。

タグ: 数楽

posted at 05:29:20

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。ここで、学習モデルとはパラメーターwに関する確率密度函数の族p(x|w)のことで、パラメーターの分布とはwに関する確率密度函数φ(w)のことです。この2つが与えられたとき、p(x|w)のφ(w)に関する平均(確率密度函数になる)が未知の確率密度函数のモデルになる。

タグ: 数楽

posted at 05:36:59

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続く。未知の確率密度函数q(x)が定める確率分布がランダムに生成したサンプルX_1,…,X_nから学習によって得られたwの確率密度函数と分配函数をそれぞれ
ψ(w)=Πp(X_k|w)^β φ(w)/Z
Z=∫Πp(X_k|w)^β φ(w)dw
と定めます。続く

タグ: 数楽

posted at 05:47:57

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。学習によって得られた確率密度函数ψ(w)によるp(x|w)のwに関する平均が未知の確率密度函数の推定値とみなされます。逆温度βが1の場合がベイズ推定です。ラプラスの方法によってβ→∞の極限で最尤推定になっていることもわかります。

タグ: 数楽

posted at 05:52:52

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。統計力学におけるカノニカル分布との関係は、ハミルトニアンをH(w)=-log Πp(X_k|w)と定めると、ψ(w)=e^{-βH(w)}φ(w)/Z、Z=∫e^{-βH(w)}φ(w)dwとなることからわかります。学習結果はもろにカノニカル分布の形をしている。

タグ: 数楽

posted at 05:57:45

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。Πp(X_k|w)をサンプルX_1,…,X_nに関するパラメーターwのもっともらしさ(likelihood、尤度)と呼びます。その対数を対数尤度と呼びます。すなわちハミルトニアンH(w)=-(対数尤度)で、それはサンプルの函数にもなっています。

タグ: 数楽

posted at 06:04:04

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。統計力学を知っている人達にはおなじみな形で、ベイズ推定(β=1)と最尤法(β→∞)はまとめて定式化されます。そのとき当然知りたくなるのはサンプルサイズn→∞でそれらがどのように振る舞うか。特に学習結果と未知の確率分布のあいだの「誤差」がどう振る舞うかを知りたい。

タグ: 数楽

posted at 06:07:52

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。学習モデルp(x|w)と事前分布φ(w)が未知の確率分布q(x)についてある「正則性」を満たしていれば、サンプルによる学習結果は大数の法則と中心極限定理に類似の結果が成立しているようです。「正則性」の仮定のもとで統計学における典型的なパターンが再現される。

タグ: 数楽

posted at 06:12:51

日本社会心理学会広報委員会 @jssp_pr

16年9月29日

【Web読み物】「ベイズ統計学による心理学研究のすゝめ」なぜベイズ統計学がふたたび注目され利用されてきているのか?(岡田謙介氏) サイナビ!(ちとせプレス) chitosepress.com/2016/02/04/1070/

タグ:

posted at 06:14:52

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。「正則性」の仮定とは学習モデルの確率密度函数の族が未知の確率密度函数を含んでおり、KL情報量D(q||p(・|w))のp(x|w_0)=q(x)におけるヘッシアンが退化していないという仮定のことです。多くの設定でヘッシアンの非退化性は成立していません!!!

タグ: 数楽

posted at 06:20:50

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。「正則性」という都合のよい仮定のもとでは、サンプルサイズn→∞で、学習の結果得られる分布は未知の(真の)確率分布の近くに集中するようになり(大数の法則の類似)、その近傍で
(パラメーターwに関する)正規分布で近似されるようになります(中心極限定理の類似)。

タグ: 数楽

posted at 06:25:32

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。以上の設定はパラメーターwが多変数の場合も含んでいます。その場合中心極限定理の類似は多次元正規分布による近似を意味します。多次元正規分布からカイ二乗分布が自然に得られるので、多次元正規分布で近似されるならば統計学ではおなじみのカイ二乗検定を使えるわけです。

タグ: 数楽

posted at 06:29:34

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。さらに以上の設定の絶対零度の極限(β→∞)は最尤推定になっていたので、「正則性」の仮定のもとで最尤推定に対してカイ二乗検定を適用できることもわかりました。これはみんな知っているタイプのカイ二乗検定の大幅な一般化になっています。

タグ: 数楽

posted at 06:32:06

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。そのようなよく知られてい話の一般化は、さらに温度1/βが0ではなく正の場合に一般化されており、β=1 の場合はベイズ推定になっている。みんな知っている最尤推定とベイズ推定はどちらも逆温度βをパラメーターとする推定法の一族の一員になっているわけです。

タグ: 数楽

posted at 06:37:19

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。伝統的な統計学において大数の法則と中心極限定理およびそれらの類似の結果は最も基本的です。しかし、学習理論が実際に応用されている多くの場面で「正則性」の仮定が成立しておらず、中心極限定理の類似の結果は使えなくなります。続く

タグ: 数楽

posted at 06:54:05

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。ベイジアンに対して「この例ではベイズ推定は異常な結果になる」と文句をつけている人達は「正則性」の仮定が成立していない例を挙げて文句をつけているように見える。 d.hatena.ne.jp/himaginary/tou... で紹介されている混合正規分布の例もそういう例だと思う。

タグ: 数楽

posted at 06:59:42

Paul Painlevé @Paul_Painleve

16年9月29日

@kogetxk q-差分方程式を扱っていると、9とqの違いは本当に困るんです。q=9とすることは、まずないのですが。

タグ:

posted at 06:59:58

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。しかし、伝統的な統計学ではよく使われている最尤推定とそれより複雑なベイズ推定は同じ推定法一族の仲間であり、「正則性」が成立していない状況ではどちらも分析がものすごく難しくなる。この点を無視して文句をつけるのは、数学的無知に基いて文句を付けることだと思う。

タグ: 数楽

posted at 07:03:55

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。ど素人なのでまだよく理解していないのですが、サンプルからの学習結果がカノニカル分布の形をしていることは示唆的だと思う(ベイズ推定ではβ=1で最尤推定はβ=∞に対応)。カノニカル分布は熱浴と接している注目系が全体で保存則を満たしているときの分布であった。

タグ: 数楽

posted at 07:18:31

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 私による熱浴関係のツイート→ twilog.org/genkuroki/sear...

タグ: 数楽

posted at 07:21:45

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 昨晩引用した watanabe-www.math.dis.titech.ac.jp/users/swatanab... (iPhoneの人はドルフィンブラウザでアクセスすれば文字化けしない)では「ギブスのパラドックス」に関する誤解を正すための文献として田崎晴明さんの統計力学の教科書が紹介されていますね。

タグ: 数楽

posted at 07:31:07

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 β=1の場合のベイズ推測とβ=∞の最尤法の性能の数学的(理論的)および実験的な比較については
watanabe-www.math.dis.titech.ac.jp/users/swatanab...
の(3.C)部分(添付画像の部分)を参照して下さい。 pic.twitter.com/0TNmu7QGwL

タグ: 数楽

posted at 07:39:46

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 書き忘れていたこと。ベイズ推定の場合(β=1)の分配函数がサンプルの確率密度函数になっている点は、その対数として定義される自由エネルギー(Massieu函数、cumulant母函数)と相対エントロピー(これも本質的に確率の対数)の類似について示唆的だと思いました。

タグ: 数楽

posted at 07:51:26

黒木玄 Gen Kuroki @genkuroki

16年9月29日

最近の私の口癖は「私はど素人なので」。「専門外なので」という言い方をすると「専門家」だと思われてしまうリスクがあるのか!それは困る!>専門家の言う「専門外ですが」について - Togetterまとめ togetter.com/li/1030168 @togetter_jpさんから

タグ:

posted at 07:55:09

ホセヲ・俺はゲルググで…えっ無いの? @yjszk

16年9月29日

服部さん @tetshattori の呟き twitter.com/tetshattori/st... にあるような使い方ですよね。もしかしてこの使い方をする人が今は少数派なのでしょうか。 QT @genkuroki 最近の…

タグ:

posted at 08:05:40

黒木玄 Gen Kuroki @genkuroki

16年9月29日

togetter.com/li/1030168 のコメント欄に武田邦彦さんや菊地誠さんを一緒だと思っているお馬鹿さんが出没しているのが残念。しかも菊池さんの名字の漢字が間違っているし。武田邦彦さんは正義ではなく商売でやっているだけ。菊池さん的な正義の感覚はとても重要。

タグ:

posted at 08:22:52

黒木玄 Gen Kuroki @genkuroki

16年9月29日

「個人の正義の感覚にしたがって××するのは悪いことだ」と即断するのはひどい誤り。ある人が語る正義は実際には単なる商売目的に過ぎなかったりするが、別のある人が個人の意志で語る正義は普遍的な正義として採用されるべきものなのかもしれない。何が正義であるかについてきちんと議論するべき。

タグ:

posted at 08:26:07

黒木玄 Gen Kuroki @genkuroki

16年9月29日

たとえば、正義感に基いて過剰診断のリスクに配慮しないままで(実際には配慮しないどころか過剰診断の定義さえ知らずに)大規模な甲状腺検査の遂行を強くおしすすめようとする立場は社会的に有害だと批判されても仕方がない立場です。そして、そのように批判する側には十分な根拠に基いた正義がある。

タグ:

posted at 08:38:22

黒木玄 Gen Kuroki @genkuroki

16年9月29日

「過剰診断とは何か」に関する解説については→ d.hatena.ne.jp/NATROM/20150324

タグ:

posted at 08:39:10

黒木玄 Gen Kuroki @genkuroki

16年9月29日

正義感に基いた反ワクチン運動は私の感覚では社会にはびこってしまった悪質なカルトそのものです。あいつらに正義はない。

タグ:

posted at 08:40:59

黒木玄 Gen Kuroki @genkuroki

16年9月29日

正義感に基いて、日本政府の借金を非難しながら、今の日本で増税やら緊縮財政やらを唱える人達にも正義はありません。有害なだけで効果がないと思いながら日本銀行が金融緩和を止めた方がよいと思っている人達にも正義はない。

タグ:

posted at 08:44:41

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

16年9月29日

Re:RTs 重国籍による差別を危惧することは典型的な正義だと思う。それに対して、個人的な正義感に基いてその手の差別に無頓着になる人達には正義はない。

「各人が考える正義にはどれにも同じ価値がある」というようなデタラメな考え方はきちんと否定することが大事。

タグ:

posted at 09:15:10

黒木玄 Gen Kuroki @genkuroki

16年9月29日

Re:RTs 典型的な正義の感覚。これを読んで「おれもそういうおっさんになりたい」と思ったおっさんは多数いるはず。こういう正義の感覚はわかりやすく大事だよね。

問題はわかりにくい場合で、さらに問題なのはすでに強い思い込みがそこそこたくさんの人達に蔓延してしまっているケース。

タグ:

posted at 09:21:41

黒木玄 Gen Kuroki @genkuroki

16年9月29日

無知無能や誤解や思い込みや感情が原因になってひどいことを言ってしまうことは誰にでもあると思う。それは仕方がないことだと思う。

タグ:

posted at 09:25:50

Y Makino @Usekm

16年9月29日

こりゃ、ほたえな: 舞田敏彦さんからDMCA違反の申し立てがありました yunishio.blogspot.com/2016/09/i-am-b...

タグ:

posted at 11:03:48

machiner @machiner_p

16年9月29日

舞田敏彦氏ってこういう人だったのか。著作権法を乱用することで相手を黙らせるって社会学者のやることか? / “舞田敏彦さんからDMCA違反の申し立てがありました | こりゃ、ほたえな” htn.to/avNPFwxeW

タグ:

posted at 12:08:51

DNSの仕組を学ぼう @beyondDNS

16年9月29日

受動喫煙と肺がんに関するJTコメントへの見解
www.ncc.go.jp/jp/information...

タグ:

posted at 13:25:22

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 メモ:「熱浴」的議論の例の追加
一意復号可能符号における符号語長に関するマクミランの不等式
Google→ www.google.co.jp/search?q=%E3%8...
解説例→ www.ide.titech.ac.jp/~yamasita/CN/l...

タグ: 数楽

posted at 14:33:42

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 解説
符号化の定義域:q個の文字s_1,…,s_qを並べてできる語全体の集合S^*
符号化の値域:r個の文字t_1,…,t_rを並べてできる語全体の集合T^*
符号化:各s_iごとに1文字以上のw_i∈T^*を対応させることによって構成された写像C:S^*→T^*

タグ: 数楽

posted at 15:01:09

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き

定理(マクミランの不等式)
Cは単射(一意復号可能)であると仮定し、
各C(s_i)=w_i∈T^*の語としての長さをl_i>0と書くと、
Σr^{-l_i}≦1.

証明:K=Σr^{-l_i}とおく(iは1からqまでを動く)。
K≦1を示せばよい。続く

タグ: 数楽

posted at 15:03:08

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 証明続き。
l_1,…,l_qの最大値をlと書き、
正の整数nに対して、l_{i_1}+…+l_{i_n}=jとなる
s=s_{i_1}…s_{i_n}全体の個数をN_jと書くと、
K^n=Σ_{j=1}^{nl} N_j r^{-j}.
続く

タグ: 数楽

posted at 15:10:51

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 証明続き
上の記号のもとでw=C(s)は
r種類の文字をj個並べたものになる。
そのようなwの個数はr^j個以下である。
Cの単射せいより、N_j≦r^j. ゆえに
K^n=Σ_{j=1}^{nl} N_j r^{-j}≦Σ_{j=1}^{nl} 1=nl.
続く

タグ: 数楽

posted at 15:13:15

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 証明続き
したがって、K≦(nl)^{1/n}=e^{(1/n)log(nl)}→e^0=1.
これでK≦1が示された。 q.e.d.

K≦1を直接示すのではなく、K^n≦nlを示すことによって間接的にK≦1を示すところが「熱浴的議論」に見える。

タグ: 数楽

posted at 15:15:28

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 私による熱浴関係のツイートは twilog.org/genkuroki/sear... 経由(返答連鎖をたどる必要あり)でまとめ読みできます。

タグ: 数楽

posted at 15:17:23

古林紀哉 @panda_pp

16年9月29日

自閉症の息子のために支援グッズを作り続けた父親が、起業して自閉症の子どもの支援グッズを製品化し、「2016年度 グッドデザイン賞」を受賞です!
その製品は、これ。
theprompt.jp/lp-vak-02/

タグ:

posted at 15:17:30

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 Weil予想でも、Xに関する|α|≦q^{d/2}を直接証明するのではなく、任意のXに関する|α|≦q^{(d+1)/2}から、X^nに関する|α^n|≦q^{(nd+1)/2}を得て、|α|≦q^{(d+1/n)/2}のn→∞での極限で|α|≦q^{d/2}示す方針。

タグ: 数楽

posted at 15:23:37

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 訂正
twitter.com/genkuroki/stat...
「q個の文字s_1,…,s_qを並べてできる語」はより正確には「q種類の互いに異なる文字s_1,…,s_qを重複を許して並べてできる語」。T^*の定義についても同様。

タグ: 数楽

posted at 15:37:04

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 以上のq,rを以下ではそれぞれr,bと書き、iは1からrまで動くとする。p_i,q_i>0でそれぞれの総和は1であるとする。

Gibbsの情報不等式: Σp_i log(p_i/q_i)≧0.

証明はf(x)=x log x にJensenの不等式を適用すれば瞬殺。

タグ: 数楽

posted at 16:05:13

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 a_i>0, Σa_i=a≦1のとき、q_i=a_i/aとおいて、Gibbsの情報不等式を使うと、Σp_i log(p_i/a_i)≧-log a≧0となる。すなわち、

(*) Σp_i log a_i ≦ Σp_i log p_i.

対数の底は任意のb>1でOK.

タグ: 数楽

posted at 16:13:31

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。マクミランの不等式より、Σb^{-l_i}≦1なので(先のrをbと書いた)、不等式(*)より

Σp_i l_i≧-Σp_i log_b p_i.

左辺は確率分布p_iの下での符号C(s_i)=w_iの長さの平均値で右辺は確率分布p_iのエントロピー。

タグ: 数楽

posted at 16:19:46

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。Gibbsの情報不等式Σp_i log(p_i/q_i)≧0の左辺はKullback-Leibler情報量と呼ばれている。対数の底はどのようなb>1であってもよい。対数の底bが符号化に使う文字の種類の個数だとすると、-log q_iは符号長だと解釈可能。続く

タグ: 数楽

posted at 16:30:43

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。以上をまとめると、
KL情報量Σp_i(-log q_i)-(Σp_i(-log p_i))は
確率分布p_iのソースから来る記号をq_iで符号化したときの符号長の平均値がソースのエントロピーよりもどれだけ大きいかを表しているとみなせます。続く

タグ: 数楽

posted at 16:36:50

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。マクミランの不等式の逆(クラフトの不等式の逆)より、最短の符号化はソースの確率分布に対応するものになり、その平均符号長はソースのエントロピーになります(少し大雑把な言い方)。だからKL情報量はq_iによる符号化によってどれだけ無駄に符号が必要になるかを意味している。

タグ: 数楽

posted at 16:42:29

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 たぶん、渡辺澄夫さんによるカルバック・ライブラ擬距離の解説 watanabe-www.math.dis.titech.ac.jp/users/swatanab... (iPhoneならドルフィンブラウザで文字化けせずに読める)は以上のようなことを言いたいのだと思います。

タグ: 数楽

posted at 16:43:58

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 Kullback-Leibler情報量には以上とは異なる解釈もあります。それがSanovの定理→ www.math.tohoku.ac.jp/~kuroki/LaTeX/... 。素朴には多項分布における確率のn→∞での漸近挙動を見ればKL情報量は自然に出て来る。

タグ: 数楽

posted at 16:49:38

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 たぶん「KL情報量が何を意味しているか」を理解するためにはSanovの定理を理解することが最も易しい。確率分布q_iのn回の独立試行によって経験分布p_iが得られる確率はexp(-nΣp_i log(p_i/q_i)+O(log n))の形になります。続く

タグ: 数楽

posted at 16:57:35

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。p_iが経験分布の生成に使われる確率分布q_iと異なるとき、KL情報量Σp_i log(p_i/q_i)は正になります。そして、経験分布としてp_iが生じる確率はKL情報量がより大きいほど速く0に近付きます。この意味でKL情報量はq_iとp_iの違いを表している。

タグ: 数楽

posted at 17:02:52

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 真の確率分布のモデルとして作られた確率分布q_iのもとで真の確率分布p_iが生成される確率がより高いほど、モデルq_iは予測精度が高いとみなせます。KL情報量D(p||q)=Σp_i log(p_i/q_i)の小ささはまさにその確率の高さ(精度の高さ)を表しています。

タグ: 数楽

posted at 17:06:49

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 モデルq_iが真の確率分布p_iと異なるならば、大数の法則よりq_iが生成する経験分布はp_iから確実に離れて行く。しかし、その離れる速さが遅いほどモデルq_iの精度は高いと考えられるわけです。離れる速さをKL情報量は表しています。以上がSanovの定理の解釈の一例。

タグ: 数楽

posted at 17:11:03

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 「経験分布」の定義の説明。iの目がq_iの確率で出るルーレットを10回したときに1,2,3がそれぞれ1回、3回、6回でたとします。このとき、経験分布はp_1=1/10、p_2=3/10、p_3=6/10になります。大数の法則より経験分布は回数大でq_iに近付きます。

タグ: 数楽

posted at 17:21:08

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 twitter.com/genkuroki/stat...twitter.com/genkuroki/stat... で読める連続ツイートの内容を例のノート
www.math.tohoku.ac.jp/~kuroki/LaTeX/...
に追加しました(Ver.0.24)。

タグ: 数楽

posted at 21:09:45

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 何度か述べていることですが、統計学諸分野を学び始めるときには、大数の法則と中心極限定理の他にSanovの定理も空気のごとく使われる道具の1つにしてしまった方が様々な事柄への理解が進むと思う。伝統的な統計学の教科書では中心極限定理止まりな感じ。

タグ: 数楽

posted at 22:05:34

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 真の確率分布がq_iで、それを近似するモデルの確率分布がp_iのとき、p_iを用いて生成されたシミュレーション結果は回数が小さいときにはq_iを近似しますが、大数の法則によってシミュレーションの回数が増えると結果はq_iから離れ、確実に違いがわかるようになります。続く

タグ: 数楽

posted at 22:10:35

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。大数の法則からわかることは、モデルp_iによるシミュレーション結果は回数を増やせば真の確率分布q_iから確実に離れて行くことまでで、どの程度の速さで離れて行くかはわからない。離れる速さをKullback-Leibler情報量で測れるというのがSanovの定理。

タグ: 数楽

posted at 22:14:07

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 KL情報量をD(q||p)=Σq_i log(q_i/pi)と書くと、モデルp_iの下でのシミュレーションの結果、真の分布q_iに近い分布が得られる確率の対数は-nD(q||p)+O(log n)の形になります。確率の対数は大体D(q||p)の速さで減少する。

タグ: 数楽

posted at 22:18:27

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。KL情報量D(q||p)はモデルp_iによるシミュレーション結果が真の法則q_iから離れて行く速さを表しています。これがSanovの定理の1つの解釈。

へたに厳密に大偏差原理を定式化せずに、こういう説明の仕方をすれば理学部・工学部向けの授業が可能だと思う。

タグ: 数楽

posted at 22:23:21

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続く。Sanovの定理は本質的に多項分布に関する大数の法則を含んでいます。確率はq_i=p_i以外のケースではnに関してほぼ指数函数的に減少し、q_i=p_iにシミュレーション結果(経験分布)は集中することになります。

タグ: 数楽

posted at 22:28:56

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。O(log n)の部分の記述も含めたSanovの定理は多項分布の中心極限定理も含んでいます。Sanovの定理から多項分布の中心極限定理を出すことは本質的にKL情報量のTaylor展開を2次の項で切る近似をするというシンプルな操作になっています。

タグ: 数楽

posted at 22:32:40

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 多項分布の中心極限定理(およびその分割表の場合への一般化)はよく使われるタイプのカイ二乗検定を含んでいます。

以上の結果はすべて多項分布のケースのSanovの定理からただちに導かれる結果だとみなせます。この理解の仕方はシンプルで教育的だと個人的には思います。

タグ: 数楽

posted at 22:35:55

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 Sanovの定理とKL情報量(もしくは相対エントロピー)を経由する説明の欠点はそれなりに時間が取られることです。その分だけ、推定や検定の「やり方」について説明をする時間は減ります。しかし、利点はたくさんあります。まず第一に理解の幅が確実に広がるはず。続く

タグ: 数楽

posted at 22:41:13

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。確率の対数としてのエントロピーや確率の対数の-1倍としての情報量は統計学諸分野には頻繁に登場しまくります。KL情報量とSanovの定理に関する知識はそのような世界を理解するための足場になります。その意味で相当に手堅い教養の1つだとみなされるべきだと思います。

タグ: 数楽

posted at 22:45:15

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。他にも、多項分布の中心極限定理がSanovの定理(の精密化)から容易に得られることによって、分割表のケースでよく使われているΣ(O-E)^2/E型の統計量を用いるカイ二乗検定がどうして可能なのかに関するシンプルな理解が得られるというメリットもあります。

タグ: 数楽

posted at 22:49:13

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。分割表のカイ二乗検定についてどうしてそれが可能なのかに関する直観的に理解可能な解説を大学学部生向けの統計学の教科書で探してみたのですが、そのような解説を私は見つけることができませんでした。(これについては探し方が悪かった可能性あり!)

タグ: 数楽

posted at 22:57:27

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 まるで、小学生が割合について(あの悪しき)「くもわ」の処方箋を習うように、大学生がどういう理由でそれが可能なのかを何も理解せずに"Σ(O-E)^2/E"を使ったカイ二乗検定の処方箋だけを習うのは健全な教育とはとても言えないと思う。

タグ: 数楽

posted at 22:58:26

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続き。コンピューター資源を安価で豊富に使えるようになったおかげで発展した統計学諸分野の応用ではKL情報量が関係しているケースが実に多いと思います。そういうテクノロジーの発展に着いて行くための基礎になるというメリットもあると思う。

タグ: 数楽

posted at 23:06:06

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 続く。ベイズ学習を使っていたり、これから使いたいと思っている人達はたくさんいるはず。サンプルサイズ→大でのベイズ学習の漸近挙動の分析の出発点がKL情報量であり、KL情報量を「確率分布の違いを表す量」として採用する必然性はSanovの定理を知らないと理解できないと思う。

タグ: 数楽

posted at 23:11:19

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 以上の理由から、「多項分布のn→∞での漸近挙動がKullback-Leibler情報量で記述できる」というSanovの定理およびその簡単な応用にどこかの段階で触れておくことは相当に教育的だと思います。

問題はそのために使えそうな教科書がないこと。

タグ: 数楽

posted at 23:16:05

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 そのために使える教科書がない理由は、推定・検定の「やり方」の習得を目的とする方針に適さないからだと思います。そういう方針の授業に適さないので、そういう授業をする時間も無くなり、結果的に教科書も書かれなかったのだと思います。

タグ: 数楽

posted at 23:18:46

黒木玄 Gen Kuroki @genkuroki

16年9月29日

#数楽 KL情報量から指数型分布族を出す話を知っていれば、事前分布が一様分布とは限らない場合へのカノニカル分布の一般化が統計学諸分野で有用に使われているという知識も得られます。そういう教育は物理学科卒業生が活躍できる機会を少し増やすことになると思う。

タグ: 数楽

posted at 23:33:59

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました