黒木玄 Gen Kuroki(@genkuroki)/2017年11月/Page 13

#統計 #JuliaLang すでに数学的素性が教科書などに書いてある場合にはプログラムを書くことにかける時間は少なくてすむ。

結構厄介なのが本質的な計算が終わった後のプロットの各段階。

これ、試行錯誤が常に必要な感じ。数学と無関係のプロットのコードを書く手間は馬鹿にできないほど大きい。

タグ： JuliaLang 統計

posted at 23:57:35

#統計 #数楽次元を持つ量の対数の差をうまく取って無次元量の対数の形にできるケースの中には、揺らぎの方向と大きさがほぼ一致している対数の差が結構含まれているはずで、そういう場合には次元を持つ量の対数単体を考えるよりもずっと価値のあることをやれる可能性が高いです。実例はすでに示した。

タグ：数楽統計

posted at 23:55:02

あおじるPPPP @kale_aojiru

掛順は「こう見ればa×bだけどこう見ればb×aとも言えるよね」みたいに言うこともあるんだけど、これは最大限譲歩して算数教育ワールドの設定に乗った上での話で、数学的正誤で斬っていいなら「どう解釈しようがa×bとb×aのどちらも正しい」で終了

タグ：

posted at 23:43:57

いだっち @tmhrid

UFO教授 (藤木文彦 Fumihiko @UFOprofessor

この問題、何がしたいんだろうか？

こういうの繰り返して、国民の算数力を削りたいの？

理不尽な不正解は、学習意欲を理不尽に削る。 twitter.com/kiharaneko/sta...

タグ：

posted at 23:37:49

@kiharaneko #超算数　これは、教師が作ったプリントで無く、ワークブックなどとして作られた物の様ですが、こういうおかしな教材を作る会社があるのは問題ですね。誰が監修したのか調べて、その人に正しい算数・数学教育を教えなければ。

タグ：超算数

posted at 23:37:38

積分定数 @sekibunnteisuu

今年もこんな季節になってきましたね。　#掛算　 #超算数
 twitter.com/kiharaneko/sta...

タグ：掛算超算数

posted at 23:32:50

給与総額は増え続けています。 www.nta.go.jp/kohyo/press/pr...

2016年は、
『前年に比べ、男性は1.2％の増加、女性は3.7％の増加』
『正規・非正規についてみると、正規154兆9,335億円、非正規19兆8,723億円で、前年に比べ、正規は1.7％の増加、非正規は3.8％の増加となった。』

twitter.com/okfarm_38/stat...

タグ：

posted at 22:58:50

いまだに誤解を生むような報道が続いているので、いつまでもこの誤解が続くのも仕方のない事かも知れませんが。

twitter.com/kuri_kurita/st...

twitter.com/kuri_kurita/st...

タグ：

posted at 22:52:31

#統計以上で紹介したJupyter notebookの内容は、渡辺澄夫著『ベイズ統計の理論と方法』の第4章の定理12～定理15あたりの結果を数値的にうまく再現しているように見えます。

タグ：統計

posted at 22:51:20

#統計 WAIC も T_true もサンプルの取り方を変えると大きくゆらぐ。しかし、それらの差(添付画像の左下)のゆらぎは非常に小さくなります。WAIC - T_true の標準偏差が1.5程度になります。さらに面白いことに、(汎化損失GL)+WAIC-T_trueの標準偏差は0.22まで小さくなる。

pic.twitter.com/ImX2HBCtfS

タグ：統計

posted at 22:47:21

2016年
“正規の職員・従業員は，前年に比べ51万人増加し，3355万人。
非正規の職員・従業員は36万人増加し，2016万人”

www.stat.go.jp/data/roudou/so...

twitter.com/nakasone_3rd/s...

タグ：

posted at 22:45:49

#統計注意：一つ前の添付画像ではKL情報量のスケールを2n倍してあります。

そして、真の分布q(x)に関する T_true=((-1/n)Σ_{k=1}^n log q(X_k)の2n倍)も320～420のあいだに値が大きく広がっています。

pic.twitter.com/ImX2HBCtfS

タグ：統計

posted at 22:44:04

#統計 #JuliaLang

WAICはベイズ統計における予測分布の対数尤度の精密化として構成される情報量規準です。添付画像のケースではサンプルを真の分布にしたがってランダムに生成すると320～420のに値が広がることになります。WAICは大きくゆらぐ！続く pic.twitter.com/ImX2HBCtfS

タグ： JuliaLang 統計

posted at 22:41:12

#統計ベイズ統計のケースに以上で述べていたようなことが実際に起こっていることを数値的に確認したJupyter notebook (#JuliaLang カーネル)が

nbviewer.jupyter.org/gist/genkuroki...
混合正規分布モデルと正規分布モデルの各種情報量規準の比較

に置いてあります。たくさんの情報を詰め込んだノートです。

タグ：統計

posted at 22:35:16

#統計このような理由で予測分布の作り方を適切な形にしておけば、実際にサンプルから計算可能な予測分布の対数尤度が大きく揺らぐことがわかっていたとしても、直接観測可能ではない真の分布の対数尤度との差のゆらぎは小さいと理論的に期待できるのです。これは統計学の数学的仕組みの理解で重要。

タグ：統計

posted at 22:33:37

#統計予測分布p^*はサンプルサイズが大きくなるにつれて真の分布に近付くことが期待される分布です。適切に予測分布の作り方を決めておけば、p^*の対数尤度L[p^*]は真の分布q自身の対数尤度L[q]に近付くと期待されます。その結果、サンプルの取り方に関するL[p^*]のゆらぎとL[q]のゆらぎも近くなる。

タグ：統計

posted at 22:31:46

#統計予測分布p^*の対数尤度L[p^*]も真の分布qの対数尤度L[q]のどちらもサンプルの取り方に依存する量です。予測分布の対数尤度は予測分布の予測誤差を測るための重要な指標なのですが、相当に大きくゆらぎます。しかし、L[q]との差は少ししか揺らがない！この点は結構大事。

タグ：統計

posted at 22:28:53

#統計予測分布と真の分布のKL情報量

D(q||p^*) = ∫q(x) log(q(x)/p^*(x)) dx

との比較するときに自然な数学的な量は対数尤度の差

L[p^*] - L[q] = (1/n)Σ log(q(X_k)/p^*(X_k))

です。積分とサンプル平均の違いしかない。前者は汎化損失で置き換えても失われることはほぼ皆無だが、後者は違う。

タグ：統計

posted at 22:26:48

#統計確率密度函数p(x)にはスケール依存性があるので、対数尤度そのものもスケールに依存します。しかし、それらの差はスケールに依存しません。しかし、対数尤度は常にサンプルの取り方に依存します。真の分布のShannon情報量はサンプルにも依存しなかったのですが、この点が大きく違う。続く

タグ：統計

posted at 22:21:39

#統計続き～取って、スケールに依存しない量に変換することには、数学的に大きなメリットがあります。分散がものすごく小さくなる！サンプルX_1,…,X_nの確率分布p(x)に関する対数尤度の-1/n倍を

L[p] = (-1/n)Σ_{k=1}^n log p(X_k)

と書き、面倒なので、この話に限ってこれを対数尤度と呼ぶ。続く

タグ：統計

posted at 22:17:15

#統計ここだけの約束：簡単のため確率モデルで真の分布が実現可能な場合のみを考えて説明の手間を少し減らす。

(2) 観測可能なサンプルだけから計算できる対数尤度およびその精密化としての情報量規準については、理論的に観測不可能な真の分布に関する対数尤度との差を～続く

タグ：統計

posted at 22:13:58

#統計続き。しかも、汎化損失やKL情報量は、通常の場合直接観測不可能な真の分布をカンニングしないと計算できません。続く

タグ：統計

posted at 22:10:45

#統計続き。だから、スケール(単位の取り方)に依存する汎化損失をスケールに依存しないKL情報量に置き換えても、サンプルの取り方を変えたときの揺らぎ方(特に分散)は何も変化しません。このような理由から、汎化損失をKL情報量で置き換えても実用的なメリットは大してない。続く

タグ：統計

posted at 22:09:16

#統計続き。予測分布p^*(x)は真の分布q(x)が生成したサンプルを参考にして作ります。予測分布はサンプルの取り方を変えると変化します。真の分布のShannon情報量はサンプルにもよらない定数なので、汎化損失とKL情報量のサンプルの取り方を変えたときの変化の差分は完全に同じになります。続く

タグ：統計

posted at 22:07:08

#統計続き～、真の分布q(x)のShannon情報量

S = -∫q(x) log q(x) dx

です。これは予測分布p^*(x)と無関係な量なので、予測分布の良し悪しの判断を汎化損失の差で行おうがKL情報量の差で行おうが結果は同じことになります。そして、それだけではない。続く

タグ：統計

posted at 22:04:07

#統計 p^*(x) は確率密度函数なのでスケール(単位の取り方)による量です。だから汎化損失は単位の取り方を変えると定数差ずれる。スケール変換(もっと一般に座標変換)について普遍なのはKullback-Leibler情報量

D = ∫q(x) log(q(x)/p^*(x)) dx

です。汎化損失とKL情報量の差は～続く

タグ：統計

posted at 22:01:39

#統計 #数楽 (1) 汎化損失の場合には単なる定数差の違いしかないので、log(無次元量)の形にしても、大したメリットはない。予測分布 p^*(x) の真の分布 q(x) に対する汎化損失の定義はKL情報量と同じスケールでは

G = -∫q(x) log p^*(x) dx です。続く

タグ：数楽統計

posted at 21:59:24

#統計 #数楽少し前に次元を持つ量の対数の話が出て、式を整理して対数函数量に代入する量を無次元量にすることにはメリットがあるというような話になっていたと思います。

以上の文脈では対数函数に代入する量を無次元量にすることには、数学的に明瞭なメリットがあるというのが結論です。続く

タグ：数楽統計

posted at 21:53:41

Jena C. @JenaC2

ホセヲ・俺はゲルググで…えっ無いの？ @yjszk

Call me a princess 💍👑🧚🏻‍♂️ pic.twitter.com/dcA1CWZbau

タグ：

posted at 21:48:05

ホセヲ・俺はゲルググで…えっ無いの？ @yjszk

引用「本書はマンガを使ってベイズ統計学の基礎から実際の利用例まで解説するものです。…コンピュータシミュレーションでよく使われるモンテカルロ法やカルバック・ライブラー情報量についても解説しますので、マンガとはいえ実践的な内容となっているものです。」

タグ：

posted at 21:12:09

ホセヲ・俺はゲルググで…えっ無いの？ @yjszk

詳細目次がこれ。スゴ！ pic.twitter.com/LowGzVHWi2

タグ：

posted at 21:10:57

自分用のメモ。高橋信さんの『マンガでわかるベイズ統計学』 shop.ohmsha.co.jp/shopdetail/000... が2017年11月25日に発売予定、と。 pic.twitter.com/UqH0zux4vU

タグ：

posted at 21:09:32

#統計階層ベイズモデルを用いた労働時間と知的好奇心の関係分析 - kivantium活動日記 kivantium.hateblo.jp/entry/2017/11/...

タグ：統計

posted at 19:44:31

非公開

タグ：

posted at xx:xx:xx

NHKニュース @nhk_news

【NEWS WEB EASY】やさしい日本語のニュースです。「囲碁の井山裕太さんが世界でいちばん強い中国のプロに勝つ」「スペインガウディが設計した別荘の中を見ることができる」などを公開しました。 #nhk_news www3.nhk.or.jp/news/easy/ pic.twitter.com/ABBTVcN7M8

タグ： nhk_news

posted at 18:24:05

(｢・ω・)｢ｶﾞｵｰ @bicycle1885

#統計 In[14～19]の部分はMCMCを大量に繰り返すとても重いセクションです。私のパソコンで実行に7時間もかかりました。データファイルをダウンロードしておけばその部分をとばしてJupyter notebookを実行できます。

タグ：統計

posted at 17:25:36

Simpsonのパラドックスだ

タグ：

posted at 17:23:49

#統計使い方：

(1) genkuroki.github.io/documents/Jupy... からダウンロードしたデータファイルと nbviewer.jupyter.org/gist/genkuroki... からダウンロードしたJupyter notebookを同じ場所において、Jupyter経由で開く。

(2) In[2～10]を念のために実行。

(3) In[14～19]には触らずにそれより下の部分を実行する。

タグ：統計

posted at 17:23:39

#統計サンプルサイズn=8,32,128の標準正規分布のサンプルをそれぞれ1000個生成して、すべてについてmixnormal, normal1, normalでベイズ推定した結果(WAICなどだけではなく、MCMCのチェインも含む)のデータを

genkuroki.github.io/documents/Jupy...

でダウンロードできるようにしておきました。

タグ：統計

posted at 17:19:23

#統計まとめ

nbviewer.jupyter.org/gist/genkuroki...

これを読めば、

* WAICやLOOCVやWBICなどの情報量規準の計算の仕方がわかる。

* WAICの揺らぎがどのような性質を持っているかがわかる。

* モデル選択の様子もグラフで見ることができる。

* 双有理不変量λ,νの数値計算による推定の仕方もわかる。

タグ：統計

posted at 16:54:20

#統計多分、以上で示した添付画像が何を意味しているか理解できれば、難しいという評判の渡辺澄夫著『ベイズ統計の理論と方法』の第4章にある各種定理が何を意味しているも理解できると思います。リンク先のJupyter notebookにも結構詳しい説明があります。

nbviewer.jupyter.org/gist/genkuroki...

タグ：統計

posted at 16:51:25

きばん卿 @kivantium

はてなブログに投稿しました #はてなブログ
階層ベイズモデルを用いた労働時間と知的好奇心の関係分析 - kivantium活動日記
kivantium.hateblo.jp/entry/2017/11/...

タグ：はてなブログ

posted at 16:50:09

#統計参考までにサンプルに関する予測分布の-2倍された対数尤度Tの大小によるモデル選択と真の分布のカンニングが必要なので現実には不可能な汎化損失GLの大小によるモデル選択の結果も添付しておきます。 pic.twitter.com/RatTm4qsmS

タグ：統計

posted at 16:47:18

#統計サンプルサイズ128でのLOOCV, WBIC, FreeEnergyによるモデル選択の結果は添付画像の通り pic.twitter.com/fcucpCPs17

タグ：統計

posted at 16:44:41

#統計例えば、サンプルサイズ n=8, 32, 128 でのWAICによるモデル選択の結果は添付画像の通り pic.twitter.com/c9JrbWIF0J

タグ：統計

posted at 16:41:36

#統計サンプルサイズを大きくしたときの、mixnormal, normal1, normal の推定結果の真の分布への収束の速さは

normal < mixnormal < normal1

の順になっていると推定されるのですが、情報量規準でのモデル選択でも

normal < mixnormal < normal1

という選択になる確率が高いです。

タグ：統計

posted at 16:38:05

#統計以上の実験の状況では、サンプルの取り方に依存する WAIC の揺らぎの大部分は採用した確率モデルmixnormal, normal1, normalの選択に依存しない量になっており、大小関係の比較においてその分の揺らぎは一切影響を与えないのだ。

タグ：統計

posted at 16:36:08

#統計真の分布だけで決まるある量 T_true = 2nL_n(w_0) を WAIC から引くと標準偏差が大幅に小さくなります。

std(WAIC - T_true) = 1.52

そして、非常に面白いことにWAIC - T_true と汎化損失 GL の和の標準偏差はさらに小さくなる！

std(WAIC - T_true - GL) = 0.221

ものすごく小さい！

タグ：統計

posted at 16:34:29

積分定数 @sekibunnteisuu

「文化人」だの「知識人」だの「インテリ」だのというのは、物ごとをきちんと分析・検証しているわけじゃなく、思いつきをテキトーに言っているだけ。昔からそうだったのが、ネットによって可視化されるようになってきた、

という気がする。

遠山啓だって、検証するとおかしなことばかり言っている。

タグ：

posted at 16:31:36

#統計サンプルの取り方によるWAICの揺らぎの大部分は(真の分布を含む)確率モデルの取り方によらない量になります。(真の分布を含む)他の確率モデルのWAICも同じ大きさで同じ方向に揺らぐことになります。続く

タグ：統計

posted at 16:30:49

#統計 WAICは予測誤差の(定数差を除いた)正確な指標である汎化損失GLの推定値なので、WAICが小さなモデルを選択すれば予測誤差を小さくできるはず、という考え方でWAICは使用されるのですが、GLとの差がこんなに大きく成り易くて大丈夫なのか？ (大丈夫である理由に続く)

タグ：統計

posted at 16:28:51

楢原もか〜天真爛漫ソルジャー @kiharaneko

#統計 n=128、mixnormalでの推定。括弧内は標準偏差。

WAIC=364.9 (15.5)
GL=364.6 (1.37)
std(WAIC-GL)=15.2

WAICは汎化損失GLの平均的推定には成功していますが、標準偏差が15.5もあり、WAICとGLの差の標準偏差も15.2もあります。WAICの値はGLの値に全然近くなりません。続く

タグ：統計

posted at 16:26:09

@shota_nakamaki @Chikorin7 @seijiota 調べるとかなり話題（問題？）になっているようで、全国的にいろいろな意見が出ているので、指導要項に書いてあるんでしょうね。
ずっと同じではサボってると思われそうだから、教科書関係の仕事をしている人が、ちゃんと働いていますよーとアピールするために変えたんだろうと思ってます。

タグ：

posted at 16:21:39

#統計「パラメーターの推定」という発想は特異モデルと相性が悪いです。なぜならば特異モデルの尤度函数(したがって事後分布)は特異点の集合の周囲に広がった形になるからです。1点の周囲に集中した単峰型になってくれません。予測分布の精度などの情報量規準で考えることが必須。

タグ：統計

posted at 16:10:28

#統計「正則」「特異」という用語の印象で判断すると、確率モデルが真の分布について特異モデルになっている場合には「推定が収束しなくなる」のような悪いことが起こりそうに感じるかもしれませんが、ベイズ推定の場合には全く逆に特異モデルでは収束が速くなります。

タグ：統計

posted at 16:00:46

#統計 λが小さいほど真の分布への漸近が速くなり、νが小さいほど予測精度上昇が速くなります。パラメーター数3の特異モデルmixnormalによる推定が標準正規分布に収束する速さは、分散1の正規分布モデルnormal1より遅いが、平均と分散の両方がパラメーターの正規分布モデルnormalより速い。

タグ：統計

posted at 15:58:55

#統計 n = 128 で

========== Estimates by mixnormal model
2λ (std) = 1.3132198826488952 (0.11051169524376306)
2ν (std) = 1.2434679742589019 (0.3893114662850205)

パラメーター数3の正則モデルの理論値3よりもかなり小さな値になっている。mixnormalは標準正規分布について特異モデル。

タグ：統計

posted at 15:53:28

# 統計サンプルサイズ n = 128 で

========== Estimates by normal model
2λ (std) = 1.9912157379734927 (0.2261384408382408)
2ν (std) = 1.934185419939284 (0.20383237518918526)

これもパラメーター数2の正則モデルの理論値2λ=2ν=2が数値的にきれいに得られています。

タグ：

posted at 15:50:10

# 統計 n=128で

========== Estimates by normal1 model
2λ (std) = 0.9872297188536074 (0.09104830972127553)
2ν (std) = 0.9901284690677659 (0.13409535988613622)

なのでパラメーター数1の正則モデルにおける理論値の2λ=2ν=1が綺麗に実現しています。

タグ：

posted at 15:48:44

楢原もか〜天真爛漫ソルジャー @kiharaneko

#統計

normal = 平均と分散の両方がパラメーターの正規分布モデル

normal1 = 分散を1に固定した正規分布モデル

mixnormal = 分散1の山が2つの混合正規分布モデル

サンプルを生成性する分布 = 標準正規分布

標準正規分布について mixnormal は特異モデルになっています。

タグ：統計

posted at 15:42:16

@Chikorin7 @seijiota 小学2年生にこの問題は意地悪すぎますよね。
最近のかけ算は「〇こずつ△こ」の順に式を書かなくてはいけないそうで、だからこの問題はいちごが5個、皿が４枚らしいです。
どうしてこんな決まりができたのか、本当に納得できません。

タグ：

posted at 15:42:13

楢原もか〜天真爛漫ソルジャー @kiharaneko

#統計昨晩、この発言が繋がるスレッドで予告していた #JuliaLang の Jupyter notebook を公開します。

nbviewer.jupyter.org/gist/genkuroki...
混合正規分布モデルと正規分布モデルの各種情報量規準の比較

特異モデルと正則モデルの比較。多分、ベイズ統計の理論を学びたい人にとってかなり教育的な内容のはず。

タグ： JuliaLang 統計

posted at 15:38:34

オトウトも算数のこのわけの分からないルールにつまずいた。
本当なんなんだよ、この決まり。 pic.twitter.com/xtxUyLNliw

タグ：

posted at 15:01:47

Daisuke Okanohara / @hillbig

AdamがSGDと比べて汎化性能が低い原因は、多くの実装でWeight Decay分も（意図せず）正規化され効果が弱まってしまうため。補正すると同様の汎化性能が得られる。またWeight Decayをバッチサイズ、データ数、エポック数で正規化し、これらの依存関係を消すこともできる
arxiv.org/abs/1711.05101

タグ：

posted at 09:28:54

給与所得者の数が増えている（しかも最近では正規雇用の方が非正規よりも増えている）とか、労働者の受け取る給与の総額が増えているという事を理解すべしと何度言われても、アベニクシーの人達は「実質賃金が下がったー！」ですから、呆れてしまいます。

twitter.com/polaris_sky/st...

タグ：

posted at 08:25:27

こちらをどうぞ。→ 「ご存知でしたか？　アベノミクスはトリクルダウンを前提にはしていないのです。」 togetter.com/li/1165180

twitter.com/wolfwood_n_d/s...

タグ：

posted at 08:19:24

#統計標準正規分布さんがまるで分散1の2つ山に見えるサンプルを偶然生成したりすると、分散1の2つ山の混合正規分布モデルさんは大喜び。😅

タグ：統計

posted at 02:17:25

#統計 WAIC以外にも色々計算している最中なので、計算が終わったら #JuliaLang のJupyter notebookを公開します。

タグ： JuliaLang 統計

posted at 01:56:50

#統計サンプルサイズを32にした場合。WAICさんの判断は上と同様なようです。 pic.twitter.com/Dle5JBEPKg

タグ：統計

posted at 01:53:59

#統計それでは、標準正規分布のサイズ8のサンプルについて、分散も動かす1つ山の正規分布モデルと、分散が1で固定の2つ山の混合正規分布モデルを比較すると、WAICさんによれば後者の方が良いということらしい。

一般に「散らばり具合」のパラメーターの推定は難しい感じの場合が多いです。 pic.twitter.com/TQ0szDRegx

タグ：統計

posted at 01:52:26

#統計標準正規分布のサイズ8のサンプルを、分散1の1つ山の正規分布モデルと分散1の2つ山の混合正規分布モデルで推定した場合に、WAICでモデル選択すると、前者(正解の方)が68%の確率で選択されます。WAICさんの判断によればこのケースでは1つ山モデルの方がシンプルで良いらしい。続く pic.twitter.com/WmNkn8tc42

タグ：統計

posted at 01:50:05

#統計真の分布を含むモデルのWAICの揺らぎの大部分は同じ方向になります(T_{true}=L_n(w_0)の分の揺らぎはぴったり同じ方向になる)。その分の揺らぎはWAICの大小関係に影響を与えません。

タグ：統計

posted at 01:34:09

#統計サンプルサイズn=32の場合。
WAIC自体の標準偏差は√(2n)=8程度です。しかし、T_{true}=L_n(w_0)をそこから引くと標準偏差は1.5程度に減ります。KL_mixnormalとその下のWT_mixnormalがほぼ左右対称形になっていて、足すとさらに標準偏差は0.4程度まで小さくなります。 pic.twitter.com/wVvzAjOI1u

タグ：統計

posted at 01:31:32

#統計添付画像の説明：標準正規分布で作ったサイズ8のサンプルを動かしたときの、分散1の2つ山の混合正規分布モデルによるベイズ推定のWAICなどの分布です。KL情報量とWAIC-T_{true}の逆相関がものすごく強く出ている。ここでT_{true}はL_n(w_0)のことです。スケールはAICの伝統に合わせています。 pic.twitter.com/rC3bLUbiEX

タグ：統計

posted at 01:27:15