黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2017年11月16日(木)
#統計 添付画像の説明:標準正規分布で作ったサイズ8のサンプルを動かしたときの、分散1の2つ山の混合正規分布モデルによるベイズ推定のWAICなどの分布です。KL情報量とWAIC-T_{true}の逆相関がものすごく強く出ている。ここでT_{true}はL_n(w_0)のことです。スケールはAICの伝統に合わせています。 pic.twitter.com/rC3bLUbiEX
タグ: 統計
posted at 01:27:15
#統計 サンプルサイズn=32の場合。
WAIC自体の標準偏差は√(2n)=8程度です。しかし、T_{true}=L_n(w_0)をそこから引くと標準偏差は1.5程度に減ります。KL_mixnormalとその下のWT_mixnormalがほぼ左右対称形になっていて、足すとさらに標準偏差は0.4程度まで小さくなります。 pic.twitter.com/wVvzAjOI1u
タグ: 統計
posted at 01:31:32
#統計 標準正規分布のサイズ8のサンプルを、分散1の1つ山の正規分布モデルと分散1の2つ山の混合正規分布モデルで推定した場合に、WAICでモデル選択すると、前者(正解の方)が68%の確率で選択されます。WAICさんの判断によればこのケースでは1つ山モデルの方がシンプルで良いらしい。続く pic.twitter.com/WmNkn8tc42
タグ: 統計
posted at 01:50:05
#統計 それでは、標準正規分布のサイズ8のサンプルについて、分散も動かす1つ山の正規分布モデルと、分散が1で固定の2つ山の混合正規分布モデルを比較すると、WAICさんによれば後者の方が良いということらしい。
一般に「散らばり具合」のパラメーターの推定は難しい感じの場合が多いです。 pic.twitter.com/TQ0szDRegx
タグ: 統計
posted at 01:52:26
#統計 WAIC以外にも色々計算している最中なので、計算が終わったら #JuliaLang のJupyter notebookを公開します。
posted at 01:56:50
こちらをどうぞ。→ 「ご存知でしたか? アベノミクスはトリクルダウンを前提にはしていないのです。」 togetter.com/li/1165180
twitter.com/wolfwood_n_d/s...
タグ:
posted at 08:19:24
給与所得者の数が増えている(しかも最近では正規雇用の方が非正規よりも増えている)とか、労働者の受け取る給与の総額が増えているという事を理解すべしと何度言われても、アベニクシーの人達は「実質賃金が下がったー!」ですから、呆れてしまいます。
twitter.com/polaris_sky/st...
タグ:
posted at 08:25:27
AdamがSGDと比べて汎化性能が低い原因は、多くの実装でWeight Decay分も(意図せず)正規化され効果が弱まってしまうため。補正すると同様の汎化性能が得られる。 またWeight Decayをバッチサイズ、データ数、エポック数で正規化し、これらの依存関係を消すこともできる
arxiv.org/abs/1711.05101
タグ:
posted at 09:28:54
#統計 昨晩、この発言が繋がるスレッドで予告していた #JuliaLang の Jupyter notebook を公開します。
nbviewer.jupyter.org/gist/genkuroki...
混合正規分布モデルと正規分布モデルの各種情報量規準の比較
特異モデルと正則モデルの比較。多分、ベイズ統計の理論を学びたい人にとってかなり教育的な内容のはず。
posted at 15:38:34
@Chikorin7 @seijiota 小学2年生にこの問題は意地悪すぎますよね。
最近のかけ算は「〇こずつ△こ」の順に式を書かなくてはいけないそうで、だからこの問題はいちごが5個、皿が4枚らしいです。
どうしてこんな決まりができたのか、本当に納得できません。
タグ:
posted at 15:42:13
# 統計 n=128で
========== Estimates by normal1 model
2λ (std) = 0.9872297188536074 (0.09104830972127553)
2ν (std) = 0.9901284690677659 (0.13409535988613622)
なのでパラメーター数1の正則モデルにおける理論値の2λ=2ν=1が綺麗に実現しています。
タグ:
posted at 15:48:44
# 統計 サンプルサイズ n = 128 で
========== Estimates by normal model
2λ (std) = 1.9912157379734927 (0.2261384408382408)
2ν (std) = 1.934185419939284 (0.20383237518918526)
これもパラメーター数2の正則モデルの理論値2λ=2ν=2が数値的にきれいに得られています。
タグ:
posted at 15:50:10
@shota_nakamaki @Chikorin7 @seijiota 調べるとかなり話題(問題?)になっているようで、全国的にいろいろな意見が出ているので、指導要項に書いてあるんでしょうね。
ずっと同じではサボってると思われそうだから、教科書関係の仕事をしている人が、ちゃんと働いていますよーとアピールするために変えたんだろうと思ってます。
タグ:
posted at 16:21:39
「文化人」だの「知識人」だの「インテリ」だのというのは、物ごとをきちんと分析・検証しているわけじゃなく、思いつきをテキトーに言っているだけ。昔からそうだったのが、ネットによって可視化されるようになってきた、
という気がする。
遠山啓だって、検証するとおかしなことばかり言っている。
タグ:
posted at 16:31:36
#統計 例えば、サンプルサイズ n=8, 32, 128 でのWAICによるモデル選択の結果は添付画像の通り pic.twitter.com/c9JrbWIF0J
タグ: 統計
posted at 16:41:36
#統計 サンプルサイズ128でのLOOCV, WBIC, FreeEnergyによるモデル選択の結果は添付画像の通り pic.twitter.com/fcucpCPs17
タグ: 統計
posted at 16:44:41
#統計 参考までにサンプルに関する予測分布の-2倍された対数尤度Tの大小によるモデル選択と真の分布のカンニングが必要なので現実には不可能な汎化損失GLの大小によるモデル選択の結果も添付しておきます。 pic.twitter.com/RatTm4qsmS
タグ: 統計
posted at 16:47:18
はてなブログに投稿しました #はてなブログ
階層ベイズモデルを用いた労働時間と知的好奇心の関係分析 - kivantium活動日記
kivantium.hateblo.jp/entry/2017/11/...
タグ: はてなブログ
posted at 16:50:09
#統計 多分、以上で示した添付画像が何を意味しているか理解できれば、難しいという評判の渡辺澄夫著『ベイズ統計の理論と方法』の第4章にある各種定理が何を意味しているも理解できると思います。リンク先のJupyter notebookにも結構詳しい説明があります。
nbviewer.jupyter.org/gist/genkuroki...
タグ: 統計
posted at 16:51:25
#統計 まとめ
nbviewer.jupyter.org/gist/genkuroki...
これを読めば、
* WAICやLOOCVやWBICなどの情報量規準の計算の仕方がわかる。
* WAICの揺らぎがどのような性質を持っているかがわかる。
* モデル選択の様子もグラフで見ることができる。
* 双有理不変量λ,νの数値計算による推定の仕方もわかる。
タグ: 統計
posted at 16:54:20
#統計 サンプルサイズn=8,32,128の標準正規分布のサンプルをそれぞれ1000個生成して、すべてについてmixnormal, normal1, normalでベイズ推定した結果(WAICなどだけではなく、MCMCのチェインも含む)のデータを
genkuroki.github.io/documents/Jupy...
でダウンロードできるようにしておきました。
タグ: 統計
posted at 17:19:23
#統計 使い方:
(1) genkuroki.github.io/documents/Jupy... からダウンロードしたデータファイルと nbviewer.jupyter.org/gist/genkuroki... からダウンロードしたJupyter notebookを同じ場所において、Jupyter経由で開く。
(2) In[2~10]を念のために実行。
(3) In[14~19]には触らずにそれより下の部分を実行する。
タグ: 統計
posted at 17:23:39
【NEWS WEB EASY】やさしい日本語のニュースです。「囲碁の井山裕太さんが世界でいちばん強い中国のプロに勝つ」「スペイン ガウディが設計した別荘の中を見ることができる」などを公開しました。 #nhk_news www3.nhk.or.jp/news/easy/ pic.twitter.com/ABBTVcN7M8
タグ: nhk_news
posted at 18:24:05
非公開
タグ:
posted at xx:xx:xx
#統計 階層ベイズモデルを用いた労働時間と知的好奇心の関係分析 - kivantium活動日記 kivantium.hateblo.jp/entry/2017/11/...
タグ: 統計
posted at 19:44:31
自分用のメモ。高橋信さんの『マンガでわかるベイズ統計学』 shop.ohmsha.co.jp/shopdetail/000... が2017年11月25日に発売予定、と。 pic.twitter.com/UqH0zux4vU
タグ:
posted at 21:09:32
引用「本書はマンガを使ってベイズ統計学の基礎から実際の利用例まで解説するものです。…コンピュータシミュレーションでよく使われるモンテカルロ法やカルバック・ライブラー情報量についても解説しますので、マンガとはいえ実践的な内容となっているものです。」
タグ:
posted at 21:12:09
#統計 ベイズ統計のケースに以上で述べていたようなことが実際に起こっていることを数値的に確認したJupyter notebook (#JuliaLang カーネル)が
nbviewer.jupyter.org/gist/genkuroki...
混合正規分布モデルと正規分布モデルの各種情報量規準の比較
に置いてあります。たくさんの情報を詰め込んだノートです。
タグ: 統計
posted at 22:35:16
#統計 #JuliaLang
WAICはベイズ統計における予測分布の対数尤度の精密化として構成される情報量規準です。添付画像のケースではサンプルを真の分布にしたがってランダムに生成すると320~420のに値が広がることになります。WAICは大きくゆらぐ!続く pic.twitter.com/ImX2HBCtfS
posted at 22:41:12
#統計 注意:一つ前の添付画像ではKL情報量のスケールを2n倍してあります。
そして、真の分布q(x)に関する T_true=((-1/n)Σ_{k=1}^n log q(X_k)の2n倍)も320~420のあいだに値が大きく広がっています。
pic.twitter.com/ImX2HBCtfS
タグ: 統計
posted at 22:44:04
2016年
“正規の職員・従業員は,前年に比べ51万人増加し,3355万人。
非正規の職員・従業員は36万人増加し,2016万人”
www.stat.go.jp/data/roudou/so...
twitter.com/nakasone_3rd/s...
タグ:
posted at 22:45:49
#統計 WAIC も T_true もサンプルの取り方を変えると大きくゆらぐ。しかし、それらの差(添付画像の左下)のゆらぎは非常に小さくなります。WAIC - T_true の標準偏差が1.5程度になります。さらに面白いことに、(汎化損失GL)+WAIC-T_trueの標準偏差は0.22まで小さくなる。
pic.twitter.com/ImX2HBCtfS
タグ: 統計
posted at 22:47:21
いまだに誤解を生むような報道が続いているので、いつまでもこの誤解が続くのも仕方のない事かも知れませんが。
twitter.com/kuri_kurita/st...
twitter.com/kuri_kurita/st...
タグ:
posted at 22:52:31
給与総額は増え続けています。 www.nta.go.jp/kohyo/press/pr...
2016年は、
『前年に比べ、男性は1.2%の増加、女性は3.7%の増加』
『正規・非正規についてみると、正規154兆9,335億円、非正規19兆8,723億円で、前年に比べ、正規は1.7%の増加、非正規は3.8%の増加となった。』
twitter.com/okfarm_38/stat...
タグ:
posted at 22:58:50
今年もこんな季節になってきましたね。 #掛算 #超算数
twitter.com/kiharaneko/sta...
posted at 23:32:50
UFO教授 (藤木文彦 Fumihiko @UFOprofessor
@kiharaneko #超算数 これは、教師が作ったプリントで無く、ワークブックなどとして作られた物の様ですが、こういうおかしな教材を作る会社があるのは問題ですね。誰が監修したのか調べて、その人に正しい算数・数学教育を教えなければ。
タグ: 超算数
posted at 23:37:38
この問題、何がしたいんだろうか?
こういうの繰り返して、国民の算数力を削りたいの?
理不尽な不正解は、学習意欲を理不尽に削る。 twitter.com/kiharaneko/sta...
タグ:
posted at 23:37:49
掛順は「こう見ればa×bだけどこう見ればb×aとも言えるよね」みたいに言うこともあるんだけど、これは最大限譲歩して算数教育ワールドの設定に乗った上での話で、数学的正誤で斬っていいなら「どう解釈しようがa×bとb×aのどちらも正しい」で終了
タグ:
posted at 23:43:57
#統計 #JuliaLang すでに数学的素性が教科書などに書いてある場合にはプログラムを書くことにかける時間は少なくてすむ。
結構厄介なのが本質的な計算が終わった後のプロットの各段階。
これ、試行錯誤が常に必要な感じ。数学と無関係のプロットのコードを書く手間は馬鹿にできないほど大きい。
posted at 23:57:35