Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2017年11月15日
並び順 : 新→古 | 古→新

2017年11月15日(水)

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 続き。3つのモデルはどれも標準正規分布を含む。以上の3つのモデルの中で、分散1の山が1つの正規分布モデルが最も単純なので、各種情報量規準でどのような確率でそれが選択されるかを知りたいわけです。サンプルサイズは8,32,128の3種類で、各々1000回のシミュレーションを行っています。続く

タグ: 統計

posted at 23:58:12

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 現在走らせているのは、分散1の山が1つの正規分布モデル(パラメーターは期待値の1つだけ)と、分散1の山が2つの混合正規分布モデル(パラメーターは3個)の比較です。ついでに分散もパラメーターとする単純な正規分布モデルも比較しています。サンプルは標準正規分布で生成。

タグ: 統計

posted at 23:55:45

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 続き。この辺のことを、みんなに見せたくて、現在 #JuliaLang で計算している最中です。うまく行ったら、Jupyter notebookを公開します。うまく行かなかったら、「黙ること」になるので、察して下さい(笑)。

タグ: JuliaLang 統計

posted at 23:53:50

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 続き。そして、KL_nの(サンプルの取り方に関する)揺らぎの方向と WAIC-L_n(w_0) の揺らぎの方向はほぼ逆向きになります。実際に相関係数をシミュレーションで数値計算してみると、非常に大きな値(0.8とか0.9のような値)になります。ほぼ逆向きにあまり大きくなく揺らぐ。

タグ: 統計

posted at 23:50:07

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 続き。しかし、WAIC-L_n(w_0) の揺らぎの大きくないです。その理由が「定理15」なのです。「定理15」によれば、KL情報量をKL_nと書くとき、

KL_n + (WAIC - L_n(w_0)) = O(1/n)

です。KL_nの揺らぎは大きくないので、WAIC-L_n(w_0)の揺らぎも大きくない。続く

タグ: 統計

posted at 23:48:17

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 計算結果はこうなります:

L_n(w_0) = 2n log√(2π) + X_1^2 + … + X_n^2.

だから、X_k が p(x|w_0)=q(x)=(標準正規分布)に従う確率変数ならL_n(w_0)の揺らぎは自由度nのカイ二乗分布になります。その分散は√(2n)です。このオーダーでWAICはゆらぐことになります!続く

タグ: 統計

posted at 23:45:12

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 AICと同じスケールのL_n(w_0)の定義は

L_n(w_0) = -2Σ_{k=1}^n log p(X_k|w_0)

です。p(x|w_0)=exp(-x^2/2)/√(2π) (標準正規分布)の場合にこれを直接計算してみましょう。続く

タグ: 統計

posted at 23:42:26

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 続く。複数の確率モデルを比較するときには、情報量規準から確率モデルによらない量(サンプルごとには変化してもよい)を引いても、情報量規準の大小関係には影響を与えない。そして、L_n(w_0)の大きな揺らぎがWAICの揺らぎの大部分を占めているのです。上で示した例よりもはるかに大きく揺らぐ。

タグ: 統計

posted at 23:40:19

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 続き。簡単のためにサンプルを生成する真の分布q(x)を含む確率モデルを比較する場合を考える。そのとき、q(x)=p(x|w_0)で、

L_n(w_0) = -2Σ_{k=1}^n log q(X_k).

これは真の分布q(x)とそれが生成したサンプルだけで決まる量になっており、上の制限のもとで確率モデルの取り方によりません。

タグ: 統計

posted at 23:34:38

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 続き。汎化損失とWAICの差を直接考えるのはとても筋の悪い考え方です。なぜならば、汎化損失は座標系に依存する量なので、代わりにKullback-Leibler情報量を考えるべきだし、KL情報量の揺らぎ方と比較するべきなのはWAICそのものの揺らぎ方ではなく、WAIC-L_n(w_0)の揺らぎ方だからです。続く

タグ: 統計

posted at 23:24:12

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 続き~、WAICが無節操にその程度に揺らぎまくるならば(同一の確率分布が生成した異なるサンプルは異なるWAICを与える)、微妙なモデル選択にWAICは全く使えないということになりそうです。しかし、「定理15」のおかげで実際にはそんなことではないことがわかります。続く

タグ: 統計

posted at 23:19:51

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 例えば実際に計算した場合にはこんな感じ(添付画像)。(後でJupyter notebookを公開することを約束します。まだJuliaさんたちが並列計算中なので公開できない。)

汎化損失GenLoss=91.5よりもWAIC=94.2は2.7も大きい。微妙なモデル選択ではこの程度の差が問題になるので~続く pic.twitter.com/5sgNtc1qck

タグ: 統計

posted at 23:17:33

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 WAICは汎化損失の推定値なのですが、実際に数値計算してそれらの差を確認すると、WAICと汎化損失の差は相当に大きくなることがあります。その様子を見れば誰でも「WAICが汎化損失の周囲をこんなに大きく揺らぐのに、WAICの大小関係でモデル選択して大丈夫なの?」と不安になると思う。続く

タグ: 統計

posted at 23:09:10

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 渡辺澄夫著『ベイズ統計の理論と方法』の定理12(p.114)から即得られる定理15(p.119)の特にβ=1の場合は結構重要。なぜならば数値実験すると、WAICは汎化損失の周囲を大きく揺らぐから。

以下では渡辺澄夫さんのスケールを全部2n倍して、AICの伝統的なスケールを採用することにします。続く

タグ: 統計

posted at 23:05:55

積分定数 @sekibunnteisuu

17年11月15日

@kankichi573 #掛算 #超算数 「外延量的内包量」などという「豪華粗品」並の言葉がある段階でお察しを・・・
eprints.lib.hokudai.ac.jp/dspace/bitstre...

遠山啓は何でこんな阿呆な概念を後世に残していったのだろうか?

タグ: 掛算 超算数

posted at 20:16:10

ねs/nes @nes_nyan

17年11月15日

銀英伝を見たドイツ人が「名前がダサすぎて集中できない」と言ってた話しぬほどすき

タグ:

posted at 19:25:52

畠山勝太/サルタック @ShotaHatakeyama

17年11月15日

有色人種の学生を特定の学校群に閉じ込めることに最も成功している州が実はカリフォルニア(白人のいないヒスパニック系オンリーの学校がとても多い)。リベラルを気取っている州だけど、その実やっていることが大変エグく、これはポリコレが建前に過ぎないと罵られても仕方がない感じがした。

タグ:

posted at 16:29:59

畠山勝太/サルタック @ShotaHatakeyama

17年11月15日

今日の授業でこれの人種版を見たけど、もっと差が鮮明だった。アメリカはここ20年で、白人オンリーだった学校に有色人種が混じるようになってきたので多様化が進んだように見えるが、有色人種が多かった学校から白人が消えたという状況が東海岸・西海岸で顕著に見られる(続)
twitter.com/Knjshiraishi/s...

タグ:

posted at 16:24:43

Masahiro Hotta @hottaqu

17年11月15日

⚡️ 「赤池弘次さんの2つの論説を読んで」(作成者: @genkuroki

twitter.com/i/moments/9290...

タグ:

posted at 15:56:22

@kuri_kurita

17年11月15日

いまだに「アベノミクスで実質賃金が下がったー! 民主党時代には上がってたのに!」と騒いでる人がいるけど、不況になって低賃金労働者の首が切られると平均の賃金は「上がる」ということぐらい、学校で教えておいてもらいたい。小学生でも分かる。
実際に昭和恐慌の際にも実質賃金は「上がった」。

タグ:

posted at 13:03:36

io302 @io302

17年11月15日

@togetter_jp ワクチンは事実を述べるほど、利権、隠ぺい、自称、IPアドレス確認、最近は分数できない、とか言われるけど、デマ放置で被害受けるのは何も知らないこどもだから何度でも否定しておく。

しかし毎度思うが、ワクチンの「害」は関心高いが、ワクチンで予防できる「疾患」に注目しないのはなぜなんだろ?

タグ:

posted at 09:34:31

非公開

タグ:

posted at xx:xx:xx

io302 @io302

17年11月15日

@togetter_jp 『臨床研究を理解しているNATROM氏や他の医師が、リツイートしない理由』

これが一番あきれましたよ。『RTされた=正しい意見』って時点で思考停止してるじゃん。RTされなきゃ正しい意見じゃない訳?NATROMさんがRTしたら医学的に正しいの?あきれるね。

タグ:

posted at 08:38:06

io302 @io302

17年11月15日

@togetter_jp 『学会がOK出している』

個人の情報の集積から、学会が声明を出してるんだけどね。なので個人の勝手な判断で行うよりも確実。なおかつその声明はWHOや厚労省、CDCとも違いはない

タグ:

posted at 08:35:07

io302 @io302

17年11月15日

@togetter_jp 『新しいワクチンを2-7種も同時接種』

言うのも面倒だけど、すでに同時接種の治験を行ってから発売されてるからね。あと論文が古かろうが、新しかろうが、内容の問題だから。

『実際に同時接種で死亡例も』

同時接種と単独接種、未接種で死亡率に差がない事は世界的に証明されてるけどね

タグ:

posted at 08:31:22

io302 @io302

17年11月15日

@togetter_jp 別に怒り狂っちゃいないが、ワクチンの『事実』を述べただけで、なんで個人の『国語力』とか『算数力』に話が及ぶのかね~?

『根拠を提示して批判』っていうけど、そもそも『根拠』が間違ってると理解できないのかしら?専門家が支持している『根拠』じゃないでしょ、それ

ameblo.jp/karasawa-hotak...

タグ:

posted at 08:28:30

io302 @io302

17年11月15日

@togetter_jp ツイートさかのぼれば、Seki_yoさんが拡散した反ワクチン情報が閲覧できますよ~。スクリーンショットしすぎて忘れてるんじゃないの?

twitter.com/seki_yo/status...

タグ:

posted at 08:03:34

io302 @io302

17年11月15日

@togetter_jp そもそもワクチンに関して間違いを主張した覚えはない。HPVワクチン被害にあっていようがいまいが、個人攻撃は許されるものではない。冷やかしている医療ジャーナリストの伊藤隼也氏も同様。医療ジャーナリストならば、近藤誠氏の反ワクチン本に関して賛同なのか否か科学的に発言しては? pic.twitter.com/gnmSvQIGme

タグ:

posted at 07:57:42

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 「頻度主義 vs. ベイズ主義」という対立図式を描くことは、デタラメの域を通り越して、単なるトンデモ扱いがふさわしいと思う。

既出の赤池さんの1980年の論説でも「頻度主義 vs. ベイズ主義」という対立図式を格調高くフルボッコにしていました。

タグ: 統計

posted at 05:16:35

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 赤池弘次さんは、数十年前に、最尤法であろうが、ベイズ統計における事前分布であろうが、モデルの尤度やその精密化である情報量規準を使って予測精度の良し悪しを評価できることをはっきり述べています。

数十年以上時代遅れな大学の先生がベイズ統計を教えているという悲劇がある。

タグ: 統計

posted at 05:12:50

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#数楽 おそらくベイズ統計についておかしなことを言っている先生は、赤池弘次さんが書いたものを読んだことがないのだと思う。

twitter.com/genkuroki/stat...

タグ: 数楽

posted at 05:07:15

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 以下のリンク先で実際にデタラメを広めている人が存在することの証拠を紹介している。
twitter.com/genkuroki/stat...

タグ: 統計

posted at 05:03:47

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#統計 「やや誤解を招く」ではなく、もっとはっきり「デタラメだ」と、はっきりみんなで言った方がよい話。一部の大学の先生がこういうデタラメを授業や講演で宣伝しているように見える。「間違ってました。ごめんなさい」の一言が必要。

twitter.com/utaka233/statu...

タグ: 統計

posted at 05:00:28

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#超算数 そういう中学校の実名は証拠とともに広く周知されるべきで、その中学校の教育のクズな部分がきちんと改善される方向に持って行くべきだと思いました。
twitter.com/9sargldpzenztg...

タグ: 超算数

posted at 04:45:10

タクラミックス @takuramix

17年11月15日

…退社する前に気づいて、過酷な仕事観を他者に押し付けないよう気をつけて、人間としてやっていける職場に繋がりそうな意見も出すように転換したんで、多分、恨まれずに退社できたとは思うが、自分が倒れる経験をせず、過労死レベルの仕事を当然と捉える人間のままで退社してたら恨まれていただろう。

タグ:

posted at 04:38:38

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang

DecisionTree.jl (ランダムフォレスト)のパッケージは並列処理に対応済み
discourse.julialang.org/t/parallel-ran...

タグ: JuliaLang

posted at 04:37:38

タクラミックス @takuramix

17年11月15日

…倒れて見せて、業務を溢れさせて、客を困らせてやらない限り、上は動かないの。
時間内で終わらないもの、人間を保てる範囲で出来ない事については、もしも自分にその能力があるのだとしても、やっちゃダメなんだよね。
超人みたいに頑張っても、まず報われないし、最終的には恨まれるよ。

タグ:

posted at 04:34:41

タクラミックス @takuramix

17年11月15日

…増えていく作業やらトラブルやら、それでもなんとか客に迷惑かけちゃ駄目だと思って必死に解決していった結果だったのよ。
でもね、そこまでやっても、結局は本質的な解決を絶対に上はやってくれなかったんだよね。
そういう時にはスーパーマンに成っちゃ駄目なんだよ。
常人として倒れなきゃ駄目。

タグ:

posted at 04:31:20

タクラミックス @takuramix

17年11月15日

…従来通りに出来るように、ツールも手順も用意して教えたんだけどね、私のやり方は、明らかにやり過ぎの領域になっていて、過労死レベルのものだったんだよね。実際、私自身がヤバイ精神状態になった事もあるワケで、これさ、やり始めた頃に、さんざん改善要求してたのに聞き入れてもらえなくてね…

タグ:

posted at 04:29:17

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang #数楽 ガンマ分布に限らず、任意の指数型分布族は「もっともありがちな確率分布」として特徴付け可能です。その背景にあるのが、Kullback-Leibler情報量に関するSanovの定理であり、その一般化としての大偏差原理です。指数型分布族のユーザー達はこの手の教養を身に付けておくべき。

タグ: JuliaLang 数楽

posted at 04:25:23

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang #数楽 ガンマ分布は、通常の加法平均に上限があって、相乗平均(もしくは対数の加法平均)に下限がある場合の「もっともありがちな(サンプルサイズが大きなときはほぼ確率1で生じる)確率分布」です。こういう数学的教養を前提にガンマ分布によるフィッティングをやる方がよいと思う。

タグ: JuliaLang 数楽

posted at 04:22:54

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang #数楽 nが大きなとき、正のx_1,…,x_nの加法平均に上限を設け、相乗平均に(低すぎない下限)を設け、その制限内でx_1,…,x_nをランダム生成すると、x_1,…,x_nの実数直線上での分布はほぼガンマ分布になります。これは本質的に統計力学におけるカノニカル分布の話の特別な場合。

タグ: JuliaLang 数楽

posted at 04:20:02

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang

nbviewer.jupyter.org/gist/genkuroki...
平衡状態でのカノニカル分布としてのガンマ分布

はGIF動画作成の例になっているだけではなく、subplot2grid()で複数のプロットを1枚の画像にする方法の例にもなっています。あと、富のランダム分布時に対数型効用の期待値に下限を設ける話にもなっている。

タグ: JuliaLang

posted at 04:16:43

Kenji Shiraishi @Knjshiraishi

17年11月15日

話題になっていたアメリカの住民の学歴をマッピングしたサイト。全国の街をみることができて面白い。青色が院卒、緑色が学部卒、黄色が短大等、橙色が高卒、赤色が高卒未満。自分の住むAlbanyは院卒が4割を超える。シンプルなマッピングだが、とてもいい。日本にもないかな。
personal.tcu.edu/kylewalker/map... pic.twitter.com/5hFFZrEFtR

タグ:

posted at 04:16:14

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang Julia言語+matplotlib+Imagemagickの組み合わせでGIF動画を作る方法

nbviewer.jupyter.org/gist/genkuroki...
平衡状態でのカノニカル分布としてのガンマ分布

時刻tでの1フレーム分の作画函数

function plot1frame(t)
clf()

plot()
end

の~の部分を変えれば他の動画も作れる。

タグ: JuliaLang

posted at 04:11:31

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang PyPlotの複数作画で柔軟に配置を決めたい場合にはsubplot2gridを使うと便利かも。

matplotlib.org/api/_as_gen/ma...

Julia言語でPyPlotパッケージを使用すると、Python→Juliaの翻訳力が増す。その最大の利点はmatplotlibの膨大な使用例をJulia言語でも利用できるようになること。

タグ: JuliaLang

posted at 04:06:33

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang PyPlotのsubplotで複数の画像を1枚の画像にまとめようとすると、まとめたグラフの周囲が重なって悲しい思いをすることがあります。そういう場合には最後に

tight_layout()

を実行すると重なりを無くすように自動的に調節してくれます。この手のことで時間を取られることが多い。

タグ: JuliaLang

posted at 03:56:52

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#Julialang Jupyter notebookでJulia言語を使用する場合には、以下のリンク先の解説にある方法を真似して、julia -p auto のようにjuliaを起動してくれるカーネルJupyter notebookにを追加しておくと便利です。

nbviewer.jupyter.org/gist/genkuroki...
の「1.10 Jupyter-Notebook-へのカーネルの追加方法」の節

タグ: Julialang

posted at 03:52:56

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang をJupyter notebookで使っていてかつ並列処理を行いたい場合には(多くのパッケージが最初から並列処理に対応している)、Jupyter notebookからJuliaをjulia -p autoのように起動するようにしておく必要があります。これを知らないと「あれ?Juliaって並列処理してくれないの?」となる。

タグ: JuliaLang

posted at 03:50:21

黒木玄 Gen Kuroki @genkuroki

17年11月15日

#JuliaLang 演算子や函数に . を付けると、配列のサイズを大きい方に合わせて処理してくれてかつメモリーの使用効率も上がります。例えば、縦ベクトル相当の1次元配列x,y (それぞれ長さがm,n)について、y'はn次元横ベクトル相当の2次元配列になり、x+y'はm×n行列相当の2次元配列になります。

タグ: JuliaLang

posted at 03:48:39

Takayuki Uchiba @utaka233

17年11月15日

あと、同じような話で「95%信用区間には真のパラメータが95%の確率で入っている」っていうのもよく見るんですが、あれもちょっとミスリーディングなんじゃないかと思う。あくまで事後分布の95%範囲であって、真のパラメータは区間に入っているか否かしかないと思う。

タグ:

posted at 03:27:11

Takayuki Uchiba @utaka233

17年11月15日

なので「頻度主義はデータを確率変数,母数を定数としています。」という主張は「ベイズでもそうでは?」と思う。「ベイズではデータが変化すれば母数は当然変化します。」は「あくまで事後分布が変わるだけで真の値は同じだよね」となるし、推定量の実現値がデータに応じて変わるのは頻度論も同じ。

タグ:

posted at 03:25:54

Takayuki Uchiba @utaka233

17年11月15日

だから、安心してMAP推定量の一致性を議論できるはず。(例えば、渡辺先生の本の第3章)

タグ:

posted at 03:20:20

Takayuki Uchiba @utaka233

17年11月15日

この種の主張を本当によく見るけど、やや誤解を招くと思う。ベイズ統計も頻度論と真の分布は1つしかないのは同じ。あくまでベイズ推定というframeworkとしてパラメータに事前分布・事後分布を敷いているって認識してる。(例えば渡辺澄夫先生の本の第1章) twitter.com/stattan/status...

タグ:

posted at 03:18:24

Keita Abe @keita43a_en

17年11月15日

Akaike said AIC stands for “An Information Criteria”. twitter.com/genkuroki/stat...

タグ:

posted at 02:43:11

Miki Yutani @mkyutani

17年11月15日

どうしちゃったの、赤池さん… twitter.com/genkuroki/stat...

タグ:

posted at 02:34:33

math26 @math26

17年11月15日

週刊将棋、ものすごくもったいないタイミングでの休刊だったのかも

タグ:

posted at 00:06:52

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました