黒木玄 Gen Kuroki(@genkuroki)/2017年10月/Page 6

#数楽誰かが特定の確率分布に従う乱数を発生させるプログラムqを書き、qは秘密にしておき、qが生成する乱数列X_1,…,X_nのみを公開する。そして、X_1,…,X_nからqの予測分布pをみんなで作る。予測誤差D(q||p)が最小のpを作った人が優勝。こういうルールで遊べるはず。

タグ：数楽

posted at 23:00:17

#数楽誰かに「推定結果 p_1 の方が p_2 より優れていると思う(主観)」と言われても他人の我々は困るわけで、p_1 と p_2 を比較する客観的な指標が欲しい。ベイズ推定法で得られた予測分布の予測精度の比較はWAICを計算することによって客観的な方法で可能です。

タグ：数楽

posted at 22:56:52

積分定数 @sekibunnteisuu

.@kankichi573 さんのコメント「「教養のない人が書いた文だ」っておもっくそ振りかぶってブーメラン投げたら案の定、額のど真ん中に突き刺さったでござる。」にいいね！しました。 togetter.com/li/1164585#c42...

タグ：

posted at 22:36:31

#数楽予測分布の予測精度(未知のqのモデルpによるシミュレーショの精度)という概念は予測分布を作る方法によらずに定義される概念です。ベイズ統計の解説者の多くが、「頻度主義 vs. ベイズ主義」というくだらないだけではなく、誤解を広める有害な話をしていることが多いので注意が必要。

タグ：数楽

posted at 22:30:01

積分定数 @sekibunnteisuu

@aquaberrymarine 追加したよ(*´▽｀*)ﾉ
togetter.com/li/1164585

タグ：

posted at 22:28:02

#数楽ベイズ推定法の場合にはWAICを使える。その他にも一個抜き交差検証LOOCV(およびその変種)も使えますが、G(q||p) の推定精度ではWAICの方が上のようです。
statmodeling.hatenablog.com/entry/comparis...

タグ：数楽

posted at 22:26:58

#数楽未知の確率分布 q が生成したサンプル X_1,…,X_n を何らかの学習機にぶちこんで予測分布 p を作ったとき、pによるqのシミュレーションの精度を比較したくなる。ベイズ推定法と最尤法がうまく行く場合にはそのために使える便利な指標があるということです。

タグ：数楽

posted at 22:22:58

#数楽個人的には、 2n する前の WAIC は小文字で waic と書き、2n倍した後の伝統的なAICのスケールに合わせたWAICは WAIC と大文字で書くことにしています。

タグ：数楽

posted at 22:20:26

#数楽渡辺澄夫さんの教科書の W_n のスケールにはKullback-Leibler情報量のスケールと一致しているというメリットがあります。伝統的なAICのスケールは、対数尤度比のカイ二乗検定で使われているスケールと一致しているので、カイ二乗分布に慣れていると分かり易いです。

タグ：数楽

posted at 22:18:44

#数楽 WAICのスケールに関する注意：渡辺澄夫さんの教科書で採用されているWAICの定義を W_n とするとき、そのスケールを伝統的なAICのスケールに合わせるためには 2n 倍した 2n W_n を計算する必要があります。どちらのスケールにも一長一短がある。続く

タグ：数楽

posted at 22:16:23

#数楽 WAICはベイズ推定法で予測分布を作ることがうまく行く場合に計算でき、AICは最尤法がうまく行く場合に計算できます。それら両方に関する良い教科書があります。

渡辺澄夫著『ベイズ統計の理論と方法』
www.amazon.co.jp/dp/4339024627

タグ：数楽

posted at 22:14:49

#数楽続き。ただし、WAICもAICも乱数列(サンプル)X_1,…,X_nの出方によってゆらぐので、予測精度の大小を確実に決定できるわけではありません。しかし、サンプルのみから計算できる貴重な客観的指標なので計算できるならばした方がよいです。

タグ：数楽

posted at 22:13:06

#数楽続き～、未知の乱数プログラムqが生成した乱数列X_1,…,X_nから、qを近似的にシミュレートできると期待される乱数プログラムp_1, p_2を作ったときに、p_1とp_2のどちらの予測精度が高いかを知りたければWAICやAICを計算することになります。

タグ：数楽

posted at 22:11:27

#数楽～、複数のqのシミュレーターpのWAICやAICを比較することによって、どのシミュレーターの予測精度が高そうかを知ることができます。大事なポイントはqが未知のままであっても、qが生成する乱数列の情報だけからWAICとAICは計算できること。続く

タグ：数楽

posted at 22:09:35

#数楽 WAICやAICは、予測誤差の指標であるKL情報量D(q||p)そのものではなく、それにpによらない量であるI(q)を足したものになります。だから、WAICやAICを計算すると予測誤差そのものはわからないが、～続く

タグ：数楽

posted at 22:07:41

#数楽ベイズ統計におけるWAICや最尤法におけるAICは

G(q||p) = D(q||p) + I(q)

の推定量です。qが未知であっても、qが生成する乱数列X_1,...,X_nが既知ならばWAICとAICは計算可能です。続く

タグ：数楽

posted at 22:05:45

#数楽続き。KL情報量についても同様です。二つの乱数発生プログラムq,pが従う確率分布が同じならば D(q||p) = 0 となり、予測誤差も 0 になります。それ以外の場合には D(q||p) > 0 となり、予測誤差が正の値になる。予測誤差はボロが出る速さの指標です。続く

タグ：数楽

posted at 22:03:18

#数楽仮にコンピューター囲碁プログラムが100%の確率で人間の強者が打つ手を生成できるならば、p=1なので -log p = 0 になります。これは予測誤差が 0 であることを意味しています。p<1のとき -log p > 0 となり、-log p は予測誤差の指標になります。

タグ：数楽

posted at 22:01:35

#数楽続き～の分を無視すれば、KL情報量 D(q||p) はコンピューター囲碁プログラムが人間の強者の打つ手をシミュレートするときにボロが出る確率における -log p にちょうど対応しています。KL情報量は -log p の一般化になっています。続く

タグ：数楽

posted at 22:00:13

Thibaut Lienart @t_lienart

My first package in #JuliaLang hosted by the @turinginst is now official, whoop!
github.com/alan-turing-in...

タグ： JuliaLang

posted at 21:59:03

#数楽続き。n回の試行でボロが出ない確率p^nは次のように書き直される：

p^n = exp(-n (-log p)).

一般の場合はKL情報量D(q||p)について

(n回でボロが出ない確率) = exp(-n D(q||p) + o(n)).

誤差項o(n) ～続く

タグ：数楽

posted at 21:58:41

#数楽囲碁の手を人間に強者の手とそうでない手の2つに分類し、あるコンピューター囲碁のプログラムが人間の強者の打つ手を生成する確率が仮にpだとします。人間の強者が打たない手を生成した途端にボロが出たことにすると、n回の試行でボロが出ない確率は p^n です。続く

タグ：数楽

posted at 21:56:29

#数楽 Sanovの定理の良い解説が見付けられなかったので、自前で書きました。次のリンク先にあります。

genkuroki.github.io/documents/2016...

仮想想定読者は理学部物理学科2～3年生の学生。Kullback-Leibler情報量が予測精度の指標になることがわかる。続く

タグ：数楽

posted at 21:54:03

#数楽 Sanovの定理：乱数プログラムpで生成した乱数列 X_1,...,X_n が乱数qプログラムで生成しているかのように見える確率は

exp(-n D(q||p) + o(n))

のように振る舞う。D(q||p)は0以上になり、その値が大きいほどボロが出るのが早くなる。

タグ：数楽

posted at 21:51:25

#数楽続き～漸近的に測れます(Sanovの定理)。D(q||p)の定義は

D(q||p) = G(q||p) - I(q),
G(q||p) = -∫q(x)log p(x) dx,
I(q) = -∫q(x) log q(x) dx.

I(q)はqの情報量。続く

タグ：数楽

posted at 21:49:15

12 @ethi_12

掛算の順序問題、Twitterで定期的に見るんだけど、数学的に同じものを片方をバツ、片方をマルにすることは端的に駄目だと思う

タグ：

posted at 21:46:34

#JuliaLang #数楽続き。どのような確率分布 q(x) に従っているのかわからない乱数発生プログラム q を別の確率分布 p(x) に従う乱数発生プログラム p でシミュレートしたときにボロが出る速さはKullback-Leibler情報量 D(q||p) で～続く

タグ： JuliaLang 数楽

posted at 21:46:30

#JuliaLang nbviewer.jupyter.org/gist/genkuroki... に計算例があるベイズ推定法におけるWAICは最尤法におけるAICと同様に推定の結果得られる予測分布の予測精度の指標。小さいほど予測分布による真の分布のシミュレーションでボロが出るのが確率的に遅くなる。

タグ： JuliaLang

posted at 21:43:41

neko @mayumi3141

「図書新聞」10月28日号を入手(大都会の大型書店にはあるでしょう)
鼎談「日本会議」本を斬る！(斎藤正美・能川元一・早川タダノリ)は、読み応えあり。
ノイホイ・菅野完の「日本会議の研究」の問題点もとても納得できる。
能川さん「最低2冊以上読み比べてほしい」
ですね。 pic.twitter.com/Ua449rPURM

タグ：

posted at 20:21:16

@tanimocchi 統計処理の学習用にはいいかもですね < R

タグ：

posted at 14:54:28

もっちぃ @tanimocchi

Rは研究だったりプロトタイプで使う、そんな感じ。まぁ、言語環境自体が脆弱性の塊なのでClosed Systemでもない限り実運用が危険なのはその通りかなと。ただ、型とか本気で無茶苦茶で、ある意味突き抜けていて楽しいからおｋとか思ってる。 twitter.com/NaOHaq/status/...

タグ：

posted at 14:51:00

#JuliaLang 続き。一つ前のJupyter notebookの最後の「カラオケにおける抑揚と点数」での推定では、おそらく、モデル y = a + bx + ρT(ν) のνをハイパーパラメータ扱いして最適化した方が精度の高い予測分布が得られます。

タグ： JuliaLang

posted at 14:31:13

#JuliaLang 続き。実際にそうしている例が

nbviewer.jupyter.org/gist/genkuroki...
t分布による線形回帰の実験

にあります。Julia言語で確率分布を定義して、MCMCシミュレーションして、WAIC(予測精度の代表的指標)を求める簡単な例になっています。

タグ： JuliaLang

posted at 14:22:22

堀畑和弘 @kazzhori

@genkuroki こんにちは。小池主任がお探しでした。メールは返信してください。

タグ：

posted at 14:20:43

#JuliaLang Julia言語のMambaでは複数のチェインを生成するときに、可能な場合には自動的に並列処理してくれます。そして、そのことが原因でMambaを使う場合には各種定義を {at}everywhere begin ～ end のあいだに書く必要が出て来ます。

タグ： JuliaLang

posted at 14:19:21

非公開

タグ：

posted at xx:xx:xx

#JuliaLang Jupyter notebookではjuliaを julia -p auto で立ち上げるカーネルを登録しておくと、気軽に並列処理を楽しめます。その方法は

nbviewer.jupyter.org/gist/genkuroki...

で解説済み。

タグ： JuliaLang

posted at 14:15:12

#JuliaLang 続き

BigFloatのprecisionとparallelマクロの相性テスト
gist.github.com/genkuroki/a10e...

{at}everywhere setprecision(64)
のようにしておけばparallelマクロで正常に足し算可能。 pic.twitter.com/P4mCNpN344

タグ： JuliaLang

posted at 14:12:26

#JuliaLang

Julia v0.6 でBigFloatのsetprecisionとparallel macro(並列処理のマクロ)の相性をテストしてみました。

結論：everywhere しておけば問題無し。

続く

twitter.com/kuromoyo/statu...

タグ： JuliaLang

posted at 14:10:35

minemaz @minemaz

@NaOHaq PyCall.jl とかなpluginもあってPython資産もわりと生かせるかとヽ(´ー｀)ノ github.com/JuliaPy/PyCall...

タグ：

posted at 14:06:03

みんな、私は使ったことないけど、 Julia という言語がなんかベンチマークの結果を見る限りPythonの30倍くらい速そうだぞ！ julialang.org/benchmarks/

タグ：

posted at 14:04:01

そこで「エビデンスはあるんですか？」と質問してみた。「かけ算順序固定を教えた子供と教えなかった子供をグループに分けて、算数の理解力に優位な差が出たという信頼すべき研究データはあるんですか？」と。

タグ：

posted at 14:02:21

あと、その小学校教師がおかしかったのは、「かけ算順序固定を教えると子供の表情が明るく、のびのびとなるんです！」とか、まるで宗教団体のパンフレットみたいな怪しげなことを大真面目に言ってたこと（笑）。いや、そんな主観的なデータで論じられてもねえ。

タグ：

posted at 13:57:57

PythonとC++がどーのこーのでイキっている皆様、NASAのサイトにPythonと他の言語でデータ処理をさせたときの速度比較が載っています。modelingguru.nasa.gov/docs/DOC-2625 / とりあえずRがクソ遅いことがわかります。

タグ：

posted at 13:47:04

公式では2πrだから、2×3.14×3と書く子供も多いはず。ところがかけ算順序固定論では、求める単位の数字（この場合はcm）を先頭にする決まりなっている。だから先頭は3なんだけど、2番目が3.14なのか2なのか、子供には分からない。それどころか教師ですら分からない！

タグ：

posted at 13:43:22

@amedama NASAのサイトに比較が載ってる modelingguru.nasa.gov/docs/DOC-2625 が、とりあえずRがクソ遅いということはわかる

タグ：

posted at 13:40:59

前にこういう「かけ算順序固定論」を信じている小学校教師に会ったことがある。その人に「たとえば『半径3cmの円の円周の長さを求めなさい』という問題の場合、どういう式を書くんですか？」と質問したら、待ってましたとばかり、すごく嬉しそうに説明をはじめた――円の面積の求め方を。

タグ：

posted at 13:29:35

あめ玉/もわもわ @amedama

@NaOHaq Juliaってそんなに速いんですか！？

タグ：

posted at 13:18:05

前田敦司 @maeda

「政策当局者らの主要な関心は、景気回復の継続よりもインフレーションの抑制に向けられることになったのである」

タグ：

posted at 12:23:38

前田敦司 @maeda

「「1937年の過ち」はリフレーションに伴う諸便益を放棄し、あらゆる政策の方向性を反転させることとなった。1937年に入ると、Fedと主要な政府高官は金利引き上げをほのめかすようになり、財政緊縮を支持する立場を鮮明にするようになった」

タグ：

posted at 12:23:23

前田敦司 @maeda

(｢・ω・)｢ｶﾞｵｰ @bicycle1885

「1937年の過ち」は景気回復の基盤が未だ脆弱な中での予防的な引き締め…具体的に言うと、「1937年の過ち」は、1933年に入って採用されることになった「リフレーション」（“reflation”）政策の放棄を意味する決定であった htn.to/syDYdk

タグ：

posted at 12:22:05

(Juliaを使えば良いんじゃないかな!!!)

タグ：

posted at 11:57:47

白蔵盈太/Nirone @「桶狭間で死 @Via_Nirone7

つまりPythonの5.5倍以上の速度で動作して、C++の5.5倍以上の速度で習得できるプログラミング言語があればいいんだな。
(ていうかJulia使えばいいんじゃないのか……)

タグ：

posted at 10:05:30

非公開

タグ：

posted at xx:xx:xx

私が小さい頃、大人からはよく

「今の子供たちはテレビばっかり見ているから将来バカになる」

って心配されてたけど、最近は若者のほうが

「ジジババはテレビばっか見てて、それ以外の情報源が無いからバカだ」

と言ってるのが面白いなと思う。

タグ：

posted at 07:46:34

Paalon @paalonshamoji

Cで書いても結局Pythonでグラフ書くので最初からCythonでやるかJulia使った方が良いかもしれない

タグ：

posted at 07:32:10

ゆきまさかずよし @Kyukimasa