黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2018年02月21日(水)
#統計 最尤法もベイズ推定法もKullback-Leibler情報量の意味でモデルの確率分布で真の確率分布を近似する方法。だから、KL情報量で確率分布の違いを測ることが極めて基本的。KL情報量のSanovの定理が大数の法則なみに基本的な定理になる。解説は次のリンク先にある。
genkuroki.github.io/documents/2016...
タグ: 統計
posted at 22:14:22
#統計 以上のようなコンピューターでの実装+数値的確認をすませた後の方が証明もきっと読み易くなっていると思います。証明を読むときには私による議論の一部簡単化のノートも参考になると思います。以下の場所で公開してありあります。
genkuroki.github.io/documents/2016...
一般化されたLaplaceの方法
タグ: 統計
posted at 22:02:47
#統計 #Julia言語 添付画像はそのIn[33]より。
KL =(G_n - L(w_0)の2n倍)
WT = (W_n - L_n(w_0)の2n倍)
です。サンプルは標準正規分布で生成し、mixnormalモデルは分散1の正規分布の山が2つの混合正規分布モデルで、normal1は分散1の1つ山の正規分布モデルです。続く pic.twitter.com/ZH03s19n3T
posted at 21:52:36
#統計 #Julia言語
nbviewer.jupyter.org/gist/genkuroki...
これは山の分散を1に固定した混合正規分布のサンプルサイズ128の場合の分析結果です。In [33]以降が非常に面白いです。
posted at 21:48:47
#統計 #Julia言語
nbviewer.jupyter.org/gist/genkuroki...
これは1次元の分散1の山が2つの混合正規分布モデルの場合です。WAICの計算は信用できます(WBICの計算は誤差が大きい)。混合正規分布モデルではベイズ推定の数値計算にMCMC法を使いました。このノートブックで作ったデータは別のノートで分析されています。
posted at 21:44:55
#統計 以下はすべて #Julia言語 による例です。
nbviewer.jupyter.org/gist/genkuroki...
正規分布の共役事前分布(正規ガンマ分布)
これは全部手計算でベイズ推定の計算が可能な正規分布モデルを扱っています。最も簡単な1次元の場合。WAICとWBICなどの公式も書いてあります。よく見れば定理15の成立も確認可能。
posted at 21:42:48
#統計 渡辺澄夫著『ベイズ統計の理論と方法』に書いてある証明を理解することは非常に大変です。
しかし、証明を理解できなくても、主張の内容が何であるかを理解して、実用的に利用することであれば1年以内に可能な人は多いと思います。ただし、数値実験必須。続く
twitter.com/ML_deep/status...
タグ: 統計
posted at 21:13:52
#統計 添付画像は
nbviewer.jupyter.org/gist/genkuroki...
で作成。サンプルサイズ64の場合。真の傾きはb=0.3なのに、最小二乗法では傾きbは負であると推定してしまう場合が結構生じてしまいます。
正しい残差モデルで推定した方では推定値の分散がかなり小さくなっている。
pic.twitter.com/X5lYGCsCgh
タグ: 統計
posted at 21:09:00
ベイズ統計の理論と方法、私には難しくて読み切ることができなかったんですが、業界としてはあのレベルを読み切れるのが標準なのでしょうか……🤤
学問って上見だしたら自分がアホにしか感じられない。ある種の諦めもつくので辛くはないけど😌 twitter.com/genkuroki/stat...
タグ:
posted at 21:03:07
#統計 ソースコードと計算結果を
nbviewer.jupyter.org/gist/genkuroki...
で全公開しているし、実行環境も自分のパソコンにインストールする必要はなくて、ブラウザさえ使えていれば
juliabox.com
で足ります。もちろん無料で使えます。
タグ: 統計
posted at 20:40:21
何だったのだろう。個人的に間違いを消すのはどうかと思うんだけど、まぁ仕方ないよなぁ、twitterだし twitter.com/genkuroki/stat...
タグ:
posted at 20:35:59
@DarthDraghi 計算ではない通常のシステム構築用途の発想で作られた言語のはずなのに、その上に計算用のライブラリが大量に作られてしまっているのがとても苦しいですね……。
タグ:
posted at 20:16:01
#統計 y=a+bx+εでεが正規分布と大幅に違う指数分布に従っているサンプルに、最小二乗法と残差に関する正しいモデルである指数分布残差モデルによってa,bの値を推定すると、最小二乗法は残差を正規分布でフィッティングする推定法なので誤差が大きめになってしまう。 pic.twitter.com/X5lYGCsCgh
タグ: 統計
posted at 19:44:44
#統計 誤解を生まないためには具体例が重要。というわけで私はすでに数値実験例をソースコードも含めて公開しています。
nbviewer.jupyter.org/gist/genkuroki...
これは最も易しい「y = a + bx + ε」型の回帰を扱っています。ただし、サンプルの残差εは正規分布ではなく、指数分布に従う場合を扱っています。続く
タグ: 統計
posted at 19:18:00
最尤推定だろうがOLSだろうが、役立つ方が嬉しいくらいの私には詳しいことは述べられませんが
とりあえず「線形」という言葉が"パラメータに対して"使われてるってことを認知してないと、一般線形モデルでさえどこが線形やねん!!!!とか思ってしまうかも(勉強したての頃自分は思ってしまった🤐) twitter.com/genkuroki/stat...
タグ:
posted at 19:00:49
#統計 リンク先へのコメント。
最良線形不偏推定量における「線形」の定義は「y=a+bx+cx^2+εのようにxについて非線形項を含まない」という意味では**ない**です。
「推定量β_jがY_iについて線形である」という意味です。この条件が超絶強すぎることを理解しないとダメ。
twitter.com/yutawt/status/...
タグ: 統計
posted at 18:48:55
今年?昨年から今年にかけて6人の高校生にプログラミング(セルらオートマトン)仕込んだら一人は食いついて来て遊んでる。率的には良い方だと思うけど...そもそもプログラミングとは何かという話で。 twitter.com/ktonegaw/statu...
タグ:
posted at 18:30:51
非公開
タグ:
posted at xx:xx:xx
@DarthDraghi 行列とか周りの記法がコンピューティング寄りすぎて数学フレンドリーじゃないので嫌いなのと、importとかの仕様がややこしいのと、バージョンが混乱しててめんどくさいのと、matplotlibとかが謎とか、色々理由があります……。
タグ:
posted at 17:24:32
非公開
タグ:
posted at xx:xx:xx
先月、FDAの諮問委員会は、iQOSが害が少ないと言うエビデンスは無いとして、「iQOSが紙巻タバコよりも害が少ない」と宣伝することを禁じました。
この件に関する日本語の記事を見ると、何故かiQOSが紙巻タバコよりも害が少ないことをFDAが認めたという内容になっています。
time.com/5119302/iqos-c... twitter.com/yusuke_tsugawa...
タグ:
posted at 16:14:33
加熱式タバコと電子タバコに関してまとめました。
メタアナリシスで電子タバコの受動吸入の有害性が示されており、加熱式タバコは紙巻タバコと電子タバコの中間に位置付けらるものですので、加熱式タバコの受動吸入も有害であると考えらえています。
#受動喫煙防止法案 pic.twitter.com/e4mN9zyT3X
タグ: 受動喫煙防止法案
posted at 16:09:21
本日の詰将棋(7手詰)です。
わかったら「いいね」ボタンをお願いします。
→ヒント、解答はこちら buff.ly/2Car234
#詰将棋 #まいにち詰将棋 #7手詰 pic.twitter.com/c3uTNp6Pih
posted at 15:00:04
引用元の通り今日からAQが幽玄の間に導入されています。
さっそく打ってみたらなんと初戦から勝ててしまいました(*⁰▿⁰*)
これからはZenに加えてAQともたくさん打って修行して行きます💪 twitter.com/ugennihonkiin/...
タグ:
posted at 14:53:22
強姦致傷罪等で韓国で服役していた #キリスト教福音宣教会 = #摂理 の教祖・鄭明析が10年の懲役刑を終え18日に出所。'06年に性的被害の告発があり、日本の大学で多数信者を獲得していたことで問題になった団体です。当会は19日に会見を開き、「声明と注意喚起」を出しました。 www.jscpr.org/archives/356
タグ: キリスト教福音宣教会 摂理
posted at 14:50:26
非公開
タグ:
posted at xx:xx:xx
@genkuroki ウォリスの式、教科書にはないようですが、数研出版「チャート式」啓林館「Focus Gold」という参考書には載っていました。いずれも教科書会社の本ですので、先生用の指導書の類には載っているのかもしれません。
タグ:
posted at 13:46:46
@akinori_ito AIC, WAIC, ...の実際の計算例が
nbviewer.jupyter.org/gist/genkuroki...
nbviewer.jupyter.org/gist/genkuroki...
にあります。前者は分散を1に固定した2つ山の1次元混合正規分布を扱い、後者は1次元正規分布の最も基本的な場合を扱っています。前者ではMCMCの繰り返しを15時間程度続けたので、結構大変でした。
タグ:
posted at 13:46:00
@akinori_ito ただし、現実の問題で、Qさんは現実世界そのものになり、真の分布qは永久に秘匿されることになるので、予測誤差D(q||p_X)そのものは計算不可能。
だから、汎化誤差 G(q||p_X) = D(q||p_X) + S(q) の推定値で我慢するしかないわけです。(S(q)はシャノン情報量)
タグ:
posted at 13:33:57
@akinori_ito AさんとBさんは推定法として、最尤法(頻度論)を使ってもベイズ推定法を使ってもよいし、単なる感で予測分布を決めてもよい。
どんな方法であっても推定で得た予測分布が真の分布qに近ければ勝てる。
頻度論もベイズ統計も単なる感もこの基本設定では平等に扱われます。
タグ:
posted at 13:29:21
@akinori_ito Qさんがある確率分布qに従ってn個の乱数を独立に発生させて公開する。(乱数が従う確率分布qは秘密にしておく)
AさんとBさんはQさんが公開した乱数列から未知のqを推定し、それぞれp_A, p_Bとして発表する。
予測誤差=KL divergence D(q||p_A)とD(q||p_B)が小さい方を勝ちとする。
これが基本設定。
タグ:
posted at 13:25:48
@akinori_ito AICやWAICは予測分布の相対的良し悪しを比較するための規準。
推定に用いた確率モデルと事前分布の組の相対的良し悪しを比較するための情報量規準にベイズ自由エネルギー(=モデルエビデンス=対数周辺尤度)およびその推定値(BIC, WBIC)があります。
ここまでやらないとベイズ統計はよくわからない。
タグ:
posted at 13:18:13
@akinori_ito しかし、近似精度(=Kullback-Leibler)にある未知の共通の定数(母集団分布のShannon情報量)を加えたものであれば、サンプルから推定値を得る方法が開発されています。
最尤法ではAICが有名。
ベイズ推定法ではWAICが優れています。
AICやWAICの大小関係で予測分布の良し悪しを推定できます。
タグ:
posted at 13:13:19
@akinori_ito 続き。基本問題は、確率モデルとサンプルから〇〇推定法で得た母集団分布の近似になっていると期待される確率分布(予測分布)がどれだけの精度での近似になっているかを見積もる方法の開発。
サンプルデータのみから、近似精度そのもの(KL divergence)を見積もることはたぶん無理。
続く
タグ:
posted at 13:09:13
@akinori_ito 補足:現実には、推定に使う確率モデルの範囲内に、母集団分布が入っていない可能性が高い。
こういう意味では最尤法でもベイズ推定でも確率モデルのパラメータの中に「真の値」なるものは存在しないことになります。
確率モデルにサンプルを食わせて推定させて母集団分布の近似を得る話になる。続く
タグ:
posted at 13:05:29
@akinori_ito いいえ。
ベイズ統計でも未知の母集団分布は決まっていると考えます。母集団分布が〇〇分布の族に含まれているなら、確率分布を決める真のパラメータ値は1つに確定していることになる。
頻度論とベイズの二通りの統計学があるという発想が誤り。赤池さん以後の現代でさすがにこれはない。続く
タグ:
posted at 12:58:25
非公開
タグ:
posted at xx:xx:xx
Wallisの公式の証明は
(1-y)^{1/2}(1-y)^{-1/2}=1
という自明な公式にTauber型定理を適用するという方針の証明もあります。
シンプルとは限らない一般のランダムウォークの逆正弦法則の証明に必要になるアイデア。
mobile.twitter.com/genkuroki/stat...
タグ:
posted at 11:10:27
「我々」が見れば、高校数学IIIの教科書に書いてある各種の計算が普遍的かつ基本的な面白い数学の話に繋がっていることがひとめでわかるし、教科書の編著者がそういうことも意識していそうなこともわかる。そういう教科書を使って教える側の数学的教養はとても大事。
タグ:
posted at 11:00:13
OKUMURA, Akira(奥村 曉) @AkiraOkumura
中高の理科で習う「統計処理」の一つに、複数回の測定で平均値から外れた測定値が存在すると、それは測定ミスだとみなして捨てる、というのがあった。これはもちろん非科学的な態度で、実際に駒場の必修の実験で実データに適用したら、担当教員にえらい怒られて全ての測定のやり直しを命じられた。
タグ:
posted at 10:59:54
twitter.com/paul_painleve/...
資料補足。以下のリンク先で、高校数学IIIのある教科書に ∫_0^{π/2} sin^n x dx の計算が詳しく書いてあることの証拠が引用されています。
初めて見たときに私は「おお!高校でWallisの公式も教えているのか!」と勘違いしてしまいました。
twitter.com/genkuroki/stat...
タグ:
posted at 10:56:06
最近、「パスワードは別送しますは無意味」という記事が増えていて、それはそれでいいことだと思うのだが、そういう記事が「続きを読むにはログインが必要です。」になってるのも何だかなあと思ってしまうので同じようにやめてほしい。
タグ:
posted at 09:44:02
非公開
タグ:
posted at xx:xx:xx
非公開
タグ:
posted at xx:xx:xx
(メモ)「デメリットがはっきりしていて、メリットがないという検査が、子どもに対して大規模に行われており、しかもその事実が親御さんたちにまったく伝えられていないという状況が起こっています」
【SYNODOS】「福島の甲状腺検査をめぐる倫理的問題」(大阪大学 髙野徹氏)synodos.jp/science/21127
タグ:
posted at 08:49:50
非公開
タグ:
posted at xx:xx:xx
非公開
タグ:
posted at xx:xx:xx
Masayo Takahashi @masayomasayo
ステロイド報道(副作用を強調したので、ステロイドの使用を拒否する患者が増えてアトピーで全身火傷状態の痛ましい患者が増えた)、小さな合併症なども医療ミスと報道の嵐、大野産婦人科事件(医療崩壊の引き金となる事件)、子宮頸がんワクチン(WHOにも馬鹿なことはやめろと言われる世界の笑い者) twitter.com/masayomasayo/s...
タグ:
posted at 08:27:15
非公開
タグ:
posted at xx:xx:xx
非公開
タグ:
posted at xx:xx:xx
非公開
タグ:
posted at xx:xx:xx
非公開
タグ:
posted at xx:xx:xx
非公開
タグ:
posted at xx:xx:xx
非公開
タグ:
posted at xx:xx:xx
非公開
タグ:
posted at xx:xx:xx
Nature is Amazing ☘️ @AMAZlNGNATURE
Look how cute this Chinchilla is 😍 pic.twitter.com/csLZEwvhde
タグ:
posted at 05:28:51
パンルヴェ方程式の既約性を判定する「梅村の Condition (J) 」(この条件を満たすと超越次数1の特殊解が存在し、超幾何函数解を得る。証明にはスキーム論に基づく微分ガロア理論が必要である)の「J」は「条件 jyoken の J」である。梅村さんご本人に聞いた。 twitter.com/K_tech_k/statu...
タグ:
posted at 03:16:41
quiverをstreamplotにして、rotをpcolormeshで追加。rotが正(赤色)だと反時計まわりに点が回転して、負(青色)だと時計まわりに点が回転してるのがわかる。 pic.twitter.com/2XGVDGDhJw
タグ:
posted at 03:13:59
今日の今研vs. AQの三番勝負は感動的だったなあ。真剣勝負なんだけど、どこか人間とAIが融和してるような。お互いの良い所を引き出すような対局と雰囲気。勝負イベントですが研究会という場だったのが素晴らしかったと思います。
タグ:
posted at 01:16:44
非公開
タグ:
posted at xx:xx:xx
@kunisakamoto いや,ちがうな,過去の ひとびとの 因果理解と,(なんらかの 意味での)ほんとうの 因果関係は,また,区別しなければ ならないわけで.たいへんですね….
タグ:
posted at 00:43:44
@kunisakamoto うんうん.歴史は (ある 程度)現在とは ことなる folk prychology を もった ひとびとによって つむがれてきた,という 可能性を かんがえると,「どこまで 歴史を 素朴に 解釈できるのか 問題」,にも なる.むしろ ピンカーなら,不変の 人間本性に うったえて 素朴な 解釈を 擁護できそう.
タグ:
posted at 00:40:20
@kunisakamoto なるほど.そういう 直観的な 世界観に 対して,想定外の 因果関係についての 主張が できるのが 自然科学の つよみだと おもうんだけれど,歴史的な 現象については,けっきょく,おてあげなんだろうね.
タグ:
posted at 00:25:05
iTerm + GR だと何度プロットしても大丈夫だな。
Linux でもこれくらい安定してくれるといいのだが。
#julialang twitter.com/goropikari_/st...
タグ: julialang
posted at 00:24:20
@morgenroethe5 日常生活のなかでも、いやいやBの原因としてAを認めるのはおかしいよ。それらは別の話だよ、という指摘はあるよね。ハリソンの指摘は、そういうタイプのものだと思う。
タグ:
posted at 00:22:05
@kunisakamoto やっぱり 素朴物理学か.とすると つよく ピンカーを 批判できるのか 微妙ですね.ピンカーも そういう 直観を 利用しているのでは? 歴史家どうしで,因果関係の 認定を めぐる 論争が あるなら,もうすこし 基準が 明瞭に なるのかも しれないと おもうんだけれど.
タグ:
posted at 00:15:03
@morgenroethe5 うーん、私たちの日常の判断とそんなに変わらないんじゃないかなあ。AとBが時間的にそんなに離れていなくて、AがなければBがなかったと推測されるときに、AがBの原因じゃないかと言いたくなる、くらいの。
タグ:
posted at 00:08:47
@kunisakamoto 『啓蒙なう』,まだ よみはじめた ばかりなんだけれど,逆に,プロ歴史家が 事象間の 因果関係を みとめる時って,どうゆう 根拠に もとづいて やるんですか?
タグ:
posted at 00:00:11