黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2020年11月01日(日)
Juliaの練習を細々続けてる。
最適化もクソもないコードでもとりあえず動くのが良い。
色が逆転してしまったが...
左:Kernel KMeans
右:Spectral Clustering
Spectral Clusteringは分け方で結果変わるからなんとも言えないけど、うまく分れたなー。 pic.twitter.com/szyj6X21I1
タグ:
posted at 00:37:43
#統計 p.31にも非常にまずそうな説明の仕方を発見!
さすがに【確率変数が持つ分布を特徴付ける値を、その期待値~という】という言い方は非常にまずい。
確率変数Xの分布はその函数の期待値𝔼(f(X))の全体で特徴付けられる、なら意味が通っていた。
続く pic.twitter.com/VCbB3AOYQ7
タグ: 統計
posted at 01:30:18
#統計 p.31での期待値に関する非常にまずい説明の仕方の直後のp.31の終わりに2行からその次のページ(添付画像)にかけて、上で私も説明した重要なことが説明されています。
データを生成した未知の確率法則を想定するときの確率法則は未知であるという当たり前の話がやっとここで説明されている。 pic.twitter.com/1Ik0VRiC7C
タグ: 統計
posted at 01:42:03
続き。脱線。
「簡単のために」という言い方を「我々」はよくするのですが、多くの人がその言い方に違和感を感じて文句を言っている、という面白い話があります。検索すると結構楽しめると思います。
脱線終わり。続く
タグ:
posted at 02:01:37
#統計 私も引用した『統計学を哲学する』のp.31を見て、ちょっと辛い気持ちになりました。
この本は非常に売れているようなので、そういう点については害が生じることを我々は覚悟する必要があるかもしれません。 twitter.com/u_m_v_u_e/stat...
タグ: 統計
posted at 02:33:46
#統計 添付画像に「統計モデル」に関するp.36の説明を引用しておきます。
この部分の説明は結構良いと思いました。
しかし、統計モデルを「確率モデルにさらなる仮定を加え」たものだと説明しているのは、2つの意味で誤解を招きかねないと思いました。続く pic.twitter.com/5f67VXwQfy
タグ: 統計
posted at 03:36:01
#統計 pp.41−42より
データを生成していると想定している未知の分布(本の中では「確率モデル」)における相関係数は母相関係数と呼ぶが、それとは完全に区別するべき統計モデルにおける相関係数はパラメータと呼ぶ方針ではなかったのか?
ここはちょっとひどすぎるかも。 pic.twitter.com/rTdulaA2ot
タグ: 統計
posted at 04:34:12
#統計 このスレッドに書いていることは、私がいつもしている話そのものなので、過去の発言をツイログで検索すれば、このスレッド内での説明不足の部分を補える可能性があります。
↓
twilog.org/genkuroki
タグ: 統計
posted at 04:40:57
Which do you prefer for returning nothing from a Julia function? #JuliaLang
タグ: JuliaLang
posted at 04:41:39
非公開
タグ:
posted at xx:xx:xx
Ben Bond-Lamberty @BenBondLamberty
@AditiSG No. I keep reading about it, though, and am tempted! Cousin-wow cool 😎
タグ:
posted at 05:44:24
おーすごい
【回路×Python】線形回路解析パッケージLcapyを使えるようにする方法
qiita.com/akikazu/items/... pic.twitter.com/fnE1BiDVAp
タグ:
posted at 06:10:55
#統計 一般読者のための資料
データ(サイズnのサンプル)を生成した分布が分析用のモデルで実現できない場合のフィッティングの様子
ソースコード↓
nbviewer.jupyter.org/github/genkuro...
データはガンマ分布で生成
正規分布モデルでフィッティング pic.twitter.com/PJXmgKKpgQ
タグ: 統計
posted at 07:28:26
#統計
正規分布モデルによるフィッティングは標本平均と標本分散の計算と実質的に同じ。
Laplace分布モデルによるフィッティングは標本の中央値の計算を含む。
標本の代表値の計算は統計モデルと関係有り。
nbviewer.jupyter.org/github/genkuro...
データはガンマ分布で生成
Laplace分布モデルでフィッティング pic.twitter.com/vnYK9vos49
タグ: 統計
posted at 07:28:30
#統計
動画の右半分は尤度函数のヒートマップです。
nbviewer.jupyter.org/github/genkuro...
データは2つ山の混合ガンマ分布で生成
単なるガンマ分布モデルでフィッティング pic.twitter.com/M6f49rSOTS
タグ: 統計
posted at 07:28:33
Masa Yamamoto予測誤差が大き @mshero_y
基本中の基本であり忘れてはいけない前提。
ところが最近気づいたのは、深層学習では実現可能なんです、と語る人たちがかなり多くいること。
いわゆるコンサルや評論の方々の中にはかなりの数の人たちが'実現可能'というか深層学習は実現していると考えているよう。
話が合わない理由の一つ twitter.com/genkuroki/stat...
タグ:
posted at 08:58:03
Masa Yamamoto予測誤差が大き @mshero_y
最近はベイズという名がついた書物、章を読むのが怖い… twitter.com/genkuroki/stat...
タグ:
posted at 09:22:30
Masa Yamamoto予測誤差が大き @mshero_y
たぶん、この部分が当たり前だと頭に入ってくる人と、それは数学的な前提であって数学はよくわからんからと屁理屈でソッポを向く人とがいるんだなと最近理解が深まっている twitter.com/genkuroki/stat...
タグ:
posted at 09:40:59
#統計 より実践的な例。添付画像は論文
pubmed.ncbi.nlm.nih.gov/32046819/
での新型コロナの潜伏期間の推定を同じ方法で行なってプロットした予測分布。論文にはないグラフ。
3種類のモデルを試している。私がWAICを計算したら値に大きな違いはなく、優劣は付けられなかった。
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/O5qzStYcgV
タグ: 統計
posted at 12:18:06
#統計
東京大学教養学部統計学教室編『統計学入門』
【事前に母集団分布が××分布という形で与えられており、いくつかの定数がわかれば、母集団分布についてすべてを知ることができる場合、それをパラメトリックの場合と呼ぶ】
この説明の仕方は非常にまずい。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:21:14
#統計 解説:グラフはモデル内での潜伏期間の分布の密度函数のプロットです。
原論文と同様にベイズ統計を使っていますが、「主観確率」の「ベイズ主義」に基くベイズ統計は使っていません(笑)。信念がベイズ更新されたりもしていない(笑)。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:39:52
x^(n/m)やx^(-n/m)をα0+Σ_i αi/(x+βi)と近似する係数を求めるソフトウェアAlgRemezをBinaryBuilder.jlを用いてJuliaから呼び出せるものを作った。add AlgRemez_jllで入れられる。
using AlgRemez_jll
algremez() do exe
run(`$exe 1 2 5 5 0.0004 64 40`)
end
しかしMacでだけGMP関連で落ちる。なぜ?
タグ:
posted at 12:41:02
Macでだけ、
Reason: Incompatible library version: algremez requires version 15.0.0 or later, but libgmp.10.dylib provides version 14.0.0
というエラーが出る
タグ:
posted at 12:43:01
#統計 『統計学を哲学する』のp.31の引用の再掲
私はまだp.42までとp.91にしか目を通していないのだが、その中ではこのページが最もひどい。
この本の著者は「期待値」の標準的な意味を理解していない。 pic.twitter.com/1GOfy209IQ
タグ: 統計
posted at 12:54:16
#統計 真っ当な人がレビューしていてくれれば、p.31のような非常識な説明が生き残る可能性はなかったはず。さすがに
【確率変数が持つ分布を特徴付ける値を、その期待値~という】
という説明はまずすぎる。
せめて「期待値」の標準的な定義を理解してから本を書くべきであった。 pic.twitter.com/deAP22cll6
タグ: 統計
posted at 12:58:48
#統計 i.i.d.の場合のカノニカル分布の理論については、私のノートで結構詳しく解説されています↓
genkuroki.github.io/documents/2016...
Kullback-Leibler 情報量と Sanov の定理
* 大数の法則
* 中心極限定理
* Sanovの定理
は統計学における確率論の「三種の神器」。Sanovの定理は通常解説されていない。
タグ: 統計
posted at 13:15:40
#統計 具体例はコンピュータでかなり容易に作れます。
nbviewer.jupyter.org/gist/genkuroki...
統計力学におけるカノニカル分布の最も簡単な場合 (#Julia言語)
添付動画は X と √X の期待値で特徴付けられる一般化されたカノニカル分布をMCMC法で作る様子の動画。 twitter.com/genkuroki/stat... pic.twitter.com/AUQ38a6RtC
タグ: 統計
posted at 13:24:55
これ不思議で、入ったバイナリを直接実行する場合は問題ない。しかしJuliaから使おうとすると落ちる。BinaryBuilder.jlでコンパイルしたときに新しすぎるGMPだったんだろうか
タグ:
posted at 13:28:31
#統計 正値の確率変数Xについて、Xと√Xの期待値で特徴付けられる一般化されたカノニカルの台はx>0で密度函数は
定数×exp(-ax+b√x)
の形で、ガンマ分布などに似た形の分布になります。パラメータのaとbが逆温度の一般化になっている。
こういう話は非常に面白いです。 pic.twitter.com/sou8TcimdD
タグ: 統計
posted at 13:31:05
OokuboTact 大久保中二病中年 @OokuboTact
算数教育の専門書を熟読中。
「長方形と正方形の面積」の教え方について読んでいたら、積分が出て来てので少し驚いた。
タグ:
posted at 13:33:09
#統計 添付動画は一般化されたカノニカル分布としてのガンマ分布の実現の様子です。正値確率変数Xに関するXとlog(X)の期待値でガンマ分布は特徴付けられます。
ガンマ分布のパラメータの推定値はサンプルの相加平均と相乗平均から得られます。続く
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/GnQ6oFxUqU
タグ: 統計
posted at 13:54:25
非公開
タグ:
posted at xx:xx:xx
#統計 以上で述べた一連の「雑談」の内容は、コンピュータを使った最も優しいMCMC法の演習としても価値があります。
数学的一般論によって収束先の分布がどうなるかを知っていても、コンピュータで再現できると理解が進みます。
添付動画は収束先が正規分布の場合。 pic.twitter.com/AuHhAwEtNv
タグ: 統計
posted at 14:18:57
#統計 注意
* これは中心極限定理の動画では__ない__。
* 正規分布の密度函数の定数倍を使ったMCMC法の動画でも__ない__。
* カノニカル分布としての正規分布を分布のランダムウォークで実現する動画で__ある__。
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/dOroacspzL
タグ: 統計
posted at 14:24:00
#統計 適当に動ける範囲に制限を付けて分布をランダムウォークさせたときの収束先の分布は、その制限の範囲に含まれる分布の中でもっともありがちな分布であるということになります。
ランダムウォークで適当に制限された範囲で最もありがちな分賦を探索している様子の動画↓ pic.twitter.com/cuJySqu6MC
タグ: 統計
posted at 14:33:05
#統計 ソースコード nbviewer.jupyter.org/gist/genkuroki... も全公開しているので、自分で以上のような計算をコンピュータにやらせたい人はいつでも「答えのコード」を閲覧することができます。
この手の計算に #Julia言語 は非常に向いています。
posted at 14:36:12
#統計 件の本のp.47の図1.4のように
www.math.wm.edu/~leemis/2008am...
から添付画像の部分を引用しても、各種の分布の理解に役に立つことはありません。
統計モデリングでのビルディングブロックになるような確率分布の理解はそういうものではありません。
私がしている雑談に近い試行錯誤が重要です。 pic.twitter.com/rRw0ThqzFt
タグ: 統計
posted at 14:42:16
他人が作った曼荼羅っぽい図を引用したりせずに、自分の試行錯誤の結果を図にまとめないとダメ。
そして真に意味のある試行錯誤をしていれば、網羅的な曼荼羅図が出来上がることは決してないと思う。
タグ:
posted at 15:19:22
Ninja DAO | CryptoNi @CryptoNlnjaNFT
こういうのは学会でもよくあって、役員は「好きでこんなのやってるんじゃないよ」と思っている一方で、実態としてはだからこそ逆に「互いに頼みやすい」一部の人々による寡占化が進む。「やらされている」と思っているからこそ、批判者への対応が雑になり、時にひどく「上から目線」になる。
タグ:
posted at 15:28:01
#統計 豊田『瀕死本』について、図5.2, 5.3のphcのグラフがある種のP値とほぼぴったり一致していることを確認すればそのダメ具合が分かると思います。
P値にほぼ一致のphcを使ってP値の使用を批判するというわけの分からないことをやっている(笑)
nbviewer.jupyter.org/gist/genkuroki...
twitter.com/aokikenichi/st... pic.twitter.com/sGNWswZvPY
タグ: 統計
posted at 15:53:07
@genkuroki この辺ですかね?
www.amazon.co.jp/%E5%A4%A7%E8%A...
歴史書として過去のことを紹介してるだけなのか、あくまで頻度vsベイズしかり客観確率vs主観確率を第一原理的に扱ってるのかビミョーな書き方ですが、かなり話題作にはなってました
タグ:
posted at 16:00:46
#統計 豊田『瀕死本』のphcが対応するP値にほぼ等しいという事実からわかることは、豊田さんのphc推しの主張が、例えば「帰無仮説p=0.5の両側検定」という緩めのゴールを「帰無仮説p≧0.7の片側検定」という厳しめのゴールにずらすこと(めちゃくちゃ陳腐!)とほぼ等価になっているということです。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 17:01:28
#統計 事前分布については、以下に引用するように考えておけばよい。
gamp.ameblo.jp/yusaku-ohkubo/...
【・事前分布はRIdge回帰やLASSO回帰のように推定値を安定化させるための道具であり、主観的な事前の信念を反映させるものではない
・事前分布は、事後予測分布などを通じて客観的に評価可能である】
タグ: 統計
posted at 20:26:51
#統計 ベイズ統計の技術を使えば、今までオーバーフィッティングが原因で不可能だった推定が可能になりだろう的な話は40年前の赤池弘次さんの論説にも書いてあります。
ismrepo.ism.ac.jp/index.php?acti...
統計的推論のパラダイムの変遷について(1980)
の第6節を参照
タグ: 統計
posted at 20:49:37
1次元移流方程式をLax-Wendroff法で解いています。リミターを入れないとLax-Wendroff法は不連続部分で振動します。非常に基礎的なスキームですが、ちゃんと勉強し直そうと思い実装しました。網羅的にやりたいです。コードはJuliaで書いています。 pic.twitter.com/DUCsQvzbdF
タグ:
posted at 21:42:08
#統計 ベイズ統計入門
未知の確率分布を持つサイコロXの出目の確率を「確率分布は添付画像のサイコロA,B,Cのどれかである」というモデルを使って推定してみよう。
サイコロAは1,2が、Bは3,4が、Cは5,6が出易いイカサマのサイコロのモデル化である。続く pic.twitter.com/cOKPG3xtFI
タグ: 統計
posted at 22:22:39
#統計 ケース1
事前分布として、サイコロA,B,Cの確率はどれも1/3を設定し、サイコロXを何度も振って出た目を使ってベイズ更新を行う。
添付動画はそのベイズ更新の様子である。出目の割合を表す赤のドットの動きを見ると、サイコロXの確率分布はモデルのサイコロA,B,Cのどれとも違うっぽい。続く pic.twitter.com/VTy84Fi5vL
タグ: 統計
posted at 22:22:44
#統計 ケース1つ続き
実はこのケース1でのサイコロXはイカサマでないすべての目がどう確率で出るサイコロである。
この場合にはサンプルサイズ→∞でベイズ更新は収束せず、推定結果は決して真実に到達しない。 pic.twitter.com/rrJFRQs1rI
タグ: 統計
posted at 22:22:50
#統計 ケース2
このケース2のサイコロXはケース1のそれとは異なる。
ケース2におけるベイズ更新の結果はモデルのサイコロBに収束している。
しかし、出目の割合の赤のドットを見ると、このケース2のサイコロXはベイズ 更新の収束先のサイコロBとは違うっぽい。 pic.twitter.com/2xdOuWr6Z2
タグ: 統計
posted at 22:29:25
#統計 ケース2続き
実はこのケース2におけるサイコロXでは3の目だけが他の目よりも出る確率が少しだけ高い。
この場合には、ベイズ更新はモデルの範囲内で真実を最もよく近似する分布(サイコロB)に収束するが、決して真実にはたどりつかない。 pic.twitter.com/vykKQcJinU
タグ: 統計
posted at 22:29:31
#統計 ところが『統計学を哲学する』p.83(添付画像)には、まるでモデルの分布族で実際のデータ生成プロセスを全然表現できない場合であっても【ベイズ流の更新のプロセスは最終的に真理に到達しうる】と書いてある‼️
これなに?
ベイズ統計を全然わかっていないように私には見えた。 pic.twitter.com/p6wng64MpO
タグ: 統計
posted at 22:37:32
A: タイピングの速さを見せつけろ
B: Juliaってsum(A:B)がO(1)なんですよね
C: 直線がy軸と並行な場合を忘れていました2ペナ
D: n % 100が8の倍数なら良いので、同じ数字が3個以上ある場合はそれを捨てて構築する
ちなみに私は普通にWAを出した後にコピペミスを3回しました。対戦よろしくお願いします
タグ:
posted at 22:40:03
【開票速報 】
『大阪都構想』住民投票は反対多数が確実!!
#大阪都構想
#大阪住民投票 pic.twitter.com/PypLZlWt5X
posted at 22:44:02
【速報 JUST IN 】「大阪都構想」住民投票 反対多数が確実 #nhk_news www3.nhk.or.jp/news/html/2020...
タグ: nhk_news
posted at 22:46:01
#統計 以下のリンク先(このスレッドのちょっと上)にある動画を作るためのソースコードは
nbviewer.jupyter.org/gist/genkuroki...
においてあります。このスレッドで使っていない動画もそこで閲覧できます。ベイズ更新の様子を直観的に理解するために有用だと思います。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 22:49:34
木登りヤギ@ 我らの耳はちくわ、目は節穴 @kinoboriyagi
この動画、めちゃくちゃ興味深い。鳥や爬虫類が卵から出るのに卵歯が必要なことは知っていたのに、古い殻にどうやって裂け目を作るのか考えたことがなかった。色んな昆虫の脱皮の始まりを見てみたい。
twitter.com/toyotahotarum/...
タグ:
posted at 23:18:22
非公開
タグ:
posted at xx:xx:xx
JuliaはメソッドなくてもOOPできるって、まあそりゃそうなのだけど、でも
corge(qux(baz(bar(foo(x),2)),42))
って書くよりは
x. foo. bar(2). baz. quz(42). corge
って書くほうがストレスフリーなんじゃ!ってわざわざthenまで使ってメソッドチェーン化してるRubyistとしては思うわけである。
タグ:
posted at 23:24:32