黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2020年02月12日(水)
#Julia言語 Plots.jl
私はバックエンドを結構切り替えています。使うのは
pyplot(fmt=:svg)
gr()
pyplot()
plotlyjs()
pgfplots()
の5つくらい。下に行くほど使用頻度が低い。
twitter.com/astellon_music...
タグ: Julia言語
posted at 23:50:16
ごまふあざらし(GomahuAzaras @MathSorcerer
pkg> dev PackageCompiler 😀 twitter.com/MoseGiordano/s...
タグ:
posted at 23:46:17
非公開
タグ:
posted at xx:xx:xx
@owainkenway If you want a complete compilation in #JuliaLang you should try something like github.com/JuliaLang/Pack... I never played too much it though
タグ: JuliaLang
posted at 23:38:44
非公開
タグ:
posted at xx:xx:xx
#統計 例えば、パラメータwの事前分布と確率モデルp(x|w)とサンプルで決まる事後分布をψ(w)と書くとき、事後分布に関する平均二乗誤差を最小にするw*を求めると、w*は事後分布の平均値になります。
続く(続きが重要)
twitter.com/apap1031/statu...
タグ: 統計
posted at 23:34:25
#統計 添付画像は、渡辺澄夫さんの
watanabe-www.math.dis.titech.ac.jp/users/swatanab...
より。味のあるスライドで独特の雰囲気がある。すこ。
1970年台の赤池弘次さん以後に確立した統計学の枠組みであれば、データを用いたモデルの相対的評価について考えます。
この枠組みで「入門」した方が良いと思う。 pic.twitter.com/5mlDfEMEDw
タグ: 統計
posted at 22:58:00
#統計 Waldの決定理論の枠組みでは(事前分布など諸々の要素を含む)モデル内部で何らかの意味で合理的な意思決定を行う話にしかならず、現実においての妥当性をどう確保するかという問題には無力。
モデル自体の評価を扱える枠組み抜きでは複雑な現実に立ち向かう道具の話にならないから全然ダメ。続く twitter.com/apap1031/statu...
タグ: 統計
posted at 22:49:35
Rのχ2乗検定(Yatesの補正がデフォ)にいろいろと問題があるっぽいという話をいまさら知る。補正をなしにしてやってみると自分のデータだと結果は変わらないけど、数字は結構大きく動く。
タグ:
posted at 21:12:16
#統計 n=100
プロット上では4種のP値函数がほぼ重なっています。
ここまで来ると、二項分布の正規分布近似よる通常の信頼区間とベイズ統計の信用区間を区別する必要はほぼないと言ってよいでしょう。
それなら、よりシンプルな通常の信頼区間を使った方が得だと思います。 pic.twitter.com/u6faXZxWfq
タグ: 統計
posted at 21:00:38
#統計 n=50の場合。4種のP値函数がかなりよく一致しています。両端に来た場合にのみ分離する。
ベイズ統計でも事後分布からP値の類似物を定義でき、ベイズ版予測分布に対数尤度比検定を適用できます。定義の詳細は以下のリンク先のノートのコードを参照。
#Julia言語
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/VWSAqTCNjj
posted at 20:58:32
#統計 1つ前のツイートはn=10の場合。以下はn=20の場合。
以下の4種のP値函数のプロット
* Normal. 二項分布の正規分布近似で構成したP値
* Posterior. 事後分布から作ったP値の類似物
* AIC. 最尤法の対数尤度比から作ったP値
* WAIC. ベイズ予測分布の大数尤度比から作ったP値 pic.twitter.com/xYwKybdE66
タグ: 統計
posted at 20:56:04
#統計 ベルヌイ分布(歪んだコイン投げ)モデルでは、AICやWAICと直接的に関係している対数尤度比でP値を定義することもできます。事後分布からP値の類似物を定義することもできる。二項分布の正規分布近似によるありがちなP値の定義も容易。これらをアニメ化してみました。
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/MyvHxySHOX
タグ: 統計
posted at 20:53:42
校長から言われました。
教員は向かない。
持ち帰り仕事しろ。
発達障害の検査してもらえ。
校長も大変なんですね。
理屈でどんなに追い込まれても非を認めず、アウト発言してでもメンツを保とうとしなければならないなんて。
ただ、私にも家族がいるからなあ。
特に3つ目は完全に大アウトかなあ。
タグ:
posted at 20:52:01
#統計 #Julia言語
nbviewer.jupyter.org/gist/genkuroki...
にはベルヌイ分布モデル
p(x=1|w) = (x=1の確率) = w
p(x=0|w) = (x=0の確率) = 1-w
の場合に、AIC, WAIC, BIC, 自由エネルギーを計算しています。渡辺澄夫『ベイズ統計の理論と方法』を読むときに、このシンプルな例を知っていると少し楽になるはず。
posted at 18:44:32
なので、やはり「検定なら確率モデルが真の分布を実現可能であると見なす」というのは、渡辺澄夫さん28pを読むと、やや独自ルールのように感じますし、その必要性がよくわからなくなりました。 pic.twitter.com/gVKUgYB5Fq
タグ:
posted at 18:44:09
というのも、真の分布が確率モデルで実現可能でなくとも、人間が用意した確率モデルが真の分布にある程度近づけている(これは相対的に測れる)という条件下で例えば「この2群に差があった」のようなことを述べることには科学研究の上で意味があるように思えます。
タグ:
posted at 18:44:08
まず話を整理すると、私の疑問は一貫して件のスライドのこの部分になります。「母集団分布が確率モデルで実現可能であると見なす」とありますが、その必要性がわかりませんでした。 twitter.com/genkuroki/stat... pic.twitter.com/sRELKLkvSG
タグ:
posted at 18:44:02
@simizu706 その合理性の下で、例えば「これらの数学的仮定の下では2群の間に差があった」のようなことをいうのは科学的研究をする上で意味があるように思えるからです。
タグ:
posted at 18:41:04
@simizu706 なぜなら、仮に「母集団分布は確率モデルで実現できないかもしれない (できるかもしれないが、難しいだろう)」という前提で出発して母数 (パラメータ) を推定しても、確率モデルがある程度合理的ならば (ここは何らかの形で主張できる一方、反論の余地も当然残ります)、
タグ:
posted at 18:40:42
@simizu706 清水先生の回答の意図がちゃんと理解できていたようで良かったです。仮定に無自覚でいいわけではないというのはやはり重要ですよね。その上でなのですが、改めて考えてみると、「統計モデリングと検定では前提が変わる」というのはやや奇妙な感じがしました。(続く)
タグ:
posted at 18:40:20
#統計 直上に書いたことに近い解説が、渡辺澄夫『ベイズ統計の理論と方法』pp.80-82の例9にあります。分散1の正規分布モデルを例に説明が書いてあります。
さらにシンプルなベルヌイ分布モデルで遊びたいなら
nbviewer.jupyter.org/gist/genkuroki...
が参考になると思います(#Julia言語)。
例の計算大事。
タグ: 統計
posted at 18:39:52
#統計 以下のリンク先でカイヤンさんが言っていることは大事。
サンプルのサイズが大きくなると未知の分布の詳細な構造が見えて来る、というのが基本的な考え方。解像度が上がって来る。
未知の真の分布を本当にぴったり含む超複雑なモデルよりも、適切ない解像度のモデルの方が予測性能は高くなる。 twitter.com/389jan/status/...
タグ: 統計
posted at 18:04:16
汎化誤差って単語はいろんな意味で使われるが、こと真の分布qから尤度モデルpへのKLを指している場合は実現可能性を仮定している。
さもなくば、KLが発散する恐れもあるのではなかろうか。
タグ:
posted at 17:55:47
比較検討されるのは、イデア界の真の分布ではなく、得られたデータからわかる程度の真の分布に対してモデルが冗長か適切かだからね。そのとき負の対数周辺尤度/自由エネルギー/確率的複雑さがどうなるのかを調べようというのが特異学習理論の始まりだった。
タグ:
posted at 17:54:19
#統計 どういう話になっているか分からないのですが(清水さんは私をブロックしている)、モデルの妥当性は常に問題にされるべき。「仮定する」はどういう意味?
「パラメータの推定」という発想に「そのパラメータを含むモデルの妥当性を当然の前提にする」が付け加わると瞬時に非科学的な思考になる。 twitter.com/not_identified...
タグ: 統計
posted at 17:03:45
#統計 資料
検定や信頼区間の代用ではなく、検定や信頼区間そのものの場合も数学的なモデルを前提にしないと意味のある結果が出せない場合が多いです。
検定や信頼区間の場合も使用したモデルの妥当性に無頓着なのは非科学的態度なのでやめた法がよいよと私は繰り返し言って来た。 twitter.com/not_identified...
タグ: 統計
posted at 16:44:31
#統計 渡辺澄夫『ベイズ統計の理論と方法』のp.80の上から12行目の公式とp.119の定理15は、AICやWAICによるモデル選択が失敗する確率がn→∞で0に収束しない場合があることを含んでいる。
目的の違うBICや自由エネルギーによるモデル選択では0に収束する。
nbviewer.jupyter.org/gist/genkuroki...
を参照。
タグ: 統計
posted at 15:55:04
@simizu706 最初の質問に戻ると、答えはイエスで「心理統計としてベイズ統計を用いる人のほとんどにとっては、確率モデルが真の分布を実現可能であると見なすのは必要な仮定である」ということ、と理解しました。
タグ:
posted at 15:52:42
@simizu706 丁寧なご回答、ありがとうございます。つまり、未知の分布への推論がしたい場合、実現可能性がないところから出発し、少しでも相対的にマシなモデルを探索するのが目的である一方、母数の推定が目的である場合は確率モデルが真の分布を実現可能であるというのが条件になる、とのことですので
タグ:
posted at 15:52:08
#統計 #Julia言語 既出の
nbviewer.jupyter.org/gist/genkuroki...
を更新。
BICと自由エネルギーのコードを追加。自由エネルギーはベータ函数とガンマ函数の関係を知っていれば導出できるので、大学1年生レベル。実は大学1年生レベルの数学がめっちゃ役に立つ。
しかし、大学1年に時点では実感するのは難しい。
posted at 15:50:28
共著者にするほどではないけどアイディアの提供を受けている人がいる旨を謝辞でのべることはよくありますが、その場合、その人に感謝しているかいないかはどうでもよいですよね。
タグ:
posted at 15:37:05
#統計 PRMLでも赤枠で囲った部分には註釈も参照文献も示されていない。ベイズであろうがなかろうが、機械学習で使うデータ集合は同じものであり、主義の違いで性質は変わらない。
ベイズであろうがなかろうが、データ集合自体が運悪く偏りまくっていたら、その学習結果も偏りまくる。 pic.twitter.com/r5jDQmdqRQ
タグ: 統計
posted at 14:27:04
#統計 資料
添付画像1は『パターン認識と機械学習 上』(所謂PRML)p.22より。ここにもよく見るデタラメな解説が!
添付画像2の正しい考え方はは渡辺澄夫の
watanabe-www.math.dis.titech.ac.jp/users/swatanab...
より。統計学ではなく、機械学習を勉強した人達の中にもおかしな考え方を学んで信じている人達が結構いるのかな? pic.twitter.com/yD5wxXmewj
タグ: 統計
posted at 14:12:38
#統計 #Julia言語
nbviewer.jupyter.org/gist/genkuroki...
Bernoulli分布モデル
AICとWAICのコードを追加した。
WAICにはトリガンマ函数が出て来るのである程度数学を知らないとつらいかも。しかし、ベータ分布のウィキペディアを参照するだけでも、トリガンマが出て来る理由がわかる。
ja.wikipedia.org/wiki/%E3%83%99...
posted at 13:08:06
非公開
タグ:
posted at xx:xx:xx
各省庁でオンラインプラットフォーム規制について議論しているので、是非不明瞭な「Twitterルール」運用の件も取り上げて欲しい。 twitter.com/syoyuri/status...
タグ:
posted at 12:58:05
キャッシュは残っていた。
"TwitterJapanが協定を結んだ例のJCのアカウントの関係者のFB見たら、TOSSと連携するとか言ってるんだが…"
webcache.googleusercontent.com/search?q=cache...
このツイートの何が「Twitterルールに違反」するのだろう?TOSSやニセ科学批判がルール違反??どうなっているの・・・? pic.twitter.com/ed3JJMPxEC
タグ:
posted at 12:54:28
ベイズ統計の理論と方法の誤植を連絡したら,10時間も経たずにHPが更新されててすごい...
watanabe-www.math.dis.titech.ac.jp/users/swatanab...
タグ:
posted at 12:29:21
#統計 サンプルサイズを増やして行ったときの、ベイズ統計による推定結果がどのように変化して行くかの動画。モデルが荒いと推定先の未知の真の確率分布の詳細な構造はつかまらない。
目的によってはこれで十分なこともあるだろう。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 11:13:06
#統計 「サンプルを取り替えて得られる95%信頼区間達の95%に真の値が含まれる」という言い方での説明がよくないことを示す数値実験例が以下のリンク先にあります。
ベイズ統計に関するおかしな言説の問題は氷山の一角に過ぎず、ベイズ云々と無関係に「モデルの妥当性に無頓着」という大問題がある。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 11:02:44
症状のない人への甲状腺検査には益があるというエビデンスは無く、過剰診断を招くという「害」が指摘されている。 twitter.com/aokiaoki1111/s...
タグ:
posted at 10:58:54
#統計 警告
信頼区間は相対的にベイズ統計での事後分布より分かりやすいだけで、普及している解説の多くがミスリーディングな内容でひどいです。例えば、
正規分布モデルで計算した信頼区間は正規分布モデルが妥当でない場合に信頼できなくなること
に触れていない解説はアウト。ほぼ全滅。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 10:53:09
社会学者っつってもみんなバラバラでいろいろなので、別に勝ったり負けたりなんか一切思わへんけど(嫌いなやつはたくさんおるけど(笑))、唯一打越正行だけは嫉妬するわ。こんなこと絶対できたい。
タグ:
posted at 10:29:05
未来を🔆💡
HPVワクチン実質中止で、今後50年の発症は6万人と予測 2020年中に手を打てば激減する可能性も www.buzzfeed.com/jp/naokoiwanag... @nonbeepandaより
タグ:
posted at 10:27:20
#統計 以下のリンク先では、ベルヌイ分布モデルの場合に、所謂「頻度論」側の最尤法とベイズ法の平均予測誤差を比較しています。
ベイズであろうがなかろうが、異なる方法を客観的な基準で比較することができます。
「主義の違い」に逃げるとこういうことをできなくなる。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 10:27:19
そんな医学界では認められていない人の意見待ち出されてもね(-.-)
どこまでも甲状腺検査を正当化したい朝日記者。 twitter.com/aokiaoki1111/s...
タグ:
posted at 09:58:15
#統計 watanabe-www.math.dis.titech.ac.jp/users/swatanab... の29枚目の前半(添付画像の赤枠部分)について。 #統計
最尤法でもベイズ法でも扱うデータは同じです。
主義の違いによって現実から得たデータの性質が変わるわけがない。
特別に何か学ばなくても、それだけで赤枠内のような主張はおかしいことがわかります。 twitter.com/kazzuaki/statu... pic.twitter.com/oWDEYpc6yN
タグ: 統計
posted at 09:23:00
あらためて読むとほんとに面白い。「別世界のビックリ話にしない」っていうのはほんとにその通り。
でもほんと大変な調査してるよね。これが調査ってもんだよ。
【SYNODOS】なぜ沖縄の若者たちは、地元と暴力から抜け出せないのか?/打越正行氏インタビュー synodos.jp/society/19337
タグ:
posted at 09:02:49
@not_identified2 教えてくれてどうも有り難う。
私としては私が何を言ったか誤解されずに済むようにリンクをはって欲しいところです。読者にとってはピンポイントでの正確な引用もあった方がよい。読者が情報をたどれるようにすることは大事。 #統計
まあでも私をブロックしていたことがばれるのはつらいかも。
タグ: 統計
posted at 08:49:20
Masa Yamamoto予測誤差が大き @mshero_y
この誤解が解ける日はいつか来るのだろうか?周りはデータの性質が文字通り主観で変える人ばかり、いや、むしろわざとそうしている節が… twitter.com/genkuroki/stat...
タグ:
posted at 08:38:29
高校で統計やる前に、
義務教育で『偽陰性』『偽陽性』を“しつこく”やってほしい。ベイズ定理使わなくても図解で理解できるし。 twitter.com/georgebest1969...
タグ:
posted at 08:14:30
.@sekibunnteisuu さんの「空蝉氏の珍説 次元解析では交換法則が成り立たない」togetter.com/li/1467446 をお気に入りにしました。
タグ:
posted at 07:09:12
実はこの実験は、別の同僚がやってた CFD の validation のために始めた(&たぶんテクノロジーデモンストレーション)ものだったのだけど、そこから tail downwash を見出してこういう insightful な論文にまとめ上げた first author はまじでスゴイ。見習いたい。
タグ:
posted at 04:27:07
通過した後にLEDを当てるのは結構重要で、最初から光らせてしまうと鳥にとっては白い「壁」に見えてしまい、避けたり着地しようとしてしまう…(同僚がプレゼンで見せて笑いを取る定番の動画。今回は論文なので載ってないけど)
タグ:
posted at 03:36:00
解析用の高速度動画は載ってないけど、白黒で700 fps。その高速度動画を使って解析した3次元の流れ場がこっちの動画。色は鉛直方向の速度で、赤が上向き・青が下向き。ところどころ粒子がまばらで空間解像度が低い場所もある。最初に飛んでくる鳥の形状モデルは別の実験で実際に3次元再構築したもの。 pic.twitter.com/yylV47GV1c
タグ:
posted at 03:35:59
ボスに「論文までいって動画見てくれる人なんて少ないから、動画もツイートしといてよ」と言われたので、論文から動画も載せときます:
これが「見せる用」のカラー動画。オオタカとメンフクロウ。白いのがヘリウムバブル。バブルはカーテンみたいに漂ってて、鳥が通過した直後に下からLED当ててます pic.twitter.com/bMSPCm5khI
タグ:
posted at 03:35:38
#統計 ベイズであろうがなかろうが、統計分析対象のサンプルは同じものです。
ベイズ主義であるか否かによって、統計分析対象のデータの性質が変わるわけがない。
この辺の当たり前のことに配慮できていない言説は、特別な数学の知識抜きで容易に否定できる。
常識の問題。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 03:27:16
#統計 資料
文脈的に清水裕士さんが修正した原因は私だと思うのだが、そういう場合には影響を受けた私の発言にリンクを張って紹介しないと相当にまずいことをやっていることになります。その辺は大丈夫なのかな?
ブロックされた以降、彼が書いたものは読んでいません。 twitter.com/not_identified...
タグ: 統計
posted at 03:09:13
#統計 仮に、ベイズで実測値を未知の分布を持つ確率変数の実現値でモデル化していないとすると、ベイズでは実測値が運悪く大幅に偏ってしまっていて、それが原因で実測値をもとに推定した結果もひどく偏ってしまうリスクを考慮しないことになり、科学的には排除されるべき方法になってしまいます。続く twitter.com/u_m_v_u_e/stat...
タグ: 統計
posted at 02:53:02
@genkuroki ありがとうございます。surfaceでbarplotオプションあるのかとビックリしましたがコード読んで納得しました。floorでクリップしてるんですね。そういう発想が出てきませんでした。あるもので実現するやり方も大事にしたいです。
タグ:
posted at 01:44:11
#統計 色々分かっていなかった時代の歴史的にのみ意味のある文献は現代においては証拠物件として引用できない。
21世紀の現代におかしなことを言っている人達は何を根拠にそういうおかしなことを言うようになったかが問題。
もしかして歴史的にのみ意味のある文献が根拠?
twitter.com/bluesnono/stat...
タグ: 統計
posted at 01:33:38
あ、勘違いがあるといけないので。Movie 1の、鳥が泡の中を飛んでくる動画は解析用の動画ではなく、4Kだか8Kだかのカメラ(RED)で撮影した「見せる用」のやつです。Movie 2の流れの可視化は、これとは別の高速度カメラ4台で撮影した動画を解析したものです。
タグ:
posted at 01:28:04
イマドキは、いらすとや さんのイラストが使えたりして変な物は減ったのだけど、昔の折込チラシなんかには、その店の従業員なのかなんなのか、明らかに絵心のない人がお手本見ながら一所懸命描いたようなカットが印刷されていて、実は僕はそういう絵が愛おしくて、なかなか捨てられなかったりした。
タグ:
posted at 01:08:29
ついでに、「阪大を受けるなら、いざというときは10パターンやそこらの場合分けとかゴリゴリの積分とかくらいは力技でどうにかする腕力も身につけると良いのでは」と煽っておくなど。
タグ:
posted at 00:41:25
高3の奴が今日やっと「なるほど。具体的な例でイメージを掴んで一般化するようにすれば、大抵の問題はなんとかなりそうですねぇ。」と感に堪えぬように頷いていたので、「そうじゃ。これでもうお前に教えることはもうなにもない」とテキトーぶっこいて老師っぽい空気を出しておいた。
タグ:
posted at 00:19:55