Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2020年02月12日
並び順 : 新→古 | 古→新

2020年02月12日(水)

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 あと、「〇〇の最小化もしくは最大化」の型の数学的問題にすること自体は大好きです。

基本的な記述統計量もできるだけそういうスタイルで理解したいです。

例:平均二乗誤差最小化→平均値
例:差の絶対値の平均を最小化→中央値

この方向は記述統計量の確率モデルによる理解に至る。

タグ: 統計

posted at 23:57:01

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#Julia言語 Plots.jl

私はバックエンドを結構切り替えています。使うのは

pyplot(fmt=:svg)
gr()
pyplot()
plotlyjs()
pgfplots()

の5つくらい。下に行くほど使用頻度が低い。

twitter.com/astellon_music...

タグ: Julia言語

posted at 23:50:16

Astellon @astellon_music

20年2月12日

むしろPythonの方がわからんから、npzとかcsvで保存したのをJuliaで読んでプロットしたぞ

タグ:

posted at 23:48:32

Astellon @astellon_music

20年2月12日

卒論に挿入する時はPGFPlotsを使った

タグ:

posted at 23:45:42

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 注意!統計学について私はど素人です。

タグ: 統計

posted at 23:44:50

ごまふあざらし(GomahuAzaras @MathSorcerer

20年2月12日

@nomorepython マジレスするとまとめていただけるととても嬉しいです.

タグ:

posted at 23:43:10

ごまふあざらし(GomahuAzaras @MathSorcerer

20年2月12日

@triwave33 なんか負けた気がする(´・ω・`)

タグ:

posted at 23:42:52

非公開

タグ:

posted at xx:xx:xx

おばけ @triwave33

20年2月12日

プロットはPyCall呼んじゃうパーソンが一番賢いん?

タグ:

posted at 23:40:27

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 決定理論の類を根拠に「ベイズ統計はリスク評価に適している」などと述べて、複雑なモデル内部での◯◯最小化によって推定法を決めた結果、現実の予測を__無用__に大外しして大損害を発生させる可能性もある。

現実におけるモデルの妥当性の評価法を地道に作らないとダメだと思います。

タグ: 統計

posted at 23:40:23

Mosè Giordano @MoseGiordano

20年2月12日

@owainkenway If you want a complete compilation in #JuliaLang you should try something like github.com/JuliaLang/Pack... I never played too much it though

タグ: JuliaLang

posted at 23:38:44

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 ベイズ統計のソフトウェアパッケージでは複雑なモデルも結構扱い易いようになっているので、ベイズ統計では複雑なモデルが普通に使用されます。

だから、モデル内部での◯◯最小化によって推定法を決めるのは危ない。慎重に予測誤差が小さくなる可能性の高い推定法を採用する必要があります。

タグ: 統計

posted at 23:37:35

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 以上のように、事後分布に関する平均二乗誤差最小化のような数学的には自然に見える問題の解であっても、使用しているモデルが複雑だと現実の予測が外れてしまう不適切な推測法を与えることになってしまう可能性があります。続く

タグ: 統計

posted at 23:35:49

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 続き。しかし、そのようにして求めたw*が定めるp(x|w*)を予測分布とすることは、渡辺澄夫『ベイズ統計の理論と方法』では平均プラグイン法と呼ばれ、4.6.1節でモデルが複雑な場合には予測誤差の大きな不適切な推定法だという結論になっています。(正確な内容についてはその本を見て下さい。)

タグ: 統計

posted at 23:34:25

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 例えば、パラメータwの事前分布と確率モデルp(x|w)とサンプルで決まる事後分布をψ(w)と書くとき、事後分布に関する平均二乗誤差を最小にするw*を求めると、w*は事後分布の平均値になります。

続く(続きが重要)

twitter.com/apap1031/statu...

タグ: 統計

posted at 23:34:25

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 「頻度論vs.ベイズ主義」という見方は

半世紀時代遅れ

という認識でいいのかな? twitter.com/genkuroki/stat...

タグ: 統計

posted at 23:20:31

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 一般に「〇〇の最小化もしくは最大化」の型の数学的問題は筋が良いものになりやすいので、多くの場合に学ぶ価値があります。

しかし、「モデル内での〇〇の最小化もしくは最大化」の問題に終始し、モデル自体の妥当性の問題に無頓着になってしまってはまずい。

タグ: 統計

posted at 23:08:55

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 添付画像は、渡辺澄夫さんの

watanabe-www.math.dis.titech.ac.jp/users/swatanab...

より。味のあるスライドで独特の雰囲気がある。すこ。

1970年台の赤池弘次さん以後に確立した統計学の枠組みであれば、データを用いたモデルの相対的評価について考えます。

この枠組みで「入門」した方が良いと思う。 pic.twitter.com/5mlDfEMEDw

タグ: 統計

posted at 22:58:00

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 モデル内での何らかの損失関数を最小化するモノを「解」とする議論をどんなに積み重ねても、モデル自体が現実でどれだけ妥当であるかを評価する方法は決して得られない。

昔からある「主観確率」と「意思決定論」によるベイズ統計の正当化はその意味で全然ダメなものだと私は思っています。

タグ: 統計

posted at 22:49:38

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 Waldの決定理論の枠組みでは(事前分布など諸々の要素を含む)モデル内部で何らかの意味で合理的な意思決定を行う話にしかならず、現実においての妥当性をどう確保するかという問題には無力。

モデル自体の評価を扱える枠組み抜きでは複雑な現実に立ち向かう道具の話にならないから全然ダメ。続く twitter.com/apap1031/statu...

タグ: 統計

posted at 22:49:35

хетаноёкоский @Koji_tanuki

20年2月12日

結局,浜田ほか「社会科学のためのベイズ統計モデリング」を買った.いつ読めるかわからんが,趣味でのんびりと読んでいこう

タグ:

posted at 22:24:16

Y. Nakase @nksyt

20年2月12日

Rのχ2乗検定(Yatesの補正がデフォ)にいろいろと問題があるっぽいという話をいまさら知る。補正をなしにしてやってみると自分のデータだと結果は変わらないけど、数字は結構大きく動く。

タグ:

posted at 21:12:16

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 以上のように比較すれば、「信頼区間よりもベイズ信用区間の方が分かり易い」というようなウソを言って、「頻度論vs.ベイズ」という有害な対立図式を煽ることのアホらしさが具体的によくわかります。

「具体的に」の部分は強調したいところ。

タグ: 統計

posted at 21:04:10

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 補足

* 以上のプロットの横軸はベルヌイ分布における「成功確率」のパラメータ。

* P値函数が与えられているとき、信頼係数1-αの信頼区間は「P値函数がα以上になる範囲」と定義されます。P値函数は信頼区間の情報も全部持っています。

タグ: 統計

posted at 21:02:15

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 n=100

プロット上では4種のP値函数がほぼ重なっています。
ここまで来ると、二項分布の正規分布近似よる通常の信頼区間とベイズ統計の信用区間を区別する必要はほぼないと言ってよいでしょう。

それなら、よりシンプルな通常の信頼区間を使った方が得だと思います。 pic.twitter.com/u6faXZxWfq

タグ: 統計

posted at 21:00:38

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 n=50の場合。4種のP値函数がかなりよく一致しています。両端に来た場合にのみ分離する。

ベイズ統計でも事後分布からP値の類似物を定義でき、ベイズ版予測分布に対数尤度比検定を適用できます。定義の詳細は以下のリンク先のノートのコードを参照。

#Julia言語
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/VWSAqTCNjj

タグ: Julia言語 統計

posted at 20:58:32

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 1つ前のツイートはn=10の場合。以下はn=20の場合。

以下の4種のP値函数のプロット

* Normal. 二項分布の正規分布近似で構成したP値
* Posterior. 事後分布から作ったP値の類似物
* AIC. 最尤法の対数尤度比から作ったP値
* WAIC. ベイズ予測分布の大数尤度比から作ったP値 pic.twitter.com/xYwKybdE66

タグ: 統計

posted at 20:56:04

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 ベルヌイ分布(歪んだコイン投げ)モデルでは、AICやWAICと直接的に関係している対数尤度比でP値を定義することもできます。事後分布からP値の類似物を定義することもできる。二項分布の正規分布近似によるありがちなP値の定義も容易。これらをアニメ化してみました。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/MyvHxySHOX

タグ: 統計

posted at 20:53:42

定時退勤拡散公立教員 @wonderhope923

20年2月12日

校長から言われました。
教員は向かない。
持ち帰り仕事しろ。
発達障害の検査してもらえ。

校長も大変なんですね。
理屈でどんなに追い込まれても非を認めず、アウト発言してでもメンツを保とうとしなければならないなんて。

ただ、私にも家族がいるからなあ。
特に3つ目は完全に大アウトかなあ。

タグ:

posted at 20:52:01

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 #Julia言語

nbviewer.jupyter.org/gist/genkuroki...

にはベルヌイ分布モデル

p(x=1|w) = (x=1の確率) = w
p(x=0|w) = (x=0の確率) = 1-w

の場合に、AIC, WAIC, BIC, 自由エネルギーを計算しています。渡辺澄夫『ベイズ統計の理論と方法』を読むときに、このシンプルな例を知っていると少し楽になるはず。

タグ: Julia言語 統計

posted at 18:44:32

Ryo @pys_ryo2019

20年2月12日

なので、やはり「検定なら確率モデルが真の分布を実現可能であると見なす」というのは、渡辺澄夫さん28pを読むと、やや独自ルールのように感じますし、その必要性がよくわからなくなりました。 pic.twitter.com/gVKUgYB5Fq

タグ:

posted at 18:44:09

Ryo @pys_ryo2019

20年2月12日

というのも、真の分布が確率モデルで実現可能でなくとも、人間が用意した確率モデルが真の分布にある程度近づけている(これは相対的に測れる)という条件下で例えば「この2群に差があった」のようなことを述べることには科学研究の上で意味があるように思えます。

タグ:

posted at 18:44:08

Ryo @pys_ryo2019

20年2月12日

まず話を整理すると、私の疑問は一貫して件のスライドのこの部分になります。「母集団分布が確率モデルで実現可能であると見なす」とありますが、その必要性がわかりませんでした。 twitter.com/genkuroki/stat... pic.twitter.com/sRELKLkvSG

タグ:

posted at 18:44:02

Ryo @pys_ryo2019

20年2月12日

@simizu706 その合理性の下で、例えば「これらの数学的仮定の下では2群の間に差があった」のようなことをいうのは科学的研究をする上で意味があるように思えるからです。

タグ:

posted at 18:41:04

Ryo @pys_ryo2019

20年2月12日

@simizu706 なぜなら、仮に「母集団分布は確率モデルで実現できないかもしれない (できるかもしれないが、難しいだろう)」という前提で出発して母数 (パラメータ) を推定しても、確率モデルがある程度合理的ならば (ここは何らかの形で主張できる一方、反論の余地も当然残ります)、

タグ:

posted at 18:40:42

Ryo @pys_ryo2019

20年2月12日

@simizu706 清水先生の回答の意図がちゃんと理解できていたようで良かったです。仮定に無自覚でいいわけではないというのはやはり重要ですよね。その上でなのですが、改めて考えてみると、「統計モデリングと検定では前提が変わる」というのはやや奇妙な感じがしました。(続く)

タグ:

posted at 18:40:20

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 直上に書いたことに近い解説が、渡辺澄夫『ベイズ統計の理論と方法』pp.80-82の例9にあります。分散1の正規分布モデルを例に説明が書いてあります。

さらにシンプルなベルヌイ分布モデルで遊びたいなら

nbviewer.jupyter.org/gist/genkuroki...

が参考になると思います(#Julia言語)。

例の計算大事。

タグ: 統計

posted at 18:39:52

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 もちろん、仮説検定と情報量基準によるモデル選択には違いがあって、仮説検定では比較する片方のモデルを捨て去り難い帰無仮説扱いしますが、情報量基準によるモデル選択では2つのモデルを対等に扱います。あと、情報量基準はモデル0とモデル1の間に特別な関係がなくても使える。

タグ: 統計

posted at 18:32:49

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 AICを使っている場合に、モデル0がモデル1のパラメータ空間をより低次元に制限したものになっている場合は、AICによるモデル選択だけではなく、対数尤度比のχ²検定も使える状況になっています。

これを知っていれば、情報量基準と仮説検定が無関係でないことも分かる。

タグ: 統計

posted at 18:29:52

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 モデル0がモデル1のパラメータ空間をより低次元に制限して得られたものであり、未知の分布がモデル0で実現可能なとき、モデル0,1での最尤法の予測分布の対数尤度比は漸近的にχ²分布に従います(Wilks' theorem)。それを使ってχ²検定を作れる。

AICはある意味でこの話の一般化になっています。

タグ: 統計

posted at 18:27:35

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 あと、仮にAICの漸近論の前提が満たされている状況であっても、サンプルサイズn→∞でモデル選択に失敗する確率が0に収束しない場合があるという予備知識も重要だと思う。

統計学の使用はギャンブルであり、ギャンブルを他人に勧める人は正直に失敗するリスクを強調する必要がある。続く

タグ: 統計

posted at 18:21:23

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 例えば、AICの漸近論が証明に必要な前提条件が本当は成立しているか分からないのに、それを「仮定する」というのは非常にまずい。

仮定しなくても、対数尤度にパラメータ数の違いよりもぅっと大きな差が付いていれば、対数尤度が大きなモデルの方を選ぶことは合理的だと思う。

タグ: 統計

posted at 18:18:36

K.B.砂糖 @KB_satou

20年2月12日

juliaが充実してるのか、juliaで充実してるのか。
そこは多重ディスパッチで……

タグ:

posted at 18:17:05

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 数学的な前提の詳細全部が致命的な問題になるわけではないと思う。問題はむしろ数学的詳細の理解が足りないことではなく、

モデルを前提にした分析をしているのに、モデルの妥当性について無頓着な態度

だと思います。数学的ではなく、常識的な意味で非科学的な態度を取っていることになる。

タグ: 統計

posted at 18:12:18

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 AICの漸近論はモデルによる未知の分布の実現可能性を仮定しますが、モデルがそう複雑ではなくてパラメータの個数の項の大きさが問題にならず、対数尤度の項が支配的な状況では、実現可能性が成立していなくても、十分に実用的なモデル選択の道具になります。

タグ: 統計

posted at 18:08:54

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 以下のリンク先でカイヤンさんが言っていることは大事。

サンプルのサイズが大きくなると未知の分布の詳細な構造が見えて来る、というのが基本的な考え方。解像度が上がって来る。

未知の真の分布を本当にぴったり含む超複雑なモデルよりも、適切ない解像度のモデルの方が予測性能は高くなる。 twitter.com/389jan/status/...

タグ: 統計

posted at 18:04:16

カイヤン @389jan

20年2月12日

汎化誤差って単語はいろんな意味で使われるが、こと真の分布qから尤度モデルpへのKLを指している場合は実現可能性を仮定している。
さもなくば、KLが発散する恐れもあるのではなかろうか。

タグ:

posted at 17:55:47

カイヤン @389jan

20年2月12日

比較検討されるのは、イデア界の真の分布ではなく、得られたデータからわかる程度の真の分布に対してモデルが冗長か適切かだからね。そのとき負の対数周辺尤度/自由エネルギー/確率的複雑さがどうなるのかを調べようというのが特異学習理論の始まりだった。

タグ:

posted at 17:54:19

カイヤン @389jan

20年2月12日

モデルの実現可能性の仮定、真の分布が得られたデータ数からどの程度わかるかを問題視している上ではそんなに目くじら立てるものではない。

タグ:

posted at 17:38:52

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 どういう話になっているか分からないのですが(清水さんは私をブロックしている)、モデルの妥当性は常に問題にされるべき。「仮定する」はどういう意味?

「パラメータの推定」という発想に「そのパラメータを含むモデルの妥当性を当然の前提にする」が付け加わると瞬時に非科学的な思考になる。 twitter.com/not_identified...

タグ: 統計

posted at 17:03:45

LEGEND(タコは馬鹿) @Takohabaka

20年2月12日

さらに素人にして
「犬度って何ですか?」 twitter.com/tmaehara/statu...

タグ:

posted at 17:02:53

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 統計学や機械学習ではコンピュータで計算できなければ実用にならないので、数学的にややこしい内容の本に書かれている素晴らしい結果を信用せずに、「コンピュータをぶん回して反例を作ろうとして失敗する(笑)」という流れを作れれば実用的スタイルの理解に到達できると思う。その道もしんどい。

タグ: 統計

posted at 16:53:14

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 最近では以下のリンク先スレッドでも、区間推定でも使用したモデルの妥当性に無頓着な教え方はよくないと指摘しています。

仮に〇〇統計という分野で、信頼区間を求めるのに使ったモデルの妥当性に無頓着な態度が当然視されているならば、〇〇統計という分野は非科学的だということになる。

タグ: 統計

posted at 16:49:25

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 資料

検定や信頼区間の代用ではなく、検定や信頼区間そのものの場合も数学的なモデルを前提にしないと意味のある結果が出せない場合が多いです。

検定や信頼区間の場合も使用したモデルの妥当性に無頓着なのは非科学的態度なのでやめた法がよいよと私は繰り返し言って来た。 twitter.com/not_identified...

タグ: 統計

posted at 16:44:31

M @Mas_row

20年2月12日

「この分野は素人なんですが、犬度って何ですか?」

というコメントがつく事を予知。笑 twitter.com/tmaehara/statu...

タグ:

posted at 16:16:49

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 数学に限らず、ややこしいことを自身の血肉になる形で受け入れるためには、何らかの面倒な作業の結果、感動できる場面に出会うことに成功する必要があると思う。

信じられない気持ちが残っているなら、その気持ちに向き合うために何らかの面倒な作業に挑戦してみるのがよいと思う。試行錯誤。

タグ: 統計

posted at 16:05:42

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 例えば、

渡辺澄夫『ベイズ統計の理論と方法』のp.XXには~という信じられない結果が書いてあり、本当にそうなっているかどうか信じることができなかった。しかし、コンピュータで〇〇モデルの場合を計算してみたら、そこに書いてある通りのことが起こっていた!

となれば素晴らしい!

タグ: 統計

posted at 16:01:07

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 数学的に難しい本の内容を自分で使える程度に理解したい場合には、そこに書いてある数学的結果が正しいと信じることは、実用的な理解への道の一つが閉ざされるのでよくないと思う。

間違っていることを疑って、反例を作るためにコンピュータをぶん回す方が実用的な理解に至りやすいと思う。続く

タグ: 統計

posted at 15:58:09

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 渡辺澄夫『ベイズ統計の理論と方法』のp.80の上から12行目の公式とp.119の定理15は、AICやWAICによるモデル選択が失敗する確率がn→∞で0に収束しない場合があることを含んでいる。

目的の違うBICや自由エネルギーによるモデル選択では0に収束する。

nbviewer.jupyter.org/gist/genkuroki...

を参照。

タグ: 統計

posted at 15:55:04

(「・ω・)「ガオー @bicycle1885

20年2月12日

限界Juliaオタク

タグ:

posted at 15:53:58

Ryo @pys_ryo2019

20年2月12日

@simizu706 最初の質問に戻ると、答えはイエスで「心理統計としてベイズ統計を用いる人のほとんどにとっては、確率モデルが真の分布を実現可能であると見なすのは必要な仮定である」ということ、と理解しました。

タグ:

posted at 15:52:42

Ryo @pys_ryo2019

20年2月12日

@simizu706 丁寧なご回答、ありがとうございます。つまり、未知の分布への推論がしたい場合、実現可能性がないところから出発し、少しでも相対的にマシなモデルを探索するのが目的である一方、母数の推定が目的である場合は確率モデルが真の分布を実現可能であるというのが条件になる、とのことですので

タグ:

posted at 15:52:08

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 #Julia言語 既出の

nbviewer.jupyter.org/gist/genkuroki...

を更新。

BICと自由エネルギーのコードを追加。自由エネルギーはベータ函数とガンマ函数の関係を知っていれば導出できるので、大学1年生レベル。実は大学1年生レベルの数学がめっちゃ役に立つ。

しかし、大学1年に時点では実感するのは難しい。

タグ: Julia言語 統計

posted at 15:50:28

Hiroyasu Kamo @kamo_hiroyasu

20年2月12日

共著者にするほどではないけどアイディアの提供を受けている人がいる旨を謝辞でのべることはよくありますが、その場合、その人に感謝しているかいないかはどうでもよいですよね。

タグ:

posted at 15:37:05

Hiroyasu Kamo @kamo_hiroyasu

20年2月12日

論文の Acknowledgment が日本語で「謝辞」になっているのは実態とずれていてよろしくないと思うけど、代替の言葉を思いつきません。

タグ:

posted at 15:31:17

Dr. nhayashi @nhayashi1994

20年2月12日

「尤もらしさを定量化したものです」と答えると会場が†熱く†なりそうですね…… twitter.com/tmaehara/statu...

タグ:

posted at 15:14:27

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 PRMLでも赤枠で囲った部分には註釈も参照文献も示されていない。ベイズであろうがなかろうが、機械学習で使うデータ集合は同じものであり、主義の違いで性質は変わらない。

ベイズであろうがなかろうが、データ集合自体が運悪く偏りまくっていたら、その学習結果も偏りまくる。 pic.twitter.com/r5jDQmdqRQ

タグ: 統計

posted at 14:27:04

@kuri_kurita

20年2月12日

あいつらバカだから。😬 twitter.com/Yossy_K/status...

タグ:

posted at 14:26:22

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 「頻度論」と同じように標本分布に関する平均が汎化誤差のそれと漸近的に一致することがWAICやLOOCVの根拠なので、ベイズ統計で標本分布を考えずに【ただ1つの(つまり実際観測された)データ集合】しか考えないなら、WAICも1個抜き出し交差検証も全部潰れてしまう。ひどすぎ。論外。

タグ: 統計

posted at 14:20:49

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 資料

添付画像1は『パターン認識と機械学習 上』(所謂PRML)p.22より。ここにもよく見るデタラメな解説が!

添付画像2の正しい考え方はは渡辺澄夫の

watanabe-www.math.dis.titech.ac.jp/users/swatanab...

より。統計学ではなく、機械学習を勉強した人達の中にもおかしな考え方を学んで信じている人達が結構いるのかな? pic.twitter.com/yD5wxXmewj

タグ: 統計

posted at 14:12:38

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 #Julia言語

nbviewer.jupyter.org/gist/genkuroki...
Bernoulli分布モデル

AICとWAICのコードを追加した。

WAICにはトリガンマ函数が出て来るのである程度数学を知らないとつらいかも。しかし、ベータ分布のウィキペディアを参照するだけでも、トリガンマが出て来る理由がわかる。

ja.wikipedia.org/wiki/%E3%83%99...

タグ: Julia言語 統計

posted at 13:08:06

非公開

タグ:

posted at xx:xx:xx

yuri @syoyuri

20年2月12日

私のツイートをご覧になっている消費者庁中の方々に届きますように。

タグ:

posted at 12:58:49

yuri @syoyuri

20年2月12日

各省庁でオンラインプラットフォーム規制について議論しているので、是非不明瞭な「Twitterルール」運用の件も取り上げて欲しい。 twitter.com/syoyuri/status...

タグ:

posted at 12:58:05

yuri @syoyuri

20年2月12日

キャッシュは残っていた。
"TwitterJapanが協定を結んだ例のJCのアカウントの関係者のFB見たら、TOSSと連携するとか言ってるんだが…"
webcache.googleusercontent.com/search?q=cache...
このツイートの何が「Twitterルールに違反」するのだろう?TOSSやニセ科学批判がルール違反??どうなっているの・・・? pic.twitter.com/ed3JJMPxEC

タグ:

posted at 12:54:28

てっしー @tessy3

20年2月12日

犬にどれぐらい近いかを示す指標じゃないかな。 twitter.com/tmaehara/statu...

タグ:

posted at 12:50:13

たぬたろう @tanutarou730

20年2月12日

ベイズ統計の理論と方法の誤植を連絡したら,10時間も経たずにHPが更新されててすごい...
watanabe-www.math.dis.titech.ac.jp/users/swatanab...

タグ:

posted at 12:29:21

™ (blueskyに同アカウント名で避 @tmaehara

20年2月12日

「この分野は素人なんですが、尤度ってなんですか?」は何度か刺さってるのを見たことがある。

タグ:

posted at 11:53:48

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 サンプルサイズを増やして行ったときの、ベイズ統計による推定結果がどのように変化して行くかの動画。モデルが荒いと推定先の未知の真の確率分布の詳細な構造はつかまらない。

目的によってはこれで十分なこともあるだろう。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 11:13:06

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 「サンプルを取り替えて得られる95%信頼区間達の95%に真の値が含まれる」という言い方での説明がよくないことを示す数値実験例が以下のリンク先にあります。

ベイズ統計に関するおかしな言説の問題は氷山の一角に過ぎず、ベイズ云々と無関係に「モデルの妥当性に無頓着」という大問題がある。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 11:02:44

(「・ω・)「ガオー @bicycle1885

20年2月12日

Julia for kidsを書くときの参考にしよう

タグ:

posted at 10:59:13

日隈斎京@川鵜を撲滅せよ @higuma_saikyou

20年2月12日

症状のない人への甲状腺検査には益があるというエビデンスは無く、過剰診断を招くという「害」が指摘されている。 twitter.com/aokiaoki1111/s...

タグ:

posted at 10:58:54

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 初歩的な区間推定の段階から使用したモデルの妥当性の検討に無頓着な統計教育を何十年も続けていることが、モデルの妥当性を自分で確認できる人達が育ち難い原因になっている可能性があると私は予想しています。

タグ: 統計

posted at 10:56:08

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 警告

信頼区間は相対的にベイズ統計での事後分布より分かりやすいだけで、普及している解説の多くがミスリーディングな内容でひどいです。例えば、

正規分布モデルで計算した信頼区間は正規分布モデルが妥当でない場合に信頼できなくなること

に触れていない解説はアウト。ほぼ全滅。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 10:53:09

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 確率モデルをうまく作って仕事に活かしている人達は、モデルの現実における妥当性(妥当の意味は目的によって変わる)を確認できるような人達が増えることを望んでいると思うのですが、関連の議論を見れば分かるように、おかしな考え方を積極的に拡散している人達がそれを邪魔しているのです。

タグ: 統計

posted at 10:38:07

不言実行なのだ!!!!!!!☺︎ @2003jpLove2m

20年2月12日

青木記者も #迷惑 だが、アワプラ@OurPlanetTV#白石草@hamemen 氏はもっと迷惑だ(๑•́ω•̀๑)😑💦💦💦

こういう #大袈裟#デマ屋 が福島の #甲状腺検査 に隠れている事を多くの人に知ってほしい!😡😤٩(°̀ᗝ°́)و

#甲状腺検査反対 @kikumaco twitter.com/aokiaoki1111/s...

タグ: デマ屋 大袈裟 甲状腺検査 甲状腺検査反対 白石草 迷惑

posted at 10:29:43

岸政彦 @sociologbook

20年2月12日

社会学者っつってもみんなバラバラでいろいろなので、別に勝ったり負けたりなんか一切思わへんけど(嫌いなやつはたくさんおるけど(笑))、唯一打越正行だけは嫉妬するわ。こんなこと絶対できたい。

タグ:

posted at 10:29:05

G Minor @SORA57262132

20年2月12日

未来を🔆💡

HPVワクチン実質中止で、今後50年の発症は6万人と予測 2020年中に手を打てば激減する可能性も www.buzzfeed.com/jp/naokoiwanag... @nonbeepandaより

タグ:

posted at 10:27:20

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 以下のリンク先では、ベルヌイ分布モデルの場合に、所謂「頻度論」側の最尤法とベイズ法の平均予測誤差を比較しています。

ベイズであろうがなかろうが、異なる方法を客観的な基準で比較することができます。

「主義の違い」に逃げるとこういうことをできなくなる。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 10:27:19

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 事後分布はモデル内部でのみ意味を持つ確率分布であり、現実世界に比較対象が存在しないので、事後分布で測った確率の現実世界での比較対象物はありません。

事後分布は役に立つ情報を持っているのですが、解釈は非常に難しいです。

信頼区間の方がシンプルで圧倒的に分かり易い。

タグ: 統計

posted at 10:23:08

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 さらにベイズ統計における事前・事後分布はベイズ統計で採用しているモデル内部でのみ意味を持っている確率分布であり、現実世界には比較できる対象が存在しません。

ベイズ統計の文脈では「現実において正しい事前分布」なるものは考えないのです。

タグ: 統計

posted at 10:19:01

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 データを確率変数扱いしているとき、ベイズ統計における事前分布と確率モデルにデータを突っ込んで計算される事後分布は確率変数であるデータに依存しているので、確率分布に値を持つ確率変数になります。

データが運悪く偏っていると事後分布も偏ることになるリスクは無視できません。

タグ: 統計

posted at 10:15:12

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 ベイズであろうがなかろうが、推測したい先の母集団分布は同じものなので、母集団分布の要約統計量の意味でのパラメータは確率的に揺らがない未知の定数扱いが妥当。さらに、データは確率変数扱いが妥当で、そのときデータと確率モデルから推定したパラメータの値も確率変数扱いになる。続く

タグ: 統計

posted at 10:10:59

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計

現実の母集団の要約統計量は確率的に揺らがない定数です。

データを確率変数扱いにするのであれば、データを使って得た確率モデルp(x|w)のパラメータwの推定値w*も確率変数扱いになります。

ベイズ統計ではもっと複雑になるのですが、ベイズ統計でも同様に考えます。

タグ: 統計

posted at 10:03:47

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 「頻度論でのパラメータ」が確率モデルp(x|w)のパラメータwのことなのか、母集団分布の要約統計量なのかがまず曖昧です。

さらに、確率変数の実現値扱いになるデータから得たパラメータの推定値を「頻度論でのパラメータ」と呼んでいる可能性もあります。

こんな感じでひどく曖昧。

タグ: 統計

posted at 10:00:04

長峯明子 @xshochanx

20年2月12日

そんな医学界では認められていない人の意見待ち出されてもね(-.-)
どこまでも甲状腺検査を正当化したい朝日記者。 twitter.com/aokiaoki1111/s...

タグ:

posted at 09:58:15

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 以上の考え方を前提にすれば、「頻度論ではパラメータが定数になり、ベイズではパラメータは確率変数になる」は極めて杜撰で曖昧な主張であることが分かります。

統計学では伝統的に母集団分布の要約統計量(それらは未知)まで「パラメータ」と呼ぶ悪習があるのでさらなる混乱必至。続く

タグ: 統計

posted at 09:56:18

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 そういう当たり前の配慮を忘れて、確率モデルp(x|w)は現実において妥当であることを当然であるかのように考えた上で、パラメータwの推定を行うことは、非科学的です。

非科学的な議論をするときには、そうであることが明瞭に説明することによって、自ら科学の世界から出て行くべきです。

タグ: 統計

posted at 09:52:11

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 パラメータが平均などの場合には分かりにくいことですが、一般に確率モデルp(x|w)が現実において妥当でなければ、そのモデル中のパラメータwを考えることも現実において妥当性を失います。

パラメータwの推定はモデルが妥当でない場合には意味を失うと考えた方がよいです。

タグ: 統計

posted at 09:49:55

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 より一般にパラメータwを持つ確率モデルp(x|w)で統計分析を行うときには、そのモデルが現実においては妥当ではない可能性に当然配慮する必要があります。

配慮していなければ非科学的な議論をしていることが確定します。続く

タグ: 統計

posted at 09:46:52

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 ただし、母集団分布が正規分布であるという仮定は妥当ではないかもしれない。

正規分布の仮定は、正規分布モデルで統計分析を行うことの宣言であり、モデルは現実ではなく、モデルが妥当でなければ統計分析結果も妥当でなくなるかもしれない。

モデルと現実を区別しないのは明瞭に非科学。続く

タグ: 統計

posted at 09:42:48

(「・ω・)「ガオー @bicycle1885

20年2月12日

Juliaをぐんぐん理解してる。

タグ:

posted at 09:37:55

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 統計学入門の教科書によくあるように、S市の中学2年生男子の体重全体の分布は正規分布になっていると仮定しましょう。その正規分布は平均μと分散σ²の2つのパラメータを決めれば確定します。

この設定で我々が知りたいのはμについてです。続く

タグ: 統計

posted at 09:36:29

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 S市の中学2年生男子全体の現時点での平均体重を推測するために無作為中手で30人分の体重のデータを得たとしましょう。データは無作為抽出時に使った乱数の出目によって確率的に変化する。得られたデータは確率変数の実現値とみなされます。

これはベイズ統計であろうがなかろうが同じ。続く

タグ: 統計

posted at 09:33:55

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 S市の中学生がどれだけの割合で〇〇の存在について知っているかを調べるために、100人を無作為抽出して質問に答えてもらった。選ばれた100人が運悪く偏ってしまっているリスクがあるのは、ベイズであろうがなかろうが同じことです。

そういうリスクを分析するためにデータを確率変数扱いする。

タグ: 統計

posted at 09:27:25

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 watanabe-www.math.dis.titech.ac.jp/users/swatanab... の29枚目の前半(添付画像の赤枠部分)について。 #統計

最尤法でもベイズ法でも扱うデータは同じです。

主義の違いによって現実から得たデータの性質が変わるわけがない。

特別に何か学ばなくても、それだけで赤枠内のような主張はおかしいことがわかります。 twitter.com/kazzuaki/statu... pic.twitter.com/oWDEYpc6yN

タグ: 統計

posted at 09:23:00

岸政彦 @sociologbook

20年2月12日

あらためて読むとほんとに面白い。「別世界のビックリ話にしない」っていうのはほんとにその通り。
でもほんと大変な調査してるよね。これが調査ってもんだよ。

【SYNODOS】なぜ沖縄の若者たちは、地元と暴力から抜け出せないのか?/打越正行氏インタビュー synodos.jp/society/19337

タグ:

posted at 09:02:49

黒木玄 Gen Kuroki @genkuroki

20年2月12日

@not_identified2 教えてくれてどうも有り難う。

私としては私が何を言ったか誤解されずに済むようにリンクをはって欲しいところです。読者にとってはピンポイントでの正確な引用もあった方がよい。読者が情報をたどれるようにすることは大事。 #統計

まあでも私をブロックしていたことがばれるのはつらいかも。

タグ: 統計

posted at 08:49:20

Masa Yamamoto予測誤差が大き @mshero_y

20年2月12日

この誤解が解ける日はいつか来るのだろうか?周りはデータの性質が文字通り主観で変える人ばかり、いや、むしろわざとそうしている節が… twitter.com/genkuroki/stat...

タグ:

posted at 08:38:29

クラーク@JJ0XFM @clerk_1983

20年2月12日

高校で統計やる前に、
義務教育で『偽陰性』『偽陽性』を“しつこく”やってほしい。ベイズ定理使わなくても図解で理解できるし。 twitter.com/georgebest1969...

タグ:

posted at 08:14:30

Ryo @pys_ryo2019

20年2月12日

@genkuroki 誤りの指摘を受けて、という旨はありましたが、リンクなどはなかったと思います(あったら申し訳ありません)

タグ:

posted at 07:50:02

yamazaks @yamazaksv2

20年2月12日

.@sekibunnteisuu さんの「空蝉氏の珍説 次元解析では交換法則が成り立たない」togetter.com/li/1467446 をお気に入りにしました。

タグ:

posted at 07:09:12

積分定数 @sekibunnteisuu

20年2月12日

「空蝉氏の珍説 次元解析では交換法則が成り立たない」をトゥギャりました。 togetter.com/li/1467446

タグ:

posted at 06:52:16

maz @dynamicsoar

20年2月12日

実はこの実験は、別の同僚がやってた CFD の validation のために始めた(&たぶんテクノロジーデモンストレーション)ものだったのだけど、そこから tail downwash を見出してこういう insightful な論文にまとめ上げた first author はまじでスゴイ。見習いたい。

タグ:

posted at 04:27:07

maz @dynamicsoar

20年2月12日

通過した後にLEDを当てるのは結構重要で、最初から光らせてしまうと鳥にとっては白い「壁」に見えてしまい、避けたり着地しようとしてしまう…(同僚がプレゼンで見せて笑いを取る定番の動画。今回は論文なので載ってないけど)

タグ:

posted at 03:36:00

maz @dynamicsoar

20年2月12日

解析用の高速度動画は載ってないけど、白黒で700 fps。その高速度動画を使って解析した3次元の流れ場がこっちの動画。色は鉛直方向の速度で、赤が上向き・青が下向き。ところどころ粒子がまばらで空間解像度が低い場所もある。最初に飛んでくる鳥の形状モデルは別の実験で実際に3次元再構築したもの。 pic.twitter.com/yylV47GV1c

タグ:

posted at 03:35:59

maz @dynamicsoar

20年2月12日

ボスに「論文までいって動画見てくれる人なんて少ないから、動画もツイートしといてよ」と言われたので、論文から動画も載せときます:

これが「見せる用」のカラー動画。オオタカとメンフクロウ。白いのがヘリウムバブル。バブルはカーテンみたいに漂ってて、鳥が通過した直後に下からLED当ててます pic.twitter.com/bMSPCm5khI

タグ:

posted at 03:35:38

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 ベイズであろうがなかろうが、統計分析対象のサンプルは同じものです。

ベイズ主義であるか否かによって、統計分析対象のデータの性質が変わるわけがない。

この辺の当たり前のことに配慮できていない言説は、特別な数学の知識抜きで容易に否定できる。

常識の問題。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 03:27:16

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 余談:仮に未知の母集団分布q(x)が確率モデルp(x|w)によって、q(x)=p(x|w₀)と実現可能だったとしても(この意味で確率モデルp(x|w)が正しいとしても)、「パラメータwに関する仮説が正しい確率」は意味を持ちません。この場合も事前分布で測った確率はモデル内部の仮想世界でのみ意味を持つ。

タグ: 統計

posted at 03:21:45

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 資料

文脈的に清水裕士さんが修正した原因は私だと思うのだが、そういう場合には影響を受けた私の発言にリンクを張って紹介しないと相当にまずいことをやっていることになります。その辺は大丈夫なのかな?

ブロックされた以降、彼が書いたものは読んでいません。 twitter.com/not_identified...

タグ: 統計

posted at 03:09:13

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 ベイズ統計を理解するには、「確率変数である事後分布に従う確率変数」なるものを理解する必要があります。

数学的な理解力が足りないと、そこから逃げるために「データは定数で事後分布は1つに確定している」などと間違った考え方に陥るリスクがあると思う。

そういう逃げ方はまずい。

タグ: 統計

posted at 02:53:06

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 だから、ベイズであろうがなかろうが、データは未知の分布を持つ確率変数の実現値であると考える必要がある。

観測データを未知の分布を持つ確率変数でモデル化すると、ベイズ統計の事後分布も確率変数になり、モデルのパラメータは確率変数である事後分布に従う確率変数になります。

タグ: 統計

posted at 02:53:05

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 そして、ベイズであろうがなかろうが、使用するデータは同じです。

例えば、S市の小学6年生男子全員から30人を無作為抽出して、身長と体重のデータを得たとします。

そのデータをベイズ統計では分析した途端に、無作為抽出に伴うデータの確率的な偏りを考慮しなくなるのはおかしいです。続く

タグ: 統計

posted at 02:53:05

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 仮に、ベイズで実測値を未知の分布を持つ確率変数の実現値でモデル化していないとすると、ベイズでは実測値が運悪く大幅に偏ってしまっていて、それが原因で実測値をもとに推定した結果もひどく偏ってしまうリスクを考慮しないことになり、科学的には排除されるべき方法になってしまいます。続く twitter.com/u_m_v_u_e/stat...

タグ: 統計

posted at 02:53:02

おばけ @triwave33

20年2月12日

@genkuroki ありがとうございます。surfaceでbarplotオプションあるのかとビックリしましたがコード読んで納得しました。floorでクリップしてるんですね。そういう発想が出てきませんでした。あるもので実現するやり方も大事にしたいです。

タグ:

posted at 01:44:11

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 「ベイズ主義」やら「主観確率」については歴史的にのみ意味のある文献に色々書いてあることはwell-knownだと思う。

タグ: 統計

posted at 01:41:38

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 もっともよく見かけるおかしな説明は

* 頻度論では母数は定数でデータは確率変数だが、ベイズ統計ではデータは定数で母数が確率変数になる。

というスタイルの説明です。これが一体どこから出て来たのかについては、歴史的にのみ意味を持つ文献さえ見当がつかない。

タグ: 統計

posted at 01:40:19

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 ベイズではない肖像画(厳密にはベイズであることが極めて疑わしい肖像画)を何の断りもなく引用しているパターンも目立つので、そもそもまともに文献を引用する気がないのかもしれない。

数学的証明にありがちなself-containedな説明でもない。

タグ: 統計

posted at 01:37:04

黒木玄 Gen Kuroki @genkuroki

20年2月12日

#統計 色々分かっていなかった時代の歴史的にのみ意味のある文献は現代においては証拠物件として引用できない。

21世紀の現代におかしなことを言っている人達は何を根拠にそういうおかしなことを言うようになったかが問題。

もしかして歴史的にのみ意味のある文献が根拠?

twitter.com/bluesnono/stat...

タグ: 統計

posted at 01:33:38

maz @dynamicsoar

20年2月12日

あ、勘違いがあるといけないので。Movie 1の、鳥が泡の中を飛んでくる動画は解析用の動画ではなく、4Kだか8Kだかのカメラ(RED)で撮影した「見せる用」のやつです。Movie 2の流れの可視化は、これとは別の高速度カメラ4台で撮影した動画を解析したものです。

タグ:

posted at 01:28:04

ゆうき まさみ @masyuuki

20年2月12日

イマドキは、いらすとや さんのイラストが使えたりして変な物は減ったのだけど、昔の折込チラシなんかには、その店の従業員なのかなんなのか、明らかに絵心のない人がお手本見ながら一所懸命描いたようなカットが印刷されていて、実は僕はそういう絵が愛おしくて、なかなか捨てられなかったりした。

タグ:

posted at 01:08:29

Yossy @Yossy_K

20年2月12日

ついでに、「阪大を受けるなら、いざというときは10パターンやそこらの場合分けとかゴリゴリの積分とかくらいは力技でどうにかする腕力も身につけると良いのでは」と煽っておくなど。

タグ:

posted at 00:41:25

Yossy @Yossy_K

20年2月12日

なんで小学生の掛算の話題に行列だのクォータニオンだの持ち出すんだか。

タグ:

posted at 00:37:11

Yossy @Yossy_K

20年2月12日

高3の奴が今日やっと「なるほど。具体的な例でイメージを掴んで一般化するようにすれば、大抵の問題はなんとかなりそうですねぇ。」と感に堪えぬように頷いていたので、「そうじゃ。これでもうお前に教えることはもうなにもない」とテキトーぶっこいて老師っぽい空気を出しておいた。

タグ:

posted at 00:19:55

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました