黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2019年10月10日(木)
#統計 以下のリンク先の教科書に出て来る用語でミスリーディングだとみなされるもの
* 尤度
* 自由度
* パラメトリック、ノン・パラメトリック
* ベイズ統計、主観確率
* 最小二乗法はBLUE
* 信頼区間
他にもあると思う。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 00:05:42
Kevin (Probably) @PythagorasProbs
@Wikunia_de @3blue1brown How do I do this? Never used Julia Lang before
タグ:
posted at 02:23:17
@PythagorasProbs @3blue1brown gist.github.com/Wikunia/ae260c...
That is the code. Besides that you have to download julia from julialang.org
and run by `julia plot.jl` or
`julia` and then `include("plot.jl")` the latter is better if you want to change code.
タグ:
posted at 02:32:12
#統計 添付画像は
twitter.com/akuta_bam/stat...
より。このスレッドの上の方で説明したように、2×2の分割表の自由度に関する添付画像のような(教科書的な)説明は誤り(結論だけは正しい)。
best-biostatistics.com/contingency/de... pic.twitter.com/B1iwHmsIL4
タグ: 統計
posted at 09:01:38
#統計 おそらくFisher検定よりもカイ二乗検定の方がp値が小さくなることを言っているのだと思うが、そうなる原因はFisher検定のP値の方が大きく間違っているから。
イエイツの補正は間違っている側に寄せる補正になる。
続く
twitter.com/corpustan/stat...
タグ: 統計
posted at 09:12:17
#統計 周辺度数がすべて固定されたFisher検定やFisher検定の側に寄せるYatesの補正に対する批判はすでに1990年にMark G. Havilandさんの論文としてpublishされています。それに対する反論も理解が伴っていなかった。
onlinelibrary.wiley.com/doi/abs/10.100...
タグ: 統計
posted at 09:17:27
#統計 #Julia言語 添付画像は
nbviewer.jupyter.org/gist/genkuroki...
より。
期待値が
2 3
18 27
の多項分布でサンプルを10万個生成するモンテカルロ法で、p値がx以下になる確率yを計算。できればy=xになって欲しい。y=xに近いのはχ²検定だが、上の期待値ではFisher検定が教科書的に推奨されている。 pic.twitter.com/egWzAU2gQm
posted at 09:37:15
#統計 「Fisherの正確検定は正確である」と信じていた人は、添付画像の場合に、Fisher検定だとP値が5%以下になる確率が2%しかないことに驚くかもしれない。
しかもそうなる理由は「強い離散性」ではない。Fisher検定では周辺度数を全て固定する非現実的な仮定のもとでP値を計算していることが原因。 pic.twitter.com/XMQWoVsPIa
タグ: 統計
posted at 09:37:16
前回被害が大きかった台風15と今回直撃が予想される台風19号の大きさを比較すると.......これ、マジでみんな対策しといた方が良い案件!!!近づけば勢力落ちるとしてもデカすぎやん19号 pic.twitter.com/dyNQyxq6yX
タグ:
posted at 09:42:52
須山敦志 Suyama Atsushi @sammy_suyama
下記、なかなか恐ろしいです。中身を正しく理解せずに正規分布を誤用している人は結構多い。 twitter.com/an_nindouph/st...
タグ:
posted at 09:48:25
#統計 各セルの期待値が
2 3
18 27
の場合の多項分布サンプルで、Fisher検定を使うとP値が5%以下になる確率が2%と非常に低くなります。
Fisher検定では周辺度数を全て固定する非現実的な仮定のもとでP値を計算するのに、どうしてみんな推奨するのか?
twitter.com/jazz01438195/s...
タグ: 統計
posted at 09:49:36
日本に居る外国の方に、森さやかさんがブログを書かれた。英語の台風情報が少なくて、外国の方は困っているそうです。
【台風19号】Four Reasons Why Hagibis Will Be Dangerous(森さやか) - Y!ニュース news.yahoo.co.jp/byline/morisay...
タグ:
posted at 09:55:22
#統計 添付画像のグラフを見ると「離散性」の影響はほとんど見えない。ソースコードへのリンクと解説がこのスレッドの少し上にある。
カイ2乗検定とFisherの正確検定の結果が異なる理由はFisherの正確検定の側__のみ__が周辺和をすべて固定しているから。続く
twitter.com/BluesNoNo/stat... pic.twitter.com/SXmEaQG10k
タグ: 統計
posted at 10:08:24
#統計 現実の調査ではすべての周辺度数を固定できないので、独立性の帰無仮説の数学的定式化の中に「周辺度数をすべて固定する」という条件を入れることは正確さに欠けている。
正確でない仮定のもとで、正確に計算されたFisherの正確検定のP値は当然正確ではない。続く
twitter.com/BluesNoNo/stat...
タグ: 統計
posted at 10:13:11
非公開
タグ:
posted at xx:xx:xx
#統計 Fisherの正確検定ではすべての周辺度数を固定する非現実的な仮定のもとで確率を正確に計算する。結果的に誤差は非常に大きくなる。
一方、カイ二乗検定が基礎にしているWilksの定理は周辺度数が固定されていないときにも使用可能な漸近論である。←これ重要!
続く
twitter.com/BluesNoNo/stat...
タグ: 統計
posted at 10:16:23
#統計 実際にそれを私は #Julia言語 を使って行ってみたのである。数値シミュレーションのソースコードと結果のプロットは既出の
nbviewer.jupyter.org/gist/genkuroki...
や
nbviewer.jupyter.org/gist/genkuroki...
で公開されている。Fisherの正確検定が全然正確でないことがよくわかった。(その原因は離散性ではない。)
posted at 10:22:46
#統計 添付画像は
nbviewer.jupyter.org/gist/genkuroki...
より。どれも期待値は
2 3
18 27
の場合。
画像1はサンプルを周辺度数をすべて固定して生成しています。画像2~4では順次周辺度数の固定を外しています。サンプルを多項分布で生成している場合には離散性の影響はほぼ見えなくなっている。 pic.twitter.com/cHORX6SRJz
タグ: 統計
posted at 10:43:45
#統計 実際に自分で計算してみて意外だったこと
Fisherの正確検定は不正確な仮定のもとで確率を計算しているので大きな誤差が出ることは意外ではなかった。
しかしG検定(対数尤度比を使うカイ二乗検定)の誤差の大きさは意外だった。結構ひどい。有意差を出したい人はG検定を使うとよい(笑)。 pic.twitter.com/GNbel4cHVr
タグ: 統計
posted at 11:14:34
非公開
タグ:
posted at xx:xx:xx
“EM菌に関しては経験者の方で「有効」と答える比率が有意に増加した(Table9:Fisherの正確確率検定,p=0.0007)”
www.jstage.jst.go.jp/article/rikusu...
学校でEM菌を教えられた子どもたちはEM菌が正しいと信じる傾向があるという報告。ニセ科学を学校教育に持ち込むもは危険です。
タグ:
posted at 11:26:35
#統計 期待値が
2 3
18 27
以外の場合にについては既出の
nbviewer.jupyter.org/gist/genkuroki...
nbviewer.jupyter.org/gist/genkuroki...
で閲覧できます。
添付画像はサンプルサイズを100に増やした場合。現実的な画像2枚目以降の場合では、Fisherの正確検定の不正確さと(Pearsonの)χ²検定の正確さが目立ちます。 pic.twitter.com/SGCrpyGjF1
タグ: 統計
posted at 11:42:46
@genkuroki 以下のように考えられていると私は記憶しています。
Fisher検定が保守的な手法であることは広く知られており、実際の現場では保守的な分には(不利な分には)検定の目的にもよるが基本的に問題ないとされている、という感じです。
つまり、保守的な手法は現実へ応用する上で批判されにくいということです
タグ:
posted at 11:48:43
@genkuroki ただ、数学の目線からいえば、有利でも不利でもない検定が一番だと言うのも確かです。
カイ二乗検定の近似が悪くなるような小さなサンプルサイズの分割表でも、保守的になりすぎない手法を誰かが作ってくれればいいとは思います。
タグ:
posted at 11:56:42
#統計 【1) 2×2表にて~つ
p11+p12+p21+p22=1という制約と,帰無仮説 H0:p11*p22/(p12*p21)=1という制約の2つだけを考慮すると,自由度は2 (=4 - 2)となるはずです.
私は,Pearsonカイ2乗検定でも周辺和を固定していると思います.】
自由度の計算が間違っている。続く
twitter.com/BluesNoNo/stat...
タグ: 統計
posted at 11:57:43
#統計 多項分布のパラメーター空間は
p₁₁+p₁₂+p₂₁+p₂₂=1
という制限で3次元になり、帰無仮説に対応する部分空間(部分多様体)は
p₁₁p₂₂/p₁₂p₂₁=1
という制限で次元が2に下がります。その差の1がχ²検定で使用するχ²分布の正しい自由度になります。
twitter.com/BluesNoNo/stat...
タグ: 統計
posted at 12:03:29
#統計
私の計算結果を見れば分かるように、セルの期待度数が小さな場合であっても、大抵の場合に、補正なしのシンプルなのχ²検定で問題ないと思います。
P値だけに頼ること自体がダメなことが常識になっているので、P値の完璧な「保守性」にこだわる意味はない。
twitter.com/jazz01438195/s...
タグ: 統計
posted at 12:19:45
自分はよくわかっていないけど、「(翼の揚力の説明で)翼の前端で分かれた流れが後端に同着するから上面の方が流れが速い」とか「(E=mc2の説明で)質量がエネルギーに変換されるのは核反応だけ」みたいな誤解が、統計分野にもあるのか。 twitter.com/genkuroki/stat...
タグ:
posted at 12:19:47
#統計 このスレッドに投稿していたつもりで別のスレッドに投稿してしまったツイート群が以下のリンク先にあります。
以上の続き↓
twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:24:11
#統計 以上の分割表がらみの話題は別のスレッドに投稿したつもりのものです。誤爆してしまった!
以上の続きは以下のリンク先に続きに書く予定です。
ごめんなさい。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:26:14
#統計 Fisherの正確検定が正確でなくなる理由は「離散性」ではなさそうなことについては以下のリンク先を参照
周辺度数をすべて固定すると可能なサンプルの場合の種類が非常に少なくなって強い離散性が出ますが、そうでない場合にもFisher検定はひどく不正確です。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:31:48
眼を見開く台風19号.
開眼時には小さな眼でしたが,吸い込まれそうな大きな眼に変化.この台風が非常に強い勢力を保ったまま今週末やってきます.本当に本当に危険な状況が見込まれています.決して他人事だと思わず,まだ晴れている今日10日を上手く使い,週末までに必ず台風に備えて下さい. pic.twitter.com/ShRVHuM0DG
タグ:
posted at 12:32:08
管理責任のある社会的地位の高い皆様へ.週末の台風襲来で特に関東や東海は甚大な被害の可能性があります.暴風で屋外活動は不可能,交通機能停止,大規模停電もありえます.仕事やイベント等はリスケするのが生産的です.最新の台風情報を参考に,従業員の命が最優先の賢明な判断・指示をお願いします pic.twitter.com/B557EL8jOK
タグ:
posted at 12:33:59
#統計 サンプルサイズを100まで増やしても、周辺度数をすべて固定するという非現実的な仮定を外してサンプルを生成する場合をみると、セルの期待度数が小さい場合には、Fisherの正確検定はひどく不正確です。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:35:39
#統計 以下のリンク先の指摘も重要。
ただし、Fisherの正確検定のP値は不正確であると明言することも大事。
「P値が大きめの値になること」を一般的ではないジャーゴンである「保守的」という言い方で表現している時点で、正直な議論をしない態度に見えるのだ。
twitter.com/1kn29cgqjzrwtg...
タグ: 統計
posted at 12:45:16
RESEARCH HAS FOUND THAT DOGS ARE INTELLIGENT AND SMART AND CAN UNDERSTAND UPTO 250 WORDS AND GESTURES ALSO CAN COUNT NUMBERS AND PERFORM SIMPLE MATHEMATICAL CALCULATIONS ! SEE THIS SMART DOG 👇👌@newworlddd555 pic.twitter.com/x1UBrhPhZz
タグ:
posted at 12:47:03
#統計 注意!私は統計学については秦のど素人です。
しかし、当然示すべき証拠はすべて示しているつもりです。
間違いがあるなら指摘してくれると助かります。(もちろん、正しいことを確認してくれてもよい(笑))
私が試した計算を再検証してくれる人がいると一番助かる。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:52:43
ハワイの米軍合同台風警報センター(JTWC)の台風情報、最新の予測によると12日の18時には本州を抜けている模様…速度が速まってる!13日は大丈夫だけど12日がほんとヤバいやつか… pic.twitter.com/fqaf3u0ewi
タグ:
posted at 12:57:34
VSCodeの拡張機能(Python)で、jupyterファイルのnative 編集がリリースされたようです。
今までは%%で、セルの区切りをつけていましたが、それも不要となりそうです。 twitter.com/ryosuke0624/st...
タグ:
posted at 12:59:02
#統計 あと「Fisherの正確検定でP値が大きめになること」について正確に理解していればよいのですが、実際には「Fisherの正確検定では正確にP値を求めているが、離散性のせいでP値が大きめになる」と誤解している場合が大部分だと思う。続く
twitter.com/1kn29cgqjzrwtg...
タグ: 統計
posted at 13:09:28
#統計 周辺度数をすべて固定するという非現実的な設定で生成したときの、P値がx以下になる確率yのプロット。
Fisher検定はy=xに下から接していますが、χ²検定は上に大きくずれており、有意差が不当なくらい出易くなっているように見えてしまう。その原因はサンプル生成における非現実的な設定。続く pic.twitter.com/45gLTIGRa6
タグ: 統計
posted at 13:21:55
#統計 おそらく多くの人が1つ前のツイートの添付画像のような様子を知って、χ²検定は危ないと誤解する。
以下の添付画像は期待値が
2 3
18 27
の多項分布でサンプルを生成した場合。この場合にはχ²検定のP値がx以下になる確率はxに近くなっています。これならχ²検定は安全だと感じるでしょう。 pic.twitter.com/9FDVFIoZ7n
タグ: 統計
posted at 13:31:35
#統計 以下は、期待値が(2,18), (3,27)の2つの二項分布でサンプルを生成した場合です。この場合もxが5%以下ではχ²検定のP値がx以下になる確率はxに近い。
要するに、同じ期待度数の元で、χ²検定が危険に見えた理由は、周辺度数を全て固定するという非現実的な設定で考えていたからに過ぎないのです。 pic.twitter.com/CNRTE5O15W
タグ: 統計
posted at 13:31:36
#統計 16個前のツイートのリンク先(誤爆先)の続き
2×2の分割表の独立性に関するχ²検定では、Fisherの正確検定と違って、周辺度数を固定する必要がないので、以下のリンク先の主張は誤り。
Wilksの定理からχ²検定を導出する計算をやってみた方がよいと思う。
twitter.com/bluesnono/stat...
タグ: 統計
posted at 14:11:36
#統計 誤爆再掲
多項分布のパラメーター空間は
p₁₁+p₁₂+p₂₁+p₂₂=1
という制限で3次元になり、帰無仮説に対応する部分空間は
p₁₁p₂₂/p₁₂p₂₁=1
という制限で次元が2に下がる。それらの差の3-2=1がχ²検定で使用するχ²分布の正しい自由度になります。
twitter.com/bluesnono/stat...
タグ: 統計
posted at 14:14:50
#統計 おそらく、以下のリンク先の考え方は、統計学入門の教科書に書いてあることを受け入れてしまった人達に共通する誤解だと思う。
数学がからむ話では教科書に書いてあることをそのまま受け入れることが危険で自分で再構成しないと間違う確率が跳ね上がる。
twitter.com/bluesnono/stat...
タグ: 統計
posted at 14:28:00
#統計 例えば、東京大学教学部統計学教室編『統計学入門書』における分割表の「自由度」の計算の仕方の理屈は正しくないです。結果的に正しい自由度の値は得られますが。
【χ²分布の自由度は、表12.7の点線内が自由変数であるから(r-1)(c-1)となる】という説明は誤り!
twitter.com/genkuroki/stat... pic.twitter.com/ldt8JbPfGj
タグ: 統計
posted at 15:00:37
【「けテぶれ」というのがあるらしい。これに関しては私はさほど興味もないし中身も知らないからスルーする】
と書いたけど、こういうのを見るとあやしく思えてくる。
twitter.com/search?q=barik...
タグ:
posted at 15:10:31
@sekibunnteisuu 「けテぶれ」そのものは「計算→テスト→分析→練習」の頭文字だそうで、知ってるものからすりゃ「なんや。手垢のついたPDCAサイクルのパチもんか。これが受けるあたり、教育業界って遅れてるよなあ」くらいの感想なんですが。
タグ:
posted at 15:19:42
@sekibunnteisuu そこからマンダラだ何だとスピリチュアルとかそっちっぽいほうに走っちゃうあたり、隂山英男臭というかカルト臭というか、そんな雰囲気を感じちゃいます。
タグ:
posted at 15:20:38
#Julia言語
x, yがサイズnの数成分の1次元配列のとき
plot(x, y)
で、(x[1],y[1]), (x[2],y[2]), …, (x[n], y[n]) を順番に線分で繋いだグラフをプロットしてくれます。
途中にNaNを入れておくと線がそこでは繋がらなくなります。
twitter.com/julialangisthe...
タグ: Julia言語
posted at 15:22:52
非公開
タグ:
posted at xx:xx:xx
#統計 私は、統計学入門の教科書が非常に困った状態になっている場合が実際に存在することの証拠として、特に東京大学教養学部統計学教室編『統計学入門』を例に挙げているが、安心して紹介できる教科書を1つも知らない。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 15:34:24
@sekibunnteisuu ああ、やっぱりシュタイナーとかにカブれてましたか…
頭ごなしに否定するもんじゃないかもしれないけど、シュタイナーの依って立つところは紛うことなきオカルトだし、傾倒するにしてもその非科学性をちゃんと認識して対峙していかないと危険だと思います。
タグ:
posted at 15:55:16
#統計 杏仁まぜそばさんの言う通り。
この件は、普及している統計学入門の教科書で「パラメトリック統計」と称して、未知であるはずの真の分布が正規分布であると勝手に仮定してよいかのような説明が横行していることの悪影響だと思いました。
twitter.com/an_nindouph/st... pic.twitter.com/ZnhBbUId6s
タグ: 統計
posted at 16:08:11
@sekibunnteisuu 最近も「量子力学的生き方」とかありましたね。なんかおツムが粗末な人は、同じパターンで駄目な方へ駄目な方へ飛んでっちゃうような。
この人らがブルーバックスレベルの量子力学すらまともに理解していないほうに、愛用のCASIO fx-912Wを賭けても良いw
タグ:
posted at 16:32:29
@sekibunnteisuu そうですね。
例えば、「量子エンタングルメントはテレパシーの存在を科学的に証明したんだ!」みたいなのって、疑似科学ウォッチャー系の人はもう腐るほど見てるんじゃないかなとか。
タグ:
posted at 16:48:36
台風19号による生活への影響は計り知れないものがありそうです。
比較するなら震度7の地震が起こるとか、もはやゴジラが来るとかそういうレベルの非常事態だと考えています。
発生直後から連日お伝えしていますが19号は普通の台風なんかではありません。台風15号より強くてはるかに大きい怪物です。 pic.twitter.com/LMcgNZOI2w
タグ:
posted at 17:32:34
ハチャメチャ盛り上がってきた
〉米国内の気象専門家からは「存在しない6に相当する」という意見も出始めている。
地球史上最大級か? 台風19号の勢力に世界が注目 衛星写真に騒然(スポニチアネックス) - Yahoo!ニュース headlines.yahoo.co.jp/hl?a=20191010-...
タグ:
posted at 17:47:35
自分でできる台風への備えのまとめです.停電に備えてスマホ充電用バッテリーもご準備を.断水に備えた水の確保も重要です.常温保存できる食糧ほか,備蓄もご確認を.屋外のものは飛散しないよう対策を.気象情報・避難情報のアクセス先,避難場所も要確認.まだ時間はあります.万全に備えて下さい. pic.twitter.com/d0aT7fJhft
タグ:
posted at 18:12:23
@genkuroki 特に1)における私の大きな誤解について,ご指摘いただき誠にありがとうございます.
12月以降になると思いますが,最初の1)だけでなく,他の項目も見直してみます.
タグ:
posted at 19:33:42
台風19号は、関東など東日本を直撃へ。
土曜の関東は昼間から次第に雨風が強まって、特に夕方~深夜が嵐のピークに。
今回は暴風も怖いですが、大雨による大規模な被害も心配です。
できる備えや避難先の検討は、金曜のうちに。
とにかく土曜は安全な場所で過ごすことを一番に考えてください。 pic.twitter.com/khWOTuLFz5
タグ:
posted at 20:27:13
台風19号(ハギビス)は非常に強い勢力となりました。12日(土)夜には中心付近の最大瞬間風速が60m/sと非常に強い勢力のまま、東海、関東に上陸する見込みです。暴風、大雨、高波、高潮などあらゆる災害に対して厳重に警戒してください。
weathernews.jp/s/topics/20191... pic.twitter.com/EVnqRLTx4T
タグ:
posted at 22:12:55
#統計 まずお詫び
「離散性」が関係ないとまで言ってしまったのは明らかに言い過ぎでした。その点については私が間違っていました。ごめんなさい。
生成されるサンプルの種類が増えても、サンプルの周辺尤度ごとにFisher検定のP値が取れる値の種類は少なくなります。続く
twitter.com/BluesNoNo/stat...
タグ: 統計
posted at 22:27:43
#統計 Fisherの正確検定のmid-p版を #R言語 のexact2x2パッケージ
www.rdocumentation.org/packages/exact...
で試してみました。mid-p版のFisher検定であればP値の値が小さめになるので、その効果がどれほどであるかを確認したかったからです。続く
posted at 22:30:36
#統計 結果は以下の通り。ソースコードとプロットのJupyterノートブックが
nbviewer.jupyter.org/gist/genkuroki...
で閲覧できます。
以下は、サンプルを
n=50, prob=c(0.04, 0.06, 0.36, 0.54)
の多項分布で生成した場合
fisher.exact(a, midp=TRUE) を使っても、P値が5%以下になる確率は2.6%で非常に小さい。 pic.twitter.com/tUhFpD4qc5
タグ: 統計
posted at 22:38:50
#統計 上と別の場合
n=25, prob = c(0.04, 0.16, 0.16, 0.64)
の多項分布でサンプルを生成した場合
P値が5%以下になる確率は
補正無しカイ二乗 4.5%
補正有りカイ二乗 1.0%
通常のFisher検定 1.4%
mid-p版Fisher検定 1.5%
補正無しのカイ二乗検定以外では有意差がものすごく出難くなります。 pic.twitter.com/0dOwUNqFSe
タグ: 統計
posted at 22:44:10
「有楽町マルイ(東京都千代田区)にあるユニバーサルデザインの試着室が『素晴らしい』『買い物行きたくなる』『地方にも広まってほしい』と反響を呼んでいます」
nlab.itmedia.co.jp/nl/spv/1910/10...
タグ:
posted at 22:45:24
#統計 以上のように、 #R言語 のexact2x2パッケージで実装されているmid-p版のFisher検定を使っても、P値が5%以下になる確率が5%よりも非常に小さくなることを防ぐことはできませんでした。
#R言語 によるソースコードとプロットは
nbviewer.jupyter.org/gist/genkuroki...
で公開されています。
posted at 22:46:51