黒木玄 Gen Kuroki(@genkuroki)/2019年10月10日

#統計実は、自分なりに、Fisher検定のP値が少し小さめになるような補正を試してみることもしています。

ある場合にはカイ二乗検定のP値にうまく近付けることができても、別の場合にはP値が5%以下になる確率が5%を超えてしまったりして、なかなかうまく行きませんでした。

タグ：統計

posted at 22:57:12

#統計結論：離散性が原因でP値が大きくなることを緩和するためにmid-p版を使っても、Fisher検定ではP値が5%になる確率が1.5%～2.5%のような非常に小さな値になる場合を容易に見付けることができる。

タグ：統計

posted at 22:53:26

#統計あと、これは個人的な意見なのですが、統計分析は無用に複雑にするべきではないと思います。

補正無しのカイ二乗検定は補正有りのものと比較してずっとシンプルで分かり易いと思うし、通常のFisher検定とmid-p版の比較でも同様のことが言えると思います。

タグ：統計

posted at 22:49:01

澤田智洋｜世界ゆるスポーツ協会 @sawadayuru

#統計以上のように、 #R言語のexact2x2パッケージで実装されているmid-p版のFisher検定を使っても、P値が5%以下になる確率が5%よりも非常に小さくなることを防ぐことはできませんでした。

#R言語によるソースコードとプロットは

nbviewer.jupyter.org/gist/genkuroki...

で公開されています。

タグ： R言語統計

posted at 22:46:51

「有楽町マルイ（東京都千代田区）にあるユニバーサルデザインの試着室が『素晴らしい』『買い物行きたくなる』『地方にも広まってほしい』と反響を呼んでいます」

nlab.itmedia.co.jp/nl/spv/1910/10...

タグ：

posted at 22:45:24

#統計上と別の場合

n=25, prob = c(0.04, 0.16, 0.16, 0.64)

の多項分布でサンプルを生成した場合

P値が5%以下になる確率は

補正無しカイ二乗 4.5%
補正有りカイ二乗 1.0%
通常のFisher検定 1.4%
mid-p版Fisher検定 1.5%

補正無しのカイ二乗検定以外では有意差がものすごく出難くなります。 pic.twitter.com/0dOwUNqFSe

タグ：統計

posted at 22:44:10

#統計結果は以下の通り。ソースコードとプロットのJupyterノートブックが

nbviewer.jupyter.org/gist/genkuroki...

で閲覧できます。

以下は、サンプルを

n=50, prob=c(0.04, 0.06, 0.36, 0.54)

の多項分布で生成した場合

fisher.exact(a, midp=TRUE) を使っても、P値が5%以下になる確率は2.6%で非常に小さい。 pic.twitter.com/tUhFpD4qc5

タグ：統計

posted at 22:38:50

@kuri_kurita

pic.twitter.com/mQIYAM3Obh

タグ：

posted at 22:34:42

#統計 Fisherの正確検定のmid-p版を #R言語のexact2x2パッケージ

www.rdocumentation.org/packages/exact...

で試してみました。mid-p版のFisher検定であればP値の値が小さめになるので、その効果がどれほどであるかを確認したかったからです。続く

タグ： R言語統計

posted at 22:30:36

#統計まずお詫び

「離散性」が関係ないとまで言ってしまったのは明らかに言い過ぎでした。その点については私が間違っていました。ごめんなさい。

生成されるサンプルの種類が増えても、サンプルの周辺尤度ごとにFisher検定のP値が取れる値の種類は少なくなります。続く

twitter.com/BluesNoNo/stat...

タグ：統計

posted at 22:27:43

ウェザーニュース @wni_jp

台風19号（ハギビス）は非常に強い勢力となりました。12日(土)夜には中心付近の最大瞬間風速が60m/sと非常に強い勢力のまま、東海、関東に上陸する見込みです。暴風、大雨、高波、高潮などあらゆる災害に対して厳重に警戒してください。
weathernews.jp/s/topics/20191... pic.twitter.com/EVnqRLTx4T

タグ：

posted at 22:12:55

増田雅昭 @MasudaMasaaki

台風19号は、関東など東日本を直撃へ。
土曜の関東は昼間から次第に雨風が強まって、特に夕方～深夜が嵐のピークに。
今回は暴風も怖いですが、大雨による大規模な被害も心配です。

できる備えや避難先の検討は、金曜のうちに。
とにかく土曜は安全な場所で過ごすことを一番に考えてください。 pic.twitter.com/khWOTuLFz5

タグ：

posted at 20:27:13

Tarotan @BluesNoNo

@genkuroki 特に1)における私の大きな誤解について，ご指摘いただき誠にありがとうございます．

12月以降になると思いますが，最初の1)だけでなく，他の項目も見直してみます．

タグ：

posted at 19:33:42

Yoshiaki Kataoka @aki_vc_fs

このサイト見ると明らかに日本にヤバいやつが迫ってきてるのが分かる pic.twitter.com/oYAzaeSbJO

タグ：

posted at 19:32:17

Katsushi Kagaya @katzkagaya

「ベイズ法だと不確かさが分かる」ということにモヤモヤする

タグ：

posted at 18:34:58

荒木健太郎 @arakencloud

自分でできる台風への備えのまとめです．停電に備えてスマホ充電用バッテリーもご準備を．断水に備えた水の確保も重要です．常温保存できる食糧ほか，備蓄もご確認を．屋外のものは飛散しないよう対策を．気象情報・避難情報のアクセス先，避難場所も要確認．まだ時間はあります．万全に備えて下さい． pic.twitter.com/d0aT7fJhft

タグ：

posted at 18:12:23

ひいろ @hi__ro

ハチャメチャ盛り上がってきた
〉米国内の気象専門家からは「存在しない6に相当する」という意見も出始めている。

地球史上最大級か？　台風19号の勢力に世界が注目　衛星写真に騒然（スポニチアネックス） - Yahoo!ニュース headlines.yahoo.co.jp/hl?a=20191010-...

タグ：

posted at 17:47:35

mod_poppo @mod_poppo

澤田智洋｜世界ゆるスポーツ協会 @sawadayuru

Julia言語を用いた新しい数論パッケージ、そういうのもあるのか pic.twitter.com/FQxsATnulL

タグ：

posted at 17:46:53

アバンギャルド河津 @makotokawazu

マルイ有楽町すごい…車椅子ごと入れる本気のフィッティングルームができてる…泣きそう pic.twitter.com/mFZBERStqs

タグ：

posted at 17:33:22

台風19号による生活への影響は計り知れないものがありそうです。

比較するなら震度7の地震が起こるとか、もはやゴジラが来るとかそういうレベルの非常事態だと考えています。

発生直後から連日お伝えしていますが19号は普通の台風なんかではありません。台風15号より強くてはるかに大きい怪物です。 pic.twitter.com/LMcgNZOI2w

タグ：

posted at 17:32:34

@sekibunnteisuu そうですね。
例えば、「量子エンタングルメントはテレパシーの存在を科学的に証明したんだ！」みたいなのって、疑似科学ウォッチャー系の人はもう腐るほど見てるんじゃないかなとか。

タグ：

posted at 16:48:36

@Yossy_K トンデモなのに、独創性がないのですね。あった方がいいという意味ではないけど。

タグ：

posted at 16:40:53

@sekibunnteisuu 最近も「量子力学的生き方」とかありましたね。なんかおツムが粗末な人は、同じパターンで駄目な方へ駄目な方へ飛んでっちゃうような。
この人らがブルーバックスレベルの量子力学すらまともに理解していないほうに、愛用のCASIO fx-912Wを賭けても良いｗ

タグ：

posted at 16:32:29

@Yossy_K 発掘するといろいろ出てきそう😅
twitter.com/barikii/status...

タグ：

posted at 16:20:29

#統計正規分布モデルを使って求めた信頼区間について「頻度論だから信頼できるぜ！」のように信じて疑わない人達は沢山いると思います。

実際には、正規分布モデルの未知の分布への適用が妥当であると判断できる理由が大事なのに。

統計学入門の教科書は数学的モデルと現実の区別が全般的に曖昧。

タグ：統計

posted at 16:12:14

あ〜る菊池誠(反緊縮)公式 @kikumaco

#統計杏仁まぜそばさんの言う通り。

この件は、普及している統計学入門の教科書で「パラメトリック統計」と称して、未知であるはずの真の分布が正規分布であると勝手に仮定してよいかのような説明が横行していることの悪影響だと思いました。

twitter.com/an_nindouph/st... pic.twitter.com/ZnhBbUId6s

タグ：統計

posted at 16:08:11

試験の点数分布は受験者を増やしても正規分布に近づかない

タグ：

posted at 16:03:41

@sekibunnteisuu ああ、やっぱりシュタイナーとかにカブれてましたか…
頭ごなしに否定するもんじゃないかもしれないけど、シュタイナーの依って立つところは紛うことなきオカルトだし、傾倒するにしてもその非科学性をちゃんと認識して対峙していかないと危険だと思います。

タグ：

posted at 15:55:16

#統計私は、統計学入門の教科書が非常に困った状態になっている場合が実際に存在することの証拠として、特に東京大学教養学部統計学教室編『統計学入門』を例に挙げているが、安心して紹介できる教科書を1つも知らない。

twitter.com/genkuroki/stat...

タグ：統計

posted at 15:34:24

#統計補足：深刻な理由は、自由度の説明が間違っているからではなく、自由度の説明が間違っていることが、他にも沢山ある杜撰な説明群の氷山の一角に過ぎないから。

個々の誤りだけに注目すると大した問題に見えなくなってしまう危険性がある。

タグ：統計

posted at 15:30:36

@Yossy_K twitter.com/barikii/status...

これは、全力で避けるべき人ですね。

タグ：

posted at 15:27:12

@Yossy_K 「マンダラ」も何度も言っていますね。
twitter.com/search?q=barik...

タグ：

posted at 15:25:58

非公開

タグ：

posted at xx:xx:xx

#Julia言語

x, yがサイズnの数成分の1次元配列のとき

plot(x, y)

で、(x[1],y[1]), (x[2],y[2]), …, (x[n], y[n]) を順番に線分で繋いだグラフをプロットしてくれます。

途中にNaNを入れておくと線がそこでは繋がらなくなります。

twitter.com/julialangisthe...

タグ： Julia言語

posted at 15:22:52

twitter.com/barikii/status...
「算数は陰、国語は陽」よく分からん・・・

タグ：

posted at 15:21:05

@sekibunnteisuu そこからマンダラだ何だとスピリチュアルとかそっちっぽいほうに走っちゃうあたり、隂山英男臭というかカルト臭というか、そんな雰囲気を感じちゃいます。

タグ：

posted at 15:20:38

@sekibunnteisuu 「けテぶれ」そのものは「計算→テスト→分析→練習」の頭文字だそうで、知ってるものからすりゃ「なんや。手垢のついたPDCAサイクルのパチもんか。これが受けるあたり、教育業界って遅れてるよなあ」くらいの感想なんですが。

タグ：

posted at 15:19:42

#統計この件については、誤解するのは仕方がないことであり、

　　　統計学入門の教科書を書いている側が悪い

と強調するべきだと思う。

名のある偉い人による英語の教科書も信用しちゃダメ。

この問題は、仕事として確率統計の授業を受け持たなければいけない人達にとってもかなり深刻。

タグ：統計

posted at 15:11:44

【「けテぶれ」というのがあるらしい。これに関しては私はさほど興味もないし中身も知らないからスルーする】

と書いたけど、こういうのを見るとあやしく思えてくる。

twitter.com/search?q=barik...

タグ：

posted at 15:10:31

#統計正しい計算法はちょっとややこしいので、簡便法としては「周辺度数をすべて固定したときに残る自由変数の個数」という説明はありだと思います。

しかし、χ²検定では周辺度数の固定が不要であることを説明しないと、読者はほぼ確実に誤解すると思う。私も初見時には誤解した。

タグ：統計

posted at 15:08:12

#統計正しい計算法。多項分布(rc項分布)のパラメーター空間の次元はrc-1であり、独立性の条件を満たすパラメーター全体の部分空間の次元は(r-1)+(c-1)なので、それらの差

rc-1-((r-1)+(c-1)) = (r-1)(c-1)

が求めるべき自由度になる。独立性の帰無仮説はパラメーター空間の次元をその分だけ下げる。

タグ：統計

posted at 15:04:54

#統計例えば、東京大学教学部統計学教室編『統計学入門書』における分割表の「自由度」の計算の仕方の理屈は正しくないです。結果的に正しい自由度の値は得られますが。

【χ²分布の自由度は、表12.7の点線内が自由変数であるから(r-1)(c-1)となる】という説明は誤り！

twitter.com/genkuroki/stat... pic.twitter.com/ldt8JbPfGj

タグ：統計

posted at 15:00:37

「「けテぶれ」提唱者の葛原祥太氏の有害な発言」をトゥギャりました。 togetter.com/li/1415230

タグ：

posted at 14:44:39

#統計 2×2の分割表における独立性の帰無仮説は1本の方程式

p₁₁p₂₂/p₁₂p₂₁=1

で表され、独立性の帰無仮説によってパラメーター空間の次元が1さがるので、χ²検定で使うχ²分布の自由度は1になります。

タグ：統計

posted at 14:33:54

#統計 r×cの分割表のχ²検定で使われるχ²分布の自由度は「周辺度数をすべて固定したときに独立に動かせるセルの個数」に結果的に等しくなるのですが、正しい理由付けではありません。

確率モデルのパラメーター空間と帰無仮説に対応するその部分空間の次元の差がχ²検定における自由度の正しい定義。

タグ：統計

posted at 14:30:25

#統計おそらく、以下のリンク先の考え方は、統計学入門の教科書に書いてあることを受け入れてしまった人達に共通する誤解だと思う。

数学がからむ話では教科書に書いてあることをそのまま受け入れることが危険で自分で再構成しないと間違う確率が跳ね上がる。

twitter.com/bluesnono/stat...

タグ：統計

posted at 14:28:00

#統計

Fisherの正確検定では、周辺度数がすべて固定される非現実的な仮定のもとで、正確に確率を計算する。

χ²検定では、そういう非現実的な仮定を排除する代わりに、確率の計算は漸近論を使った近似になる。

これらの比較は非自明であり、自分で計算した人だけが正しい答えを知っている。

タグ：統計

posted at 14:22:47

#統計誤爆再掲

多項分布のパラメーター空間は

p₁₁+p₁₂+p₂₁+p₂₂=1

という制限で3次元になり、帰無仮説に対応する部分空間は

p₁₁p₂₂/p₁₂p₂₁=1

という制限で次元が2に下がる。それらの差の3-2=1がχ²検定で使用するχ²分布の正しい自由度になります。

twitter.com/bluesnono/stat...

タグ：統計

posted at 14:14:50

#統計 16個前のツイートのリンク先(誤爆先)の続き

2×2の分割表の独立性に関するχ²検定では、Fisherの正確検定と違って、周辺度数を固定する必要がないので、以下のリンク先の主張は誤り。

Wilksの定理からχ²検定を導出する計算をやってみた方がよいと思う。

twitter.com/bluesnono/stat...

タグ：統計

posted at 14:11:36

Astellon @astellon_music

システム環境設定>セキュリティとプライバシー>一般>ダウンロードしたアプリケーションの実行許可で突破できた

タグ：

posted at 13:52:58

Astellon @astellon_music

なんとなくcatalinaにあげたらjulia開けなくなっちゃった

タグ：

posted at 13:39:01

#統計以下は、期待値が(2,18), (3,27)の2つの二項分布でサンプルを生成した場合です。この場合もxが5%以下ではχ²検定のP値がx以下になる確率はxに近い。

要するに、同じ期待度数の元で、χ²検定が危険に見えた理由は、周辺度数を全て固定するという非現実的な設定で考えていたからに過ぎないのです。 pic.twitter.com/CNRTE5O15W

タグ：統計

posted at 13:31:36

#統計おそらく多くの人が1つ前のツイートの添付画像のような様子を知って、χ²検定は危ないと誤解する。

以下の添付画像は期待値が

2 3
18 27

の多項分布でサンプルを生成した場合。この場合にはχ²検定のP値がx以下になる確率はxに近くなっています。これならχ²検定は安全だと感じるでしょう。 pic.twitter.com/9FDVFIoZ7n

タグ：統計

posted at 13:31:35

#統計周辺度数をすべて固定するという非現実的な設定で生成したときの、P値がx以下になる確率yのプロット。

Fisher検定はy=xに下から接していますが、χ²検定は上に大きくずれており、有意差が不当なくらい出易くなっているように見えてしまう。その原因はサンプル生成における非現実的な設定。続く pic.twitter.com/45gLTIGRa6

タグ：統計

posted at 13:21:55

#統計「どこに合理性があるか不明の言説を受け入れて従わないと論文を書けない」のようになることには、私は巨大な害があると思っています。

タグ：統計

posted at 13:12:10

#統計「セルの期待度数が小さい場合にはYates補正しろ」だの「セルの期待度数が小さい場合にはFisherの正確検定を使え」だの、どこに合理性があるのか不明の言説がまことしやかに研究者達に広まることの背景には、統計学入門の内容の杜撰さ(これは世界的)があると思われます。

タグ：統計

posted at 13:09:31

#統計「Fisherの正確検定では正確にP値を求めているが、離散性のせいでP値が大きめになる」という思い込みから逃れることができないせいで、χ²検定のP値が危険なほど小さくなっていると誤解してしまう。

その結果がYates補正の普及です。

タグ：統計

posted at 13:09:30

#統計あと「Fisherの正確検定でP値が大きめになること」について正確に理解していればよいのですが、実際には「Fisherの正確検定では正確にP値を求めているが、離散性のせいでP値が大きめになる」と誤解している場合が大部分だと思う。続く

twitter.com/1kn29cgqjzrwtg...

タグ：統計

posted at 13:09:28

nishiki @nskm_m

VSCodeの拡張機能(Python)で、jupyterファイルのnative 編集がリリースされたようです。

今までは%%で、セルの区切りをつけていましたが、それも不要となりそうです。 twitter.com/ryosuke0624/st...

タグ：

posted at 12:59:02

kumi @MCkumi

ハワイの米軍合同台風警報センター(JTWC)の台風情報、最新の予測によると12日の18時には本州を抜けている模様…速度が速まってる！13日は大丈夫だけど12日がほんとヤバいやつか… pic.twitter.com/fqaf3u0ewi

タグ：

posted at 12:57:34

#統計私がやった計算と同じことをやってみたい人は以下のリンク先を参照。

twitter.com/genkuroki/stat...

タグ：統計

posted at 12:55:21

#統計注意！私は統計学については秦のど素人です。

しかし、当然示すべき証拠はすべて示しているつもりです。

間違いがあるなら指摘してくれると助かります。(もちろん、正しいことを確認してくれてもよい(笑))

私が試した計算を再検証してくれる人がいると一番助かる。

twitter.com/genkuroki/stat...

タグ：統計

posted at 12:52:43

#統計あと、誤爆したスレッドの側を見てもらえれば分かるように、このスレッドで指摘している問題は、統計学入門における沢山の問題群の氷山の一角に過ぎない。

過去に間違った考えで統計分析をして論文を出した人達は「害は小さいので知らないふりをする」という態度をとるべきではないと思う。

タグ：統計

posted at 12:49:15

Nitin Bharuka @bharuka_nitin

RESEARCH HAS FOUND THAT DOGS ARE INTELLIGENT AND SMART AND CAN UNDERSTAND UPTO 250 WORDS AND GESTURES ALSO CAN COUNT NUMBERS AND PERFORM SIMPLE MATHEMATICAL CALCULATIONS ! SEE THIS SMART DOG 👇👌@newworlddd555 pic.twitter.com/x1UBrhPhZz

タグ：

posted at 12:47:03

#統計 Fisherの正確検定を正確だと誤解している人達が理系博士の中に沢山いることの害がどの程度であるかについては、誰かが相当にしんどい調査をしないと判明しないと思う。

Fisher検定を使うと有意差が無用に出にくくなる。その害はおそらく大きくないとは思いますが、どの程度であるかは不明。

タグ：統計

posted at 12:45:17

#統計以下のリンク先の指摘も重要。

ただし、Fisherの正確検定のP値は不正確であると明言することも大事。

「P値が大きめの値になること」を一般的ではないジャーゴンである「保守的」という言い方で表現している時点で、正直な議論をしない態度に見えるのだ。

twitter.com/1kn29cgqjzrwtg...

タグ：統計

posted at 12:45:16

#統計サンプルサイズを100まで増やしても、周辺度数をすべて固定するという非現実的な仮定を外してサンプルを生成する場合をみると、セルの期待度数が小さい場合には、Fisherの正確検定はひどく不正確です。

twitter.com/genkuroki/stat...

タグ：統計

posted at 12:35:39

荒木健太郎 @arakencloud

管理責任のある社会的地位の高い皆様へ．週末の台風襲来で特に関東や東海は甚大な被害の可能性があります．暴風で屋外活動は不可能，交通機能停止，大規模停電もありえます．仕事やイベント等はリスケするのが生産的です．最新の台風情報を参考に，従業員の命が最優先の賢明な判断・指示をお願いします pic.twitter.com/B557EL8jOK

タグ：

posted at 12:33:59

荒木健太郎 @arakencloud

眼を見開く台風19号．
開眼時には小さな眼でしたが，吸い込まれそうな大きな眼に変化．この台風が非常に強い勢力を保ったまま今週末やってきます．本当に本当に危険な状況が見込まれています．決して他人事だと思わず，まだ晴れている今日10日を上手く使い，週末までに必ず台風に備えて下さい． pic.twitter.com/ShRVHuM0DG

タグ：

posted at 12:32:08

#統計 Fisherの正確検定が正確でなくなる理由は「離散性」ではなさそうなことについては以下のリンク先を参照

周辺度数をすべて固定すると可能なサンプルの場合の種類が非常に少なくなって強い離散性が出ますが、そうでない場合にもFisher検定はひどく不正確です。

twitter.com/genkuroki/stat...

タグ：統計

posted at 12:31:48

#統計正しい自由度の計算の仕方については以下のリンク先が分かり易いと思います。

twitter.com/genkuroki/stat...

タグ：統計

posted at 12:27:45

#統計以上の分割表がらみの話題は別のスレッドに投稿したつもりのものです。誤爆してしまった！

以上の続きは以下のリンク先に続きに書く予定です。

ごめんなさい。

twitter.com/genkuroki/stat...

タグ：統計

posted at 12:26:14

#統計このスレッドに投稿していたつもりで別のスレッドに投稿してしまったツイート群が以下のリンク先にあります。

以上の続き↓

twitter.com/genkuroki/stat...

タグ：統計

posted at 12:24:11

Taichi AOKI @aoki_taichi

自分はよくわかっていないけど、「(翼の揚力の説明で)翼の前端で分かれた流れが後端に同着するから上面の方が流れが速い」とか「(E=mc2の説明で)質量がエネルギーに変換されるのは核反応だけ」みたいな誤解が、統計分野にもあるのか。 twitter.com/genkuroki/stat...

タグ：

posted at 12:19:47

#統計

私の計算結果を見れば分かるように、セルの期待度数が小さな場合であっても、大抵の場合に、補正なしのシンプルなのχ²検定で問題ないと思います。

P値だけに頼ること自体がダメなことが常識になっているので、P値の完璧な「保守性」にこだわる意味はない。

twitter.com/jazz01438195/s...

タグ：統計

posted at 12:19:45

#統計念のための注意

私は統計学については真にど素人です。だから間違っていることを言っている可能性もあります。

しかし、Wilksの定理を使うことやコンピューターによる計算などの証拠にあたる情報をしっかり示しているつもり。論文も引用した。

責任を持つべき専門家のコメントが欲しい所。

タグ：統計

posted at 12:10:24

#統計以上で指摘した誤解は、日本語圏に限らず、統計学入門の教科書レベルで発生しているように見える。

教科書の内容を自分で再構成して理解する習慣がない大部分の人達はほぼ確実に誤解すると思う。おそらく、理系博士持ちでもみんな誤解しまくっていて、論文の査読も誤解に基いて行なわれている。

タグ：統計

posted at 12:07:01

#統計多項分布のパラメーター空間は

p₁₁+p₁₂+p₂₁+p₂₂=1

という制限で3次元になり、帰無仮説に対応する部分空間(部分多様体)は

p₁₁p₂₂/p₁₂p₂₁=1

という制限で次元が2に下がります。その差の1がχ²検定で使用するχ²分布の正しい自由度になります。

twitter.com/BluesNoNo/stat...

タグ：統計

posted at 12:03:29

#統計カイ二乗検定における自由度の正しい定義は、Wilksの定理から得られます。確率モデルのパラメーター空間と帰無仮説に対応するその部分空間の次元の差が自由度の正しい定義です。

続く

タグ：統計

posted at 12:00:56

#統計【1) 2×2表にて～つ
p11+p12+p21+p22=1という制約と，帰無仮説 H0:p11*p22/(p12*p21)=1という制約の2つだけを考慮すると，自由度は2 (=4 - 2)となるはずです．
私は，Pearsonカイ2乗検定でも周辺和を固定していると思います．】

自由度の計算が間違っている。続く

twitter.com/BluesNoNo/stat...

タグ：統計

posted at 11:57:43

しば漬け @1kn29cgQJzRwtgd

@genkuroki ただ、数学の目線からいえば、有利でも不利でもない検定が一番だと言うのも確かです。

カイ二乗検定の近似が悪くなるような小さなサンプルサイズの分割表でも、保守的になりすぎない手法を誰かが作ってくれればいいとは思います。

タグ：

posted at 11:56:42

#統計 #数楽同じ漸近論(Wilksの定理)を基礎にしているG検定(対数尤度比を使うχ²検定)はサンプルサイズnが小さなときの誤差は非常に大きくなります。

Pearsonのχ²統計量を使うχ²検定のnが小さなときの頑健さには数学的理由があるはずで、解析学が得意な人は考えてみるとよいと思います。

タグ：数楽統計

posted at 11:51:07

KokyuHatuden @breathingpower

❌ニセ科学を学校教育に持ち込むもは危険です。
⭕ニセ科学を学校教育に持ち込むのは危険です。
誤字すみません m(_ _)m

タグ：

posted at 11:48:46

しば漬け @1kn29cgQJzRwtgd

@genkuroki 以下のように考えられていると私は記憶しています。
Fisher検定が保守的な手法であることは広く知られており、実際の現場では保守的な分には(不利な分には)検定の目的にもよるが基本的に問題ないとされている、という感じです。
つまり、保守的な手法は現実へ応用する上で批判されにくいということです

タグ：

posted at 11:48:43

#統計実際に自分で計算してみて意外だったこと

最も意外だったのは、(Pearsonの)χ²検定が非常に頑健だったこと。

χ²検定はサンプルサイズn→∞での漸近論を基礎にしているので、nが小さな場合には誤差が非常に大きくなる可能性があったのですが、実際に計算してみるとそうではなかった。

タグ：統計

posted at 11:46:46

#統計期待値が

2 3
18 27

以外の場合にについては既出の

nbviewer.jupyter.org/gist/genkuroki...

nbviewer.jupyter.org/gist/genkuroki...

で閲覧できます。

添付画像はサンプルサイズを100に増やした場合。現実的な画像2枚目以降の場合では、Fisherの正確検定の不正確さと(Pearsonの)χ²検定の正確さが目立ちます。 pic.twitter.com/SGCrpyGjF1

タグ：統計

posted at 11:42:46

#統計自分で上の結果を再現したい人は任意のプログラミング言語で以下を実行すればよいです。

(1) 期待値が

2 3
18 27

の多項分布でN個のサンプルを生成し、それぞれのサンプルについて○○検定のP値を計算する。

(2) P値がx以下になる割合を計算してプロットする。

私は #Julia言語を使用。

タグ： Julia言語統計

posted at 11:32:03

KokyuHatuden @breathingpower

“EM菌に関しては経験者の方で「有効」と答える比率が有意に増加した（Table9:Fisherの正確確率検定,p=0.0007）”
www.jstage.jst.go.jp/article/rikusu...
学校でEM菌を教えられた子どもたちはEM菌が正しいと信じる傾向があるという報告。ニセ科学を学校教育に持ち込むもは危険です。

タグ：

posted at 11:26:35

非公開

タグ：

posted at xx:xx:xx

#統計実際に自分で計算してみて意外だったこと

Fisherの正確検定は不正確な仮定のもとで確率を計算しているので大きな誤差が出ることは意外ではなかった。

しかしG検定(対数尤度比を使うカイ二乗検定)の誤差の大きさは意外だった。結構ひどい。有意差を出したい人はG検定を使うとよい(笑)。 pic.twitter.com/GNbel4cHVr

タグ：統計

posted at 11:14:34

#統計繰り返しになるが、非現実的な仮定のもとで正確に確率を計算するFisherの正確検定と非現実的な仮定を排除して近似的に確率を計算するカイ二乗検定の比較は非自明な問題であり、偉い人が書いたものをどんなに引用しても結論を出せるはずもなく、証明と計算のみが根拠として採用可能である。

タグ：統計

posted at 11:10:22

Katsushi Kagaya @katzkagaya

生物統計の教科書にも平気でこういうことが書かれているんですよね…
「経験則から世の中の自然現象や社会現象のデータが正規分布となる場合が多い」

タグ：

posted at 11:06:10

#統計周辺度数を固定しないと、独立性の帰無仮説に対応する確率分布がただ一つに決まらず、パラメーターを持ってしまう。

しかし、それでも、カイ二乗検定の基礎となる漸近論はそのまま成立している。

カイ二乗検定では周辺度数をすべて固定するという非現実的な仮定が必要ない。これ重要。

タグ：統計

posted at 11:05:54

#統計続き。なぜならば、周辺度数の固定を外してサンプルを生成すると、場合の数が増えることによって離散性が弱まり、さらに、Fisher検定にP値がx以下になる確率f(x)のグラフは直線y=xに接することがなくなり、f(x)の値はxよりずっと小さいままになったりするから。

Fisherの正確検定は不正確！

タグ：統計

posted at 11:03:04

#統計周辺度数をすべて固定してサンプルを生成するとき、Fisherの正確検定は正確に確率を計算するので、P値がx以下になる確率f(x)のグラフは直線y=xに下から接するグラフになり、離散性が強い場合には、f(x)がxよりひどく小さくなる場合がある。

これをFisher検定の不正確さの原因とするのは誤り。

タグ：統計

posted at 10:59:41

あ〜る菊池誠(反緊縮)公式 @kikumaco

#統計続き。周辺度数をすべて固定した場合の最初の画像では離散性の影響がものすごく強く出ていますが、サンプルを生成するときの周辺度数の固定を外して行くと、離散性の影響が弱まって行く様子がよく分かります。

そして、離散性の影響が見えなくなっても、Fisherの正確検定はひどく不正確なまま。

タグ：統計

posted at 10:47:24

「河野太郎がリフレ派に転向すれば熱烈支持する」と書くと、河野太郎に捕捉されない

タグ：

posted at 10:44:33

#統計添付画像は

nbviewer.jupyter.org/gist/genkuroki...

より。どれも期待値は

2 3
18 27

の場合。

画像1はサンプルを周辺度数をすべて固定して生成しています。画像2～4では順次周辺度数の固定を外しています。サンプルを多項分布で生成している場合には離散性の影響はほぼ見えなくなっている。 pic.twitter.com/cHORX6SRJz

タグ：統計

posted at 10:43:45

#統計私も一応論文検索を行なってFisher検定とYates補正への批判論文を引用したりしていますが、本当そういう権威に頼るスタイルの議論は好みません。

誰か偉い人が書いたものを引用して根拠とするのではなく、自分で理由を述べて議論するべき話題だと思う。

私はソースコードも全公開している。

タグ：統計

posted at 10:29:24

#統計サンプルサイズが小さいときにFisherの正確検定で強い離散性が出てしまう理由は、周辺度数をすべて固定するという非現実的な仮定のせいで、場合の数が非常に小さくなってしまうからです。

サンプル生成でその仮定を外せば場合の数が増えて離散性の影響は小さくなります。

タグ：統計

posted at 10:26:15

残り24件のツイートを見る

#統計実際にそれを私は #Julia言語を使って行ってみたのである。数値シミュレーションのソースコードと結果のプロットは既出の

nbviewer.jupyter.org/gist/genkuroki...

や

nbviewer.jupyter.org/gist/genkuroki...

で公開されている。Fisherの正確検定が全然正確でないことがよくわかった。(その原因は離散性ではない。)

タグ： Julia言語統計

posted at 10:22:46

#統計カイ二乗検定では、周辺度数が固定されていなくても使える漸近論を使って、確率を近似的に求める。

不正確な仮定のもとで正確な確率を求めるFisherの正確検定と正しい仮定のもとで近似的に確率を求めるカイ二乗検定の優劣は実際に数値シミュレーションを行ってみないとそう簡単には分からない。

タグ：統計

posted at 10:19:23

#統計 Fisherの正確検定ではすべての周辺度数を固定する非現実的な仮定のもとで確率を正確に計算する。結果的に誤差は非常に大きくなる。

一方、カイ二乗検定が基礎にしているWilksの定理は周辺度数が固定されていないときにも使用可能な漸近論である。←これ重要！

続く

twitter.com/BluesNoNo/stat...

タグ：統計

posted at 10:16:23

非公開

タグ：

posted at xx:xx:xx

#統計現実の調査ではすべての周辺度数を固定できないので、独立性の帰無仮説の数学的定式化の中に「周辺度数をすべて固定する」という条件を入れることは正確さに欠けている。

正確でない仮定のもとで、正確に計算されたFisherの正確検定のP値は当然正確ではない。続く

twitter.com/BluesNoNo/stat...

タグ：統計

posted at 10:13:11

#統計添付画像のグラフを見ると「離散性」の影響はほとんど見えない。ソースコードへのリンクと解説がこのスレッドの少し上にある。

カイ2乗検定とFisherの正確検定の結果が異なる理由はFisherの正確検定の側__のみ__が周辺和をすべて固定しているから。続く

twitter.com/BluesNoNo/stat... pic.twitter.com/SXmEaQG10k

タグ：統計

posted at 10:08:24

森田正光 @wm_morita

日本に居る外国の方に、森さやかさんがブログを書かれた。英語の台風情報が少なくて、外国の方は困っているそうです。

【台風19号】Four Reasons Why Hagibis Will Be Dangerous(森さやか) - Y!ニュース news.yahoo.co.jp/byline/morisay...

タグ：

posted at 09:55:22

須山敦志 Suyama Atsushi @sammy_suyama

#統計各セルの期待値が

2 3
18 27

の場合の多項分布サンプルで、Fisher検定を使うとP値が5%以下になる確率が2%と非常に低くなります。

Fisher検定では周辺度数を全て固定する非現実的な仮定のもとでP値を計算するのに、どうしてみんな推奨するのか？

twitter.com/jazz01438195/s...

タグ：統計

posted at 09:49:36

下記、なかなか恐ろしいです。中身を正しく理解せずに正規分布を誤用している人は結構多い。 twitter.com/an_nindouph/st...

タグ：

posted at 09:48:25

kumi @MCkumi

前回被害が大きかった台風15と今回直撃が予想される台風19号の大きさを比較すると.......これ、マジでみんな対策しといた方が良い案件！！！近づけば勢力落ちるとしてもデカすぎやん19号 pic.twitter.com/dyNQyxq6yX

タグ：

posted at 09:42:52

#統計「Fisherの正確検定は正確である」と信じていた人は、添付画像の場合に、Fisher検定だとP値が5%以下になる確率が2%しかないことに驚くかもしれない。

しかもそうなる理由は「強い離散性」ではない。Fisher検定では周辺度数を全て固定する非現実的な仮定のもとでP値を計算していることが原因。 pic.twitter.com/XMQWoVsPIa

タグ：統計

posted at 09:37:16

#統計 #Julia言語添付画像は

nbviewer.jupyter.org/gist/genkuroki...

より。

期待値が

2 3
18 27

の多項分布でサンプルを10万個生成するモンテカルロ法で、p値がx以下になる確率yを計算。できればy=xになって欲しい。y=xに近いのはχ²検定だが、上の期待値ではFisher検定が教科書的に推奨されている。 pic.twitter.com/egWzAU2gQm

タグ： Julia言語統計

posted at 09:37:15

#統計関連

twitter.com/genkuroki/stat...

タグ：統計

posted at 09:21:39

#統計関連

twitter.com/genkuroki/stat...

タグ：統計

posted at 09:20:25

#統計周辺度数がすべて固定されたFisher検定やFisher検定の側に寄せるYatesの補正に対する批判はすでに1990年にMark G. Havilandさんの論文としてpublishされています。それに対する反論も理解が伴っていなかった。

onlinelibrary.wiley.com/doi/abs/10.100...

タグ：統計

posted at 09:17:27

吉田弘幸 @y__hiroyuki

次男に算数を教えていて長方形の面積を「よこ×たて」の順で計算したら「え？」って言われた。
「よこ×たて」はダメと教わっているらしい。

タグ：

posted at 09:17:12

#統計 Fisherの正確検定(Fisher's exact test)のP値が無用に大きくなってしまう原因は、Fisher検定が前提にしている独立性の帰無仮説の数学的定式化が間違っているから。

Fisher検定では周辺度数がすべて固定されているという非現実的な設定でP値を計算します。

Fisherの正確検定は正確ではない！

タグ：統計

posted at 09:12:18

#統計おそらくFisher検定よりもカイ二乗検定の方がp値が小さくなることを言っているのだと思うが、そうなる原因はFisher検定のP値の方が大きく間違っているから。

イエイツの補正は間違っている側に寄せる補正になる。

続く

twitter.com/corpustan/stat...

タグ：統計

posted at 09:12:17

#統計添付画像は

twitter.com/akuta_bam/stat...

より。このスレッドの上の方で説明したように、2×2の分割表の自由度に関する添付画像のような(教科書的な)説明は誤り(結論だけは正しい)。

best-biostatistics.com/contingency/de... pic.twitter.com/B1iwHmsIL4

タグ：統計

posted at 09:01:38

質問者2 @shinchanchi

エゴサが人気のこうのたろうさんの緊縮財政っぷりが清々しい

【魚拓】 megalodon.jp/2019-1010-0703...

タグ：

posted at 07:06:04

かめさん @cogitoergosumkm

どっち派？

タグ：

posted at 04:13:11

Wikunia @Wikunia_de