黒木玄 Gen Kuroki(@genkuroki)/2022年10月16日

#統計関連

Statistical Rethinking は非常に良いです。 twitter.com/genkuroki/stat...

タグ：統計

posted at 23:53:02

#統計

関連(訂正：生地→近似)
↓ twitter.com/genkuroki/stat...

タグ：統計

posted at 23:49:21

#統計 Wilsonの信頼区間を与えるP値函数と一様事前分布の場合のhighest densityベイズ信用区間を与えるP値函数がよく一致することを示すグラフ。

こういう地道な計算とプロットの積み重ねが理解のためには本質的に重要。

#Julia言語
↓
nbviewer.org/github/genkuro... twitter.com/genkuroki/stat... pic.twitter.com/lGp28WQVbS

タグ： Julia言語統計

posted at 23:45:12

ベイズ信用区間ではなく、信頼区間の解釈関連
↓ twitter.com/genkuroki/stat...

タグ：

posted at 23:35:14

信頼区間ではなく、ベイズ信用区間の解釈関連
↓ twitter.com/genkuroki/stat...

タグ：

posted at 23:34:18

@omasa1156 @dcJOD5LySGjKkdS かけ算の順序などと言う噓出鱈目を教えなければ済む話です。

タグ：

posted at 23:32:09

このスレッドの少し上の方でした話への補足
↓ twitter.com/genkuroki/stat...

タグ：

posted at 23:29:30

#統計そういうモデル内の前提が現実においても正しい場合に限って、95%ベイズ信用区間の95%を現実における確率だとみなせるのですが、そう都合の良いことはありません。

そういう風に自信過剰になりそうな考え方は厳禁！

タグ：統計

posted at 23:28:41

#統計その(2)の段階で生成された仮想的なデータの値が現実で得たデータの数値に一致しているという条件で得られる条件付き確率分布のもとで、(1)の段階で事前分布によって生成されたパラメータ値aが95%ベイズ信用区間に含まれる確率が95%になります。

タグ：統計

posted at 23:26:45

#統計ベイズ統計のモデル内では

(1) まず事前分布にしたがってランダムにパラメータ値aが生成される。
(2)そのパラメータ値aで決まる確率分布に従って仮想的なデータの数値がランダムに生成される

となっています。続く

タグ：統計

posted at 23:26:44

#統計より正確に言うと、95%ベイズ信用区間が95%で含む「真の値」は、モデル内で現実から得たデータの数値と同じ値が生成されたという条件で制限して得られるモデル内条件付き確率分布で生成されたパラメータ値です。

続く

タグ：統計

posted at 23:26:43

#統計 95%ベイズ信用区間に95%の確率で含まれる「真の値」は、数学的フィクションであるモデル内の事前分布に従ってランダムに生成されたパラメータ値のことです。

それは、」データの取得元における真の「真の値」とは無関係な「真の値」に過ぎません。

ここまで説明すればどこがまずいかは明瞭。

タグ：統計

posted at 23:19:31

この人もそうだけど、掛け算順序擁護する人って、物事を理屈で考えることが苦手なんだよね。苦手じゃないなら、掛け算順序などと言う噓出鱈目で不合理なもの擁護するわけないんだけど。

で、こういう「はぁ？」という反応に困るようなこと言うんだよね。

twitter.com/LmpwN6ijZPD0bR... pic.twitter.com/uinnTG2BBF

タグ：

posted at 23:16:42

#統計最近のP値の解釈の仕方のトレンドは「自信過剰に陥らずに済む解釈」です。

95%ベイズ信用区間についての「真の値を含む確率は95%」はもろに自信過剰を誘発しそうな悪しき説明の仕方です。

タグ：統計

posted at 23:16:09

#統計例えば、95%ベイズ信用区間について何らかの意味で「真の値を含む確率が95%」ならば、Wilsonの95%信頼区間についても「真の値を含む確率が95%」がほぼ成立していることになります。

こういう論理的な考え方を全部捨てている「信頼区間警察」達には問題があり過ぎ。

タグ：統計

posted at 23:13:55

#統計二項分布モデル+一様事前分布のような場合には、二項分布の正規分布近似から得られるWilsonの信頼区間と、highest density版のベイズ信用区間はよく一致しています。

こういう場合には、片方に成立することは、もう一方についてもほぼ成立していることになります。続く

タグ：統計

posted at 23:13:54

#統計適当な条件が揃えば、同一のデータの数値から決まる95%信頼区間と95%ベイズ信用区間は互いに相手を近似するようになります。

だから、片方について正しいことはもう一方についても近似的に正しいと考える必要があります。

そういうことを完全に無視するのは非常にまずい。 twitter.com/genkuroki/stat...

タグ：統計

posted at 23:13:53

#統計私が最悪だと思っていることの1つは、「信頼区間警察」が

95%信頼区間に真の値が含まれる確率を95%だとすることは誤解だが、ベイズ信用区間であれば正しい

のように言うことです。続く twitter.com/genkuroki/stat...

タグ：統計

posted at 23:13:52

akina @nakixa

｢繰り返し標本を抽出して95%信頼区間を計算し直すとその中で真の値を含む区間の割合は95%になる｣
の説明に違和感を感じる人へ

この説明分かりやすい！是非！ twitter.com/genkuroki/stat...

タグ：

posted at 23:10:35

@zakkuzakkuzaku @Dancaire2 ＞守らないと専門のおじさんたちが面倒くさいことを言ってくるから、みんなも守った方がいいよと言っている。

専門のおじさんがめんどくさいことを言う相手は、教員ですよね？

教員が面倒くさいこと言われるのが嫌だから、有害無益噓出鱈目の掛け算順序を子供に強要するべきじゃないと思います。

タグ：

posted at 23:04:36

3xをx3とは普通は書かない、程度の慣習はあるけど、定数×変数という慣習はない。

E＝mc^2　不変の値である光速が後に来ている。

さらにどちらにしても、小学校で強要されている掛け算の順序とは一切関係ない話。

タグ：

posted at 22:57:02

あおじるPPPP @kale_aojiru

とある状況、とある分野、とある業界、あるいは掛算に似た別の演算において順序が意味を持っていたり固定されていたりすることは、小学校の低学年で行われている掛順指導とは全く関係ない。見ようによってはコンフリクトすらする（算数の掛順は一般的な伝票とは逆順）

タグ：

posted at 22:55:48

twitter.com/ghoti819/statu...

小2で係数なんか教えていないし、y=ax云々も何言いたいのか分からない。ax、xを係数、aを変数とみなすことだってあり得るし、係数×変数　変数×定数、どっちでもいい。

さくらんぼ擁護してかけ算順序殴りつけるという実例をだしてもらいたい。 pic.twitter.com/6N6uc1tS2z

タグ：

posted at 22:53:49

あおじるPPPP @kale_aojiru

例えば数字を前に文字を後に書く慣例はほぼルールといっていいかもしれないが、それは掛順とは全然関係ない

タグ：

posted at 22:53:31

続き
↓ twitter.com/genkuroki/stat...

タグ：

posted at 22:52:06

#統計ただし、

* 検定と信頼区間の表裏一体性についても説明している
* 統計モデルの妥当性の確認の問題についても説明している

という2つの条件が揃っていれば、特別に避難するようなことではないとも思っています。

しかしそういう場合は例外的です。

タグ：統計

posted at 22:51:07

かけ算順序批判していながら、さくらんぼ強要を擁護している人っているの？少なくとも私は見たことがない。
twitter.com/ghoti819/statu...

タグ：

posted at 22:46:00

意味不明 twitter.com/ghoti819/statu...

タグ：

posted at 22:44:44

#統計そろそろ、「信頼区間警察」達による

　繰り返し標本を抽出して95%信頼区間を計算し直すと
　その中で真の値を含む区間の割合は95%になる

という説明の押し付けは

　おまえら何やってんだ！

と非難されるようになった方が良いと思います。

タグ：統計

posted at 22:43:40

#統計信頼区間の解釈の代替案の基礎は、検定と信頼区間の表裏一体性であり、信頼区間の解釈は、P値の

　データの数値と統計モデル+パラメータ値のcompatibility

の指標の1つという解釈に帰着される。

journals.sagepub.com/doi/10.1177/02...

タグ：統計

posted at 22:41:56

#統計要するに、「信頼区間警察」による

　繰り返し標本を抽出して95%信頼区間を計算し直すと
　その中で真の値を含む区間の割合は95%になる

という説明の押し付けは、統計モデルが妥当であることを当然の前提とする自信過剰の思い上がった解釈を誘発するので有害。代替案から目をそらせている！

タグ：統計

posted at 22:37:11

#統計信頼区間はP値を使って構成されるので、信頼区間の無難な解釈もP値のcompatibilityによる解釈に帰着する訳です。

こちらの方向は実践的に相当に役に立つP値と信頼区間の解釈をクリアに与えていると思います。

タグ：統計

posted at 22:34:12

#統計以上で紹介したP値のcompatibilityによる解釈(P値だけを見て自信過剰にならずに済む解釈)については例えば繰り返し紹介している最近の短くてすぐに読める論文

journals.sagepub.com/doi/10.1177/02...

で解説されています。

タグ：統計

posted at 22:32:23

#統計データの数値と統計モデル+パラメータ値のcompatibilityというP値の解釈の利点は、統計モデルの妥当性やその裏返しとしてのデータの取得法の妥当性の問題を別に扱うことを、P値ユーザーが強制されるようになることです。

しかし、科学的にも商売的にもこれは当然そうあるべきことに過ぎない。

タグ：統計

posted at 22:27:46

#統計 P値の

データの数値と統計モデル+パラメータ値のcompatibility

という解釈は、現実の母集団の様子と無関係に可能です。

そして、本当は知りたい現実の母集団の様子との関係を得るためには別の確認や議論を強制されることになる。続く

タグ：統計

posted at 22:27:45

#統計 P値に関する自信過剰に陥らないで済む無難な解釈の仕方は既に提案されています！P値には

　データの数値と統計モデル+パラメータ値の
　compatibility (両立性、相性のよさ)の指標の1つ

という解釈があります。続く

タグ：統計

posted at 22:27:44

#統計他のスレッドで詳しく説明したように、θの95%信頼区間は、仮説θ=aのP値が5%以上になる値a全体の集合なので、P値の解釈と信頼区間の解釈はパラレルな問題になります。続く

タグ：統計

posted at 22:27:43

#統計 95%を確率だとか割合だとか言う解釈論を積み重ねても、統計モデルの妥当性の保証が難しいので現実にその確率の数値が有効かどうかについては常に疑う必要があります。

この問題はP値についても全く同様に存在します。

タグ：統計

posted at 22:27:41

#統計続き。一方、

　仮説「θ=a」の下での統計モデルの確率分布で測った
　θの95%信頼区間にaが含まれる確率は約95%になる

は成立しています。

しかし、この方向から攻めて行っても、実践的に有効な信頼区間区間の解釈は得られそうもないです。続く

タグ：統計

posted at 22:12:06

#統計第2の理由。以上では

　繰り返し標本を抽出して95%信頼区間を計算し直すと
　その中で真の値を含む区間の割合は95%になる

は、現実における統計モデルの妥当性の保証が難しいので、現実に成立していることは常に疑うべきであることを説明しました。

そういう状況でも通用する解釈が必要です。

タグ：統計

posted at 22:12:05

#統計科学的かつ論理的に考え抜かずに、伝統的に繰り返されて来たダメな説明の仕方を他人に押し付ける「信頼区間警察」による

　繰り返し標本を抽出して95%信頼区間を計算し直すと
　その中で真の値を含む区間の割合は95%になる

という説明にはダメ出しをして行かないと、我々の将来は暗いと思う。

タグ：統計

posted at 22:04:56

#統計まあいずれにせよ、統計モデルの現実における妥当性の確認が難しいことに無沈着な統計学に関する解説の仕方は、極めて有害であり、みんなで

　これじゃあダメ！

と言わないとまずいと思います。

タグ：統計

posted at 22:02:12

#統計しかし、数学的フィクションである統計モデル内部の仮想的母集団からの標本の抽出に関する確率の扱いは、何度も抽出を繰り返すのではなく、単に統計モデル内で標本分布を考えれば良いだけなので、その辺も「繰り返し標本を抽出して95%信頼区間を計算し直すと」という言い方はミスリーディング。

タグ：統計

posted at 22:02:11

#統計

　繰り返し標本を抽出して95%信頼区間を計算し直すと
　その中で真の値を含む区間の割合は95%になる

は、標本を抽出する母集団が、現実の未知の母集団ではなく、数学的フィクションである統計モデル内部の仮想的母集団ならば成立しています。続く

タグ：統計

posted at 22:02:10

#統計続き、だから、実践的な状況では「その中で真の値を含む区間の割合は95%になる」が成立していることを当然だと思ってはいけないのです。

タグ：統計

posted at 22:02:09

#統計「繰り返し標本を抽出して95%信頼区間を計算し直すと」という言い方をすると、現実の母集団から標本を何度も抽出する様子を想像しがちですが、実践的な場面では、現実の母集団について統計モデルが妥当であることを確認できることは稀であり、続く

タグ：統計

posted at 22:02:07

#統計例えば、2群の母分散の比のF分布を使って求めた信頼区間について

　繰り返し標本を抽出して95%信頼区間を計算し直すと
　その中で真の値を含む区間の割合は95%になる

が成立するのは、2群について正規母集団の条件が成立しているときです。

正規母集団という条件は相当に強い条件です。続く

タグ：統計

posted at 22:02:05

#統計第一に、

　繰り返し標本を抽出して95%信頼区間を計算し直すと
　その中で真の値を含む区間の割合は95%になる

が成立するためには、現実には確認が難しい場合の多い

　統計モデルが標本を抽出する母集団について妥当である

という前提が必要です。続く

タグ：統計

posted at 22:02:03

#統計以下の続き。「信頼区間警察」による

　繰り返し標本を抽出して95%信頼区間を計算し直すと
　その中で真の値を含む区間の割合は95%になる

という説明もよく見ますが、これも

　誤りとまでは言えないかもしれないが、
　複数通りの意味でもよくない説明の仕方

です。以下はその解説。 twitter.com/genkuroki/stat...

タグ：統計

posted at 22:02:00

Atsushi Sakai @Atsushi_twi

ごまふあざらし(GomahuAzaras @MathSorcerer

@MathSorcerer なるほど、すでにPyCallが変換してくれてるんですね。ではその作戦でいきましょう。(circle ciがおかしいのはいま、サポートに確認中です。)

タグ：

posted at 22:00:54

do-syntax が便利すぎて Python に戻れない(´・ω・｀)

#Julia言語

タグ： Julia言語

posted at 21:57:25

Hidekazu Shiozawa @shiozawa_h

#超算数というより #超math か。 twitter.com/PR0GRAMMERHUM0...

タグ：超math 超算数

posted at 21:53:39

藤あや子 @fuji_ayako

OokuboTact　大久保中二病中年 @OokuboTact

待って！うちのコの身体能力ヤバすぎない！？ pic.twitter.com/5SDAruAhHi

タグ：

posted at 21:32:24

ごまふあざらし(GomahuAzaras @MathSorcerer

ひろゆき氏、沖縄騒動では論破王の力を見せつけたけれど、経済ネタは相変わらずダメ。

＃円安

タグ：円安

posted at 20:50:17

@Atsushi_twi こちらの件，定数系は Julia のFloatやTuple ,Dict型などの具象型に変換してくれる性質を利用するとうまくできそうです．（画像１枚目）

PyObjectとして変換されるのは Python としての関数やクラスやモジュールです，これは SciPy.jl 内の既存ロジックでラップします．（画像２枚目） pic.twitter.com/J1eFG1B1F6

タグ：

posted at 19:46:49

#統計二項分布モデルのP値と信頼区間の詳しい解説が

github.com/genkuroki/publ...

にあります。二項分布モデルのベイズ統計の話も含んでいる。

タグ：統計

posted at 19:13:30

もりふじ @疫学トーク @morifuji_eki

#統計 WaldのP値函数からWaldの信頼区間を出す計算は、理解を深めるために例としてはシンプル過ぎて実はちょっと適切ではないです。

しかし、二項分布の正規分布近似を素直に使ったWilsonのP値函数からWilsonの信頼区間を出す計算はそれなりに非自明で、どの辺が面倒であるかを見ることができます。

タグ：統計

posted at 19:06:51

このスレッドが勉強になりすぎる。
そしてJulia言語読みやっすい！ほぼ数式。

個人的にはデータが固定されたときにp-valueの極大値が1(付近?)になってるところと、その点で微分不能になっているところがまだ理解できていません。
(わかっている人、答え言わないでください。自分で突き止めます) twitter.com/genkuroki/stat...

タグ：

posted at 18:45:02

#統計易しい方の練習問題2を解いた人は、よく教科書に載っているWaldの信頼区間が、データの数値n,kが与えられたときにWaldのP値函数の値がα以上になる(有意水準αで棄却されない)パラメータ値p全体の集合になることを理解できたことになる！

これが検定と信頼区間の表裏一体性の最も簡単な例です。

タグ：統計

posted at 18:39:00

#統計こういう地道な練習は理解するために結構重要。

以上の2つの練習問題の答えはググれば容易に得られます。

Wilsonの信頼区間
www.google.com/search?q=Wilso...

Waldの信頼区間
www.google.com/search?q=Wald%...

タグ：統計

posted at 18:38:59

#統計練習問題2続き。これに対応する信頼度1-αの信頼区間

ci(k|n,α)={p∈[0,1]|pvalue(k|n,p)≥α}

の左右の端点を求めよ。ただし、

2(1 - cdf(Normal(0,1), z)) = α

という条件で定義される数値z≥0を用いてよい。(α=0.05のとき、z≈1.96)

ヒント：練習問題1よりずっと簡単。

タグ：統計

posted at 18:38:58

#統計練習問題2：「n回中k回成功」というデータの数値に関する仮説「成功確率はpである」のWaldのP値pvalue(k|n,p)が

pvalue(k|n,p) = 2(1 - cdf(Normal(0,1), |k-np|/√(n(k/n)(1-k/n))))

と定める。ここでcdf(D,x)は分布Dの累積分布函数。続く

タグ：統計

posted at 18:38:58

#統計連続問題1続き。これに対応する信頼度1-αの信頼区間

ci(k|n,α)={p∈[0,1]|pvalue(k|n,p)≥α}

の左右の端点を求めよ。ただし、

2(1 - cdf(Normal(0,1), z)) = α

という条件で定義される数値z≥0を用いてよい。(α=0.05のとき、z≈1.96)

ヒント：2つの端点は2次方程式の解になる。

タグ：統計

posted at 18:38:57

#統計練習問題1：「n回中k回成功」というデータの数値に関する仮説「成功確率はpである」のWilsonのP値pvalue(k|n,p)が

pvalue(k|n,p) = 2(1 - cdf(Normal(0,1), |k-np|/√(np(1-p))))

と定める。ここでcdf(D,x)は分布Dの累積分布函数。続く

タグ：統計

posted at 18:38:55

ku-min @nanashinosenbei

@genkuroki BM検定が、「自然科学分野」では、最近まで日本人の書く論文にあまり登場しなかったことに疑問。

思考停止でWilcoxonの順位和検定やパラメト検定の使用が多いイメージ。

仕組みを理解せず、先行事例が正しいと決めつけ、使用するのだろうと想像。

私みたいな雑魚が指摘しても聞いてもらえないが。

タグ：

posted at 18:38:35

#統計信頼区間と検定が表裏一体であることの説明が書いてある有名な教科書

竹内啓『数理統計学』p.103
竹村彰通『現代数理統計学』p.202
久保川達也『現代数理統計学の基礎』p.169
小針晛宏『確率・統計入門』p.197

検定と信頼区間の表裏一体性を知らない人には「教科書読め！」と言えば十分。 pic.twitter.com/RFkVadnrtO

タグ：統計

posted at 18:18:19

#統計 #Julia言語

 nbviewer.org/github/genkuro... でプロットしたグラフのまとめ2/2

通常のP値函数(Wilson, Clopper-Pearson)とベイズ版P値函数の比較。 pic.twitter.com/Brl2FnyDla

タグ： Julia言語統計

posted at 17:25:38

#統計 #Julia言語

 nbviewer.org/github/genkuro... でプロットしたグラフのまとめ1/2

二項分布モデルでのWilsonの信頼区間を与えるP値函数のグラフ twitter.com/i/web/status/1... pic.twitter.com/XcBXkwNTKP

タグ： Julia言語統計

posted at 17:25:36

Ishida the Brain Dam @tbs_i

Dr. Chris Rackauckas @ChrisRackauckas

「【2022年最新版】オタクの血を輸血されたくない人たち」togetter.com/li/1959385 をお気に入りにしました。

タグ：

posted at 17:23:58

Dr. Chris Rackauckas @ChrisRackauckas

For reference: pic.twitter.com/bpcCcypT0d

タグ：

posted at 17:19:26

A #julialang #sciml model of the "nope nope nope" octopus. That's what I used to do as a grad student. pic.twitter.com/LJm2lohV8i

タグ： julialang sciml

posted at 17:19:01

#統計自分ではコードを書くと、複雑な計算が必要な統計分析のコードではバグが発生しがちなことをよく理解できます。

社会的に重大な事柄を扱う場合にはバグを発生させないことは非常に重要。めちゃくちゃ怖い。

みんなでバグ出しした枯れたコードであれば複雑でも大丈夫かもしれないが。

タグ：統計

posted at 17:10:53

#統計添付画像②の3つのP値函数の定義は添付画像①の通り。おっそろしくシンプル！

ベイズ版P値函数としてequal-taild信用区間を与えるものを採用したのでシンプルになった。

最短になるhighest density信用区間版だと数十行のコードが必要になる。

nbviewer.org/github/genkuro... を一ヶ所訂正した。 pic.twitter.com/RQabO2We1n

タグ：統計

posted at 17:07:44

#統計関連スレッド twitter.com/genkuroki/stat...

タグ：統計

posted at 16:57:47

関連スレッド twitter.com/genkuroki/stat...

タグ：

posted at 16:56:55

#統計脱線して来た。脱線を続ける。

3次元円グラフは印象操作に使えるグラフとして悪名高いです。
www.cresco.co.jp/blog/entry/950/

自分で3D円グラフを描くコードを書こうとした人は、中心の位置を奥にずらすことが重要なポイントであることを学べます。

こういう所にも面白い話が色々あります(笑)

タグ：統計

posted at 16:54:02

#統計しかし、数学的な微調整をした結果のグラフをいろいろ書いてみることは、理解のために非常に役に立ちます。

自分では決してやらないが、数学的力を使ってズルをする方法をいろいろ知っているのは良いことだと思います。

印象操作にも使えそうなグラフに作成も良い勉強になります。

タグ：統計

posted at 16:50:40

#統計 P値が5%未満になるか否かとかとか、95%信頼区間が0をまたがないようにできたから否かについて、異様なこだわりが必要になったので「微調整」を行うことは、実質研究不正行為だと思うし、科学的な合理性が失われた状態だと思います。

そういう意味でも「微調整」は要注意。

Simple is best.

タグ：統計

posted at 16:47:58

#統計「微調整が大して意味を持たない」と考える理由は、シンプルな統計モデルを適用する場面では、まず統計モデルが現実を高い精度で近似しているとは考えられない場合です。

そういう場合に細かい微調整をしても、統計分析法の説明文が長くなるだけで、メリットはほとんどないと思います。 twitter.com/genkuroki/stat...

タグ：統計

posted at 16:43:04

@MinatoNakazawa 私が孤独感を感じている理由は、

　ベイズ統計の事後分布も
　Greenlandさん達的なcompatibilityで解釈して良い

と言っている人を私以外に見つけることができないことです。

今、Statistical Rethinkingには書いてあるかもしれないと思いました。

タグ：

posted at 16:37:18

#統計いずれにせよ、ベイズ版の信用区間について、ベイズ主義的な解釈を強制しようとして来た人を見たら(困ったことに相当に沢山いる！)、かけ算順序固定強制をしてくるような人と同じ扱いで問題ないと思います。

まずは数学的な近似関係を見ないと実用的に使えるようにならないと思います。

タグ：統計

posted at 16:33:40

中澤港％人類生態学者＠神戸大学 @MinatoNakazawa

#統計以上で述べた事前分布の微調整は実用的には大して意味を持たないことだと私は考えています。

それでもそういうことを述べた理由は、通常の信頼区間を与えるP値函数と、ベイズ版信用区間を与えるP値函数がどのように一致{する,しない}かを理解するための数学的演習になると思っているからです。

タグ：統計

posted at 16:31:13

@genkuroki 近いことはRothmanのIntroduction本に書かれていますが、広まりませんね

タグ：

posted at 16:30:17

Ishida the Brain Dam @tbs_i

んー、俺は黒木さんが信頼区間と検定の関係しつこく説明してるのは（それってほぼ自明なので）あまりやる意味分からなかったのだが、この引用ツイみたいな人多数派なのもしかして？ twitter.com/TsugawaYusuke/...

タグ：

posted at 16:29:55

#統計 equal-taild版信用区間を与えるP値函数ではなく、最短になってくれるhighest density版信用区間を与えるP値函数ならば、点推定値は事後ベータ分布の密度函数を最大化するとパラメータ値になるので、一様事前分布を取ればそれと最尤推定値が一致するようになります。

nbviewer.org/github/genkuro... pic.twitter.com/6NbQCjhxxA

タグ：統計

posted at 16:28:11

#統計 P値函数の近似的一致は信頼区間の近似的一致を含みます。

Wilsonの(スコア版)信頼区間とClopper-Pearsonの信頼区間の両方が「頻度論」の立派な道具だと考えている人は、一様事前分布に関するベイズ版信用区間も「頻度論」の立派な道具だとみなさないと、論理的一貫性が無くなります。

タグ：統計

posted at 16:10:01

#統計 BayesianのP値函数はequal-tailed版信用区間を与えるP値函数です。そのP値函数の点推定値は事後ベータ分布の中央値になるのですが、それを最尤推定値に近付けるには事前分布をBeta(1/3, 1/3)にするとよいです(笑)

こういう微調節が問題にならないくらいの標本サイズを準備したい。 pic.twitter.com/3fIHORtq5l

タグ：統計

posted at 16:05:53

#統計 n=20, k=0,1,...,11のP値函数達の同時プロット。

通常のP値函数のWilsonとBayesianは結構一致する。 pic.twitter.com/rH2rx5e8ie

タグ：統計

posted at 16:05:52

#統計二項分布モデルの場合の

* WilsonのP値函数
* Clopper-PearsonのP値函数
* 一様事前分布のベイズ統計でのP値函数の類似物

の同時プロット。

通常のP値函数であるClopper-PearsonとWilsonとの違いとBayesianとの違いは同じ程度。

#Julia言語ソースコード
nbviewer.org/github/genkuro... pic.twitter.com/wauMupcX9c

タグ： Julia言語統計

posted at 16:05:50

Programmer Humor @PR0GRAMMERHUM0R

What common core nonsense is this? www.reddit.com/r/programmerhu... pic.twitter.com/bHpxS6D9Ru

タグ：

posted at 16:00:09

ku-min @nanashinosenbei

@genkuroki 大変勉強になりました…。
警察になりかけてました…。

自分は捕まらないように、基本的には最初からベイズ推定します。
理由を説明して理解してもらうのが難しいので。

タグ：

posted at 15:54:52

#統計昔ながらの信頼区間警察は信頼区間とベイズ信用区間の解釈を変えることを他人に強制しようとしますが、かけ算順序を子供に強制している人達と同類扱いで問題ないと思います。

信頼区間と信用区間がほぼ一致する状況では同じ解釈をしてよく、そうでない場合は別に考えればよい。

タグ：統計

posted at 15:14:19

#統計実際にやってみると、二項分布モデルの通常のP値函数達の間の違いと、ベイズ統計版のP値函数達との違いはせいぜい同じ程度でしかない！

二項分布モデルの場合に複数のP値函数に実用的意義を認めるなら、ベイズ統計版も__同じ解釈で__実用的に意義があることを認める必要があります。続く

タグ：統計

posted at 15:14:18

#統計単純な二項分布モデルの場合には、P値と信頼区間の通常の定義の仕方には

* Wilson (スコア)
* Wald
* Clopper-Pearson
* Sterne

などいろいろあります。

これらと二項分布モデルでのベイズ統計での信頼区間やP値の類似物を同時プロットして、どれだけ違うかを確認すると面白いです。続く

タグ：統計

posted at 15:14:17

#統計この手の話では、例えば二項分布モデルのような最もシンプルな場合について、色々グラフを描いてみてから考える、のようにした方が不健全な考え方に陥らずに済みます。

続く

タグ：統計

posted at 15:14:16

#超算数 ←「算数を超えた話題」とも解釈可能

某大手塾ではなく、中学校の理科の授業で「みはじ」を教えて中学生を害する先生もいます。

自分ちの子は大丈夫でもその友達が被害にあっていることを思うと結構むかつく。

そう思われていることを「みはじ」先生は恐れてほしいと思う。 twitter.com/justdoit488/st...

タグ：超算数

posted at 14:52:31

Tomoki@UCLA Biostati @0kkus0

某氏がなぜオッズ比やハザード比の信頼区間が対称でないのかを他者に聞いてたけど、他人に言葉で聞くより、ロジスティック回帰やCox回帰のモデルを書けば、対数とLogの知識だけで理解できるんやけどな…
むしろ自分の場合、数式ベースでないと腹落ちできない(英語が読めないとゆうのもあるけど…)

タグ：

posted at 14:10:05

Tomoki@UCLA Biostati @0kkus0

信頼区間とp値問題で思うのは、定性的な理解、解釈、実践的活用は、数学的な関係性(この場面では同値性) を理解した上で議論することが重要だなと思いつつ、大半の人は数式の説明を提示されてもスルーして議論を続けるので、大変だなと…

タグ：

posted at 14:05:47

#統計最尤法とベイズ的な方法の使い分けについては、実質的に渡辺澄夫『ベイズ統計の理論と方法』の第4章に書いてあります。

使い分ける必要がない場合には「あなたの好きな方を使えば良い」が正解だと思います。

頻度主義やらベイズ主義などと言う人達が言って来る「しばり」は全無視で問題ない。

タグ：統計

posted at 13:50:09

#統計続き。それでは、どういう場合ならば、最尤法+P値+信頼区間よりもベイズ統計を使った方がよいのか？

最尤法+P値+信頼区間の組み合わせは、尤度函数がシンプルな単峰型になる場合には高性能ですが、そうでない場合には苦しい。

尤度函数のグラフが複雑な形になる場合にはベイズ統計が無難です。

タグ：統計

posted at 13:47:39

残り59件のツイートを見る

#統計最尤法とP値と信頼区間の組合せはよく使われており、特にスコア検定とそれに付随する信頼区間は性質がよくて使い易い場合が多いという印象がある。

そういう道具とベイズ統計の使い分けですが、最尤法+P値+信頼区間が有効な場面では、ベイズ統計を使っても得られる結果はほぼ変わりません。続く

タグ：統計

posted at 13:47:39

小林美穂子 @xiaolinmeisuizi

横須賀市は今年１月、虐待を受けた大学生に生活保護に相当する独自の支援制度を作りました。
事態を重く見て、八方塞がりになった子ども達を支えなくてはと動いた横須賀市は素晴らしいのですが、これは本来、国がやるべき問題です。
www.nhk.or.jp/shutoken/wr/20...

タグ：

posted at 13:39:56

@golgo_sardine @id_imuimu id_imuimuさんの主張は分かりにくいですね。

小学生に算数を教える際に、

「いつか掛け算の順番が大事になる例があるから、そのことを先に教えてもいい」

と言っているのか、

そうじゃないのか、どちらなんですか？

回答例　「はい、そうです」「いいえ、そうじゃありません」など

タグ：

posted at 13:36:28

Julia日本語記事まとめ @julia_kizi

#統計 #Julia言語

pvalue(k, p)の定義は添付画像の pvalue_bin_wilson(k, p; n=20) にあります。
nbviewer.org/github/genkuro...

二項分布の正規分布近似を使っているだけのコードです。

たったこれだけの函数のグラフを描くだけで多くのことを理解できます。

みんなやるべき。

twitter.com/genkuroki/stat... pic.twitter.com/WkemUFHUox

タグ： Julia言語統計

posted at 13:29:03

新しい記事がQiitaにアップされました！#Julia言語 #Julia日本語記事
 qiita.com/kimseok1973/it...👈

タグ： Julia日本語記事 Julia言語

posted at 13:23:43

#統計というわけで、検定と信頼区間の表裏一体性をP値函数の立場から見直せば、

* 検定
* 信頼区間
* 点推定

だけではなく、

* ベイズ統計における事後分布

について理解することも楽になります。

いいことずくめ！

しかし、こういうことを言っているのは私しかいない。広まって欲しい。

タグ：統計

posted at 13:22:13

#統計 Greenlandさんの名前は私のツイログによく登場しています。

ツイログを検索→ twilog.org/genkuroki/sear...

タグ：統計

posted at 13:20:44

#統計ベイズ統計での事後分布の密度函数はデータの数値を与えたときに得られるモデルのパラメータの函数の一種で、P値函数に似ています。

実はGreenlandさん達が広めているcompatibilityの考え方を独自に拡張すれば、事後分布とP値函数は似たような考え方で解釈可能です。

タグ：統計

posted at 13:19:30

#統計以上のような見方は、検定や信頼区間の理解に役に立つだけではなく、ベイズ統計の理解の仕方への大きなヒントにもなります。

タグ：統計

posted at 13:19:30

#統計このように、P値函数のグラフの読み方を理解できれば、

* 検定
* 信頼区間
* 点推定

のすべてを単独のP値函数の要約として統一的にかつ直観的に理解できるようになります。

こういう見方ができると、複雑に見える統計学的ツールの理解が一挙に楽になります。P値函数さえ理解できればよい。

タグ：統計

posted at 13:16:17

#統計データの数値を固定した場合のパラメータのみの函数としてのP値函数のグラフから、95%信頼区間は添付画像のようにして得られます。

つまり、P値函数のグラフを高さ5%で切断して得られる線分が95%信頼区間になります。

点推定値は「とんがり帽子」のてっぺんを与えるパラメータ値になります。 pic.twitter.com/MS7UbiqLtA

タグ：統計

posted at 13:13:28

#統計実践的な状況では、データは固定された数値になります。だから、データの数値 k を固定した場合のP値函数のグラフの形も見ておいた方がよいです。

例えば添付画像のようになります。

P値函数のグラフは多くの場合にこのような「とんがり帽子」型になります。 pic.twitter.com/4d8pKIStKa

タグ：統計

posted at 13:08:34

#統計視線の傾きを変えたバージョン。

3次元のグラフは一度は見たくなるのですが、多くの場合に何がどうなっているかが見難く、私の場合には2次元のヒートマップと併用することが多いです。 pic.twitter.com/gDpfbiRgfv

タグ：統計

posted at 13:06:36

#統計ヒートマップではなく、縦軸をpvalue(k, p)の値に取った3次元のグラフも作りました。

一般に3次元のグラフは見難く、印象操作にも利用しやすいので要注意です。

実際、見難かったので回転させました。 pic.twitter.com/xPFMtHPPca

タグ：統計

posted at 13:05:17

#統計領域の塗り分けのグラフはおそろしく地味になりました。

P値が高いほど明るい色でプロットするヒートマップのグラフは少し華やかになります。

P値の大きな点ほどデータの数値とモデルのパラメータの数値の相性が良い(more compatible)と解釈します。暗い所では相性が悪い。 pic.twitter.com/FJzzBDYAAE

タグ：統計

posted at 13:03:39

Dr. すきとほる | 疫学専門家 @iznaiy_emjawak

#統計 #Julia言語というわけで、試行回数n=20の二項分布モデルの場合に「k回成功」と「成功確率p」の組にP値pvalue(k, p)を対応させる函数のグラフを作りました。

nbviewer.org/github/genkuro...

まずは、pvalue(k, p)のグラフではなく、棄却領域と信頼区間の「和集合」のグラフ。縦方向が95%信頼区間。 pic.twitter.com/urz1J1KQqV

タグ： Julia言語統計

posted at 13:01:01

95％信頼区間に対して左の理解をしているか、右の理解をしているかがミソで、右の理解ができていれば、「95％信頼区間と仮説検定が表裏一体」ということも自然と腹落ちするかもですね（スクショは同動画から引用）。

私も未だに混乱するので、何度も佐藤先生の動画を見直していますが(；´･ω･) pic.twitter.com/b179vzc5ZD

タグ：

posted at 12:09:03

Dr. すきとほる | 疫学専門家 @iznaiy_emjawak

#統計実践的な統計学の運用では「棄却領域」の設定で検定を行うのではなく、データとパラメータの組(x, θ)にP値pvalue(x, θ)を対応させる函数をコンピュータ上で実装して利用します。

だから、この図を函数pvalue(x, θ)のグラフに「拡張」すると、さらに実践的に役に立つイメージが得られます。 pic.twitter.com/G4oGQdZSaL

タグ：統計

posted at 12:01:53

文章だと難しく感じますが、こちらの佐藤俊哉先生の動画を見ると「信頼区間は仮説θ=aが有意水準αの検定で棄却されない値a全体の集合」ということが直感的にも理解できますね（43分あたり）。

信頼区間、P値、検定について、日本で最も分かりやすく解説した動画だと思います。
www.youtube.com/watch?v=vz9cZn... twitter.com/TsugawaYusuke/...

タグ：

posted at 11:55:02

#統計添付画像①に似た図が

竹内啓『数理統計学』p.103(添付画像②)
竹村彰通『現代数理統計学』p.203

にもあります。

個人的に竹内啓さんのその本は退屈せずに読めるように書いてある良い本だと思っています。 pic.twitter.com/j2lwJq5BUC

タグ：統計

posted at 11:38:04

ku-min @nanashinosenbei

@genkuroki この図はわかりやすいですね！

ただの意見ですが、
学生さんとかに向けてと仮定すると、

図の中央に、適当な確率分布に、リジェクト部分を色付けしたような図を重ねて描画すると、よりわかりやすいかもしれません…！

タグ：

posted at 11:37:45

#統計互いに補集合になっているという関係から、検定法の棄却領域からその補集合として信頼区間の「和集合」も決まることが分かるだけではなく、逆に、任意の区間推定法を与えれば区間の「和集合」の補集合として棄却領域が決まり1つの検定法が得られることも分かります。 pic.twitter.com/JbvERsdlP2

タグ：統計

posted at 11:33:24

#統計検定での棄却領域と信頼区間の「和集合」は互いに相手の補集合になるという関係になっています。

これは本当にシンプルな話であり、これを教えてもらわなかった人が信頼区間の解釈で苦労するのは当然だと思います。

信頼区間を自分の武器の1つにしたい人にとってこれは価値ある知識です。 pic.twitter.com/Mwf2rAXFqt

タグ：統計

posted at 11:28:32

#統計検定と信頼区間の関係については以下のリンク先で紹介した教科書を読むとよいと思います。

どれも有名な教科書です。

おかしなことを言っている人達に影響されずに、普通に教科書から有益な知識を吸収すれば良いと思う。 twitter.com/genkuroki/stat...

タグ：統計

posted at 11:24:07

私は「信頼区間」などの統計学入門に現れるキーワードについて定期的にツイッター検索しています。

結構、反ワクチンな発言もヒットして来て、非常に不快に思っています。😱

「ベイズの定理」で検索しても反ワク発言がヒットして来たりするので、ミュートしまくり。😅

不快でない議論を読みたい。😊

タグ：

posted at 11:17:34

#統計その件ではsekkai先生や津川先生の側が普通に常識的に正しいことを言っているだけだと思います。

「信頼区間について議論になっている」という言い方をする人がいますが、実際にはsekkaiさんや津川さんの側が一方的に誤りを指摘した段階で終わりになるべき話題です。議論になっていない。 twitter.com/tsugawayusuke/...

タグ：統計

posted at 11:12:44

以下のリンク先の添付画像中のようなことを言う人物とは会話をしたくないです。 twitter.com/kurodoraneko15...

タグ：

posted at 11:00:32

議論しても何もメリットがない。
さらに面倒になったら、こちらからブロックする予定。

タグ：

posted at 10:58:36

うわ！ブロックを解除して来ました。

議論には一切応じる必要はないと思っています。

さっそくミュートしました。

しばらくしたら、こちらからブロックするかも。 twitter.com/genkuroki/stat...

タグ：

posted at 10:57:20

twitter.com/kurodoraneko15... を見て、私は「宝塚の宮澤氏は問題のある人物なので議論してはいけない」と思っています。

さらに、「議論には一切応じず、この人はおかしなことを言っていると一方的に発言しても、私の側は何も困らない」とも思っています。

通知が煩い場合にはミュートします。ではでは。 twitter.com/blanc0981/stat...

タグ：

posted at 10:54:05

上海II @shanghai_ii

宗教法人法で解散が決定すると、税制優遇がなくなるだけじゃなくて、その時点での「残余財産」の処分がなされる（第50条）。恐らく裁判所の管理下で処分がなされるので、ここで一気に被害者の確定や被害回復がなされるはず。残余財産が残るとは思えないんだけど、もし残れば国庫に行きます。

タグ：

posted at 08:46:11

Dr. KID @Dr_KID_

私もご紹介されている文献はわかりやすいと思います。
以前（2018ー19くらい）、Greenland先生の講演も何度か拝聴しましたが、同じようなことを強調されていました。 twitter.com/genkuroki/stat...

タグ：

posted at 08:39:36

@id_imuimu twitter.com/id_imuimu/stat...
＞掛け算の順序にこだわることもあえてありなのかなといっしゅうまわって考えた。

行列や外積の話をしているなら、「あえてあり」とかじゃなく、

かけ算の順序に拘るのは当然のこと。拘らない方がおかしいわけで、

考えるまでもないことでしょう。

タグ：

posted at 07:39:18

@TsugawaYusuke 追加情報 twitter.com/genkuroki/stat... pic.twitter.com/zlgcb9BJir

タグ：

posted at 03:26:18

多くのリプライも巻き添え？／日本ファクトチェックセンターさん、記事修正対応時にツイ消し→再投稿という対応をとっていたもよう togetter.com/li/1958922 #Togetter @togetter_jpより

タグ： Togetter

posted at 03:20:19

その不敗の宝塚の宮澤さんとやらは、私のことはブロックしているんだよな(笑)

お陰様で今日も平和だ。 twitter.com/sekkai/status/... pic.twitter.com/Ry3PiPsNeW

タグ：

posted at 03:12:56

#統計行列などのかけ算の可換性が成立しない場合がある。そういう場合にはかけ算の順序を気にすればよい。

通常の信頼区間とベイズ信用区間の間に実践的に無視できない違いが生じる場合には、それぞれを別に解釈すればよい。

難しく考えずにケースバイケースでシンプルに考えればよい。

タグ：統計

posted at 03:05:43

#統計数学を実践的に使う場合には「ぴったり等しい」という条件にこだわることは有害である場合が多く、どのような場合に「近似的に等しい」と言えるかという発想が重要になります。

条件が揃えば、信頼区間とベイズ信用区間は近似的によく一致します。そういう状況で定義の違いにこだわるのは愚策。

タグ：統計

posted at 03:03:10

#統計例えば、3×4=3+3+3+3、4×3=4+4+4と定義したとき、3×4を4+4+4の意味で使ってはいけないと子供に強制する行為は子供を害しています。

それと同じようなことが、通常の信頼区間とベイズ信用区間について起こっているように見える。定義が全然違っていても条件が揃えば同じ解釈をしてよい。 twitter.com/genkuroki/stat...

タグ：統計

posted at 03:00:16

#統計 compatibilityの解釈の普遍性を理解できてかつ拡張も容易であることを知ると、通常の信頼区間とベイズ版信用区間について解釈の違いを無用に強調することは統計学の実践的運用において有害であることがわかります。

主義に基くベイズ統計の発想にはそろそろ引導を渡すべき。

タグ：統計

posted at 02:37:02

#統計 Greenlandさん達が推し進めているcompatibility intervalとしての信頼区間の解釈は、そのままベイズ統計での信用区間にも拡張されます。

ただし、ベイズ信用区間に関するcompatibilityは事前分布も含めてのデータの数値との「両立性」「相性の良さ」だと解釈する必要がある。

タグ：統計

posted at 02:37:01

#統計

地獄が発生していることを確認したい人向け😅
↓
twitter.com/search?q=until...
until:2022-10-16 "信頼区間" をツイッターで検索

タグ：統計

posted at 02:30:18

#統計関連スレッド twitter.com/genkuroki/stat...

タグ：統計

posted at 01:57:19

河合祐介 @tkawai18_tkawai

明日はお休みなのでこれをjupyterで動かしながら学んでいこう twitter.com/genkuroki/stat...

タグ：

posted at 01:55:31

#統計検定と信頼区間が表裏一体であることは有名な教科書達にも書いてあります。

しかし、学部生向けの多くの入門的教科書では、信頼区間の解説が検定の解説の前に書いてあって、信頼区間と検定の表裏一体性には一切触れずに終わる。

信頼区間の解釈をまともにできない人が多いことの原因の1つ。 twitter.com/genkuroki/stat...

タグ：統計

posted at 01:55:09

#統計以下のツイートに連なるスレッドの内容に賛成の人が多そうに見えること(いいねの数などに注目)を、私は非常に残念に思いました。

多分、我々は大学学部レベルの統計学教育に問題を抱えています。

論文 journals.sagepub.com/doi/10.1177/02... のような議論がもっと広まって欲しいです。 twitter.com/ykfrs1217/stat... pic.twitter.com/hHqelXMFBU

タグ：統計

posted at 01:46:06

#統計信頼区間を示した途端に、RR=ρの型の仮説やOR=ωの型の仮説が検定では棄却されないρやωの値全体が明らかになっていることを認識できていれば、以下のリンク先の④D前半のようなことを言えるはずがない。 twitter.com/ykfrs1217/stat...

タグ：統計

posted at 01:46:03

#統計 ④C全体は、もはやどうしてこういうコメントが挿入されているかが理解不能。 twitter.com/ykfrs1217/stat...

タグ：統計

posted at 01:46:02

#統計 ④Bでも【求められた値そのものの差（違い）】が点推定値なのかそうでないかが曖昧すぎる。

そして、信頼区間の計算そのものがOR=ωやRR=ρの型の無数の仮説達の有意水準αでの検定を一挙にまとめてやった結果になっていることへの配慮が全くない。 twitter.com/ykfrs1217/stat...

タグ：統計

posted at 01:46:01

#統計以下のリンク先の④Aもひどく曖昧です。

ORやRRの点推定として"%"を求める話をしているようにも見えますが、それだと区間推定(信頼区間)の話にならない。

信頼区間の計算では実質的に、仮説OR=ωや仮説RE=ρの有意水準αでの検定法と同等の情報が使われることを認識している気配が全くない。 twitter.com/ykfrs1217/stat...

タグ：統計

posted at 01:46:01

#統計「仮説θ=aの有意水準αでの検定法と同等の情報」が信頼区間の計算で使われることを認識できていれば、以下のリンク先の③のような書き方はできないと思います。 twitter.com/ykfrs1217/stat...

タグ：統計

posted at 01:46:00

#統計以下のリンク先の③もひどく曖昧です。

信頼区間の計算に使われるのは「データの数値(数表)」であり、【分布】のような曖昧な呼び方はやめるべきです。

信頼度1-αの信頼区間の計算には

(1)データの数値
(2)仮説θ=aの有意水準αでの検定法と同等の情報

が使われます。続く twitter.com/ykfrs1217/stat...

タグ：統計

posted at 01:45:59

#統計【②信頼区間を求めることは検定につながる。求めることは検定ではない】は確かに誤りとは言えないかもしれませんが、「データの数値によって仮説θ=aが有意水準αの検定で棄却されない値a全体の集合」という信頼区間の定義との整合性への配慮に欠けていることは明らかで問題ありだと思います。

タグ：統計

posted at 01:45:58

#統計効果の指標θ(統計モデルのパラメータの1つ)の信頼度1-αの信頼区間の1つの定義は、

　データの数値によって仮説θ=aが
　有意水準αの検定で棄却されない値a全体の集合

です。この意味では、定義から自明に、信頼区間の計算は検定を(無数に)行うことと同じことになります。

続く

タグ：統計

posted at 01:45:57

#統計【②信頼区間を求めることは検定につながる。求めることは検定ではない】も間違いではないですが、細部が曖昧すぎて教育的には有害なくらいミスリーディングだと思いました。

その理由はこのスレッド全体と関連スレッド達をすでに読んだ読者には明らかだと思いますが、以下で再度説明します。 twitter.com/ykfrs1217/stat...

タグ：統計

posted at 01:45:57

#統計それだと、検定と(例えばワクチンのefficacyの)信頼区間の関係をまともに理解できなくなります。

検定と信頼区間の関係を理解するためには、「効果はaである」(aは具体的な数値)の型の仮説の評価も検定で可能なことを強調する必要があります。

タグ：統計

posted at 01:45:56

#統計【①検定とは、（帰無）仮説の評価である】

これは間違いではないですが、【(帰無)仮説】としてどのようなものを想定しているかが不明瞭すぎてミスリーディングだと思います。

多くに人達は、検定と言えば、「効果はゼロである」という型の帰無仮説の評価のことだと強く思い込んでいます。続く twitter.com/ykfrs1217/stat...

タグ：統計

posted at 01:45:55