黒木玄 Gen Kuroki(@genkuroki)/2022年06月/Page 11

黒木玄 Gen Kuroki

@genkuroki

いいね数 389,756/311,170
フォロー 995　フォロワー 14,556　ツイート 293,980
現在地 (^-^)/
Web https://genkuroki.github.io/documents/
自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。

Favolog ホーム » @genkuroki » 2022年06月 » Page11

«< 前のページ 8 9 101112 13 14 次のページ >»

並び順 : 新→古 | 古→新

2022年06月11日(土)

黒木玄 Gen Kuroki @genkuroki

22年6月11日

@hikari_SMN #統計本当に設定についてそれしか書かれていないなら、確率に関する典型的な誤りです。その設定だけだと、袋1を選んだ確率を計算する手段がない。

「最初に袋1,2を同確率で選んだ」という設定があれば、赤8青4になったという条件の下での袋1を選んだ条件付き確率が約97%だと分かります。

タグ：統計

posted at 05:08:07

黒木玄 Gen Kuroki @genkuroki

22年6月11日

@hikari_SMN #統計よくある誤りは、「勝手に袋1,2を最初に同確率で選んだことを前提にしてしまうこと」です。

ベイズの定理経由で問題を解かずに、同時確率分布を最初に記述し切ってしまう方がよいと思いました。そうすればよくある誤りを防げる。

条件付き確率を理解していれば、ベイズの定理は無用です。

タグ：統計

posted at 05:15:26

黒木玄 Gen Kuroki @genkuroki

22年6月11日

@hikari_SMN #統計この手の話題の説明では、最初に袋1,2をどう選んだかの前提を述べずに、よくある誤りをおかしてもらい(97%と答えさせる)、その後に最初に袋1,2を等確率で選ばない場合をベイズの定理を使って計算して、ベイズの定理が本当は自明でつまらない定理であることを分からなくする解説が定番です。

タグ：統計

posted at 05:33:03

黒木玄 Gen Kuroki @genkuroki

22年6月11日

@hikari_SMN #統計そういう説明の仕方は、ベイズの定理のようなつまらない結果をすごい話のように見せるために、最初に確率の設定を地道に行なっていれば、よくある誤りをおかさずに済んだかもしれない読者を誤りをおかすように誤誘導しているのでちょっと酷いと思っています。

タグ：統計

posted at 05:36:14

黒木玄 Gen Kuroki @genkuroki

22年6月11日

@hikari_SMN #統計お勧めの解法

⓪ベイズの定理は無用である。

①最初に、袋の選択の仕方も含めて「袋i赤a青b」となる確率(同時確率)を完全に記述し切る。袋に関する確率の記述をここで確定させる。

②赤8青4になる確率を計算する。

③(袋1赤8青4の確率)/(赤8青4の確率)を計算する。

タグ：統計

posted at 05:58:30

黒木玄 Gen Kuroki @genkuroki

22年6月11日

【ベイズの定理のようなつまらない結果をすごい話のように見せるために、最初に確率の設定を地道に行なっていれば、よくある誤りをおかさずに済んだかもしれない読者を誤りをおかすように誤誘導】するやり方は本当にありがちで、よろしくないと思う。 twitter.com/genkuroki/stat...

タグ：

posted at 06:00:46

黒木玄 Gen Kuroki @genkuroki

22年6月11日

最初に読者を誤誘導することによって、○○の定理を凄そうに見せるような解説は、数学教育的にかなり問題がありすぎ。

ベイズの定理の解説がそうなってしまいがちな理由は、歴史的な不幸が原因で、「条件付き確率を使った推論」全般を「ベイズ統計」と呼ぶ杜撰な傾向が確定してしまったことだと思う。

タグ：

posted at 06:04:30

黒木玄 Gen Kuroki @genkuroki

22年6月11日

ベイズの定理について解説する側が「あの有名なベイズ統計に使われる凄い定理である」という印象を読者に植え付けたいという邪な感情に支配されているのではないか？

実際には、条件付き確率の概念を理解できていれば、ベイズの定理について知っている必要はないのに、邪な感情が酷い解説を生産する。

タグ：

posted at 06:07:18

黒木玄 Gen Kuroki @genkuroki

22年6月11日

歴史的な不幸が原因で、自明でつまらない定理であるベイズの定理が過剰な「権威」を持つようになってしまった。

そういう状況を緩和するためには、ベイズの定理についても解説することは必要かもしれません。

タグ：

posted at 06:09:18

黒木玄 Gen Kuroki @genkuroki

22年6月11日

不幸にもベイズ統計と呼ばれることになってしまった方法も、条件付き確率分布について理解できていれば、ベイズの定理を知らなくても、理解できます。

そうした方が、事後分布だけではなく、予測分布の概念も一つの統一された方法で理解できます。ベイズの定理を使うと予測分布を理解し難いと思う。

タグ：

posted at 06:13:04

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#数楽数学を教える側が知っておくべきこと

* ℝ上の函数と数列(ℤやℤ_{≥0}上の函数)は似たようなもの

* 特別にシンプルな微分方程式や漸化式で特徴付けられる函数や数列のクラスが存在する。

* そのことを認識していると、ある種のクラスの微分方程式や漸化式を機械的に解く方法が得られる。

タグ：数楽

posted at 06:25:06

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計 P値の使い方について広まっているダメな考え方(特に主義に基くダメなベイズ統計推しの困った人がしている考え方)は、

帰無仮説「治療の効果無し」vs.対立仮説「治療効果有り」

のような仮説検定しか考えないことです。

NHSTという四文字を使う人たちのP値批判でよく見る。

タグ：統計

posted at 06:28:47

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計しかし、教科書には

帰無仮説「治療効果=θ₀」vs.対立仮説「治療効果≠θ₀」

の型の検定を値θ₀をオールオーバー動かす話が普通に書いてあります。検定される仮説は固定されていない。

そしてその方法を使って信頼区間も得られることが説明されています。

タグ：統計

posted at 06:30:31

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計そういう方向での最先端はおそらくRothmanさん達の疫学の教科書で、

帰無仮説「効果=θ₀」vs.対立仮説「効果≠θ₀」

の型の検定のP値を値θ₀をオールオーバーに動かしてプロットして利用することを提案しています。

P値函数のグラフを描くためには、有意水準の設定は必要ない。

タグ：統計

posted at 06:33:25

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計ツイッター上でもRothmanさんは持ちネタを炸裂させていて面白いです。検索して見つけてフォローしておくといいかも。

その持ちネタとは、有意水準という人為的な閾値の設定に心を支配されてしまって、間違った判断をしてしまうことへの批判。

タグ：統計

posted at 06:36:30

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計二項分布モデルのP値函数の例

「n=20回中k=6回成功」というデータが得られたときの、二項分布モデルの成功確率パラメータのP値達のグラフ。適当に見繕って4種類の信頼区間を与えるP値を別々にプロットしました。

nが増えるとP値函数のグラフの幅は狭くなります(次のツイートの例を参照)。 pic.twitter.com/6rjZu1VTtE

タグ：統計

posted at 06:48:26

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計

「n=100回中k=30回成功」というデータが得られたときの、二項分布モデルの成功確率パラメータのP値達のグラフ。

n=20, k=6の場合よりも、P値函数のグラフの幅が狭くなっている。

P値函数は信頼度を固定して得られる信頼区間よりもずっと豊富な情報を持っている。 pic.twitter.com/UhhnLF9ujq

タグ：統計

posted at 06:50:36

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計 P値函数と95%信頼区間の関係

P値函数経由での信頼区間の視覚的把握は極めて易しい。

これを理解した人が信頼区間について誤解することは難しいように思われる。

信頼区間の上には「とんがり帽子」がのっかっています(笑)

Rothmanさん達の教科書経由で普及すると良いと思う。 pic.twitter.com/Q7c4ClpxLC

タグ：統計

posted at 06:53:48

Togetter（トゥギャッター） @togetter_jp

22年6月11日

「お酒がテーマの大人向けプ○キュアを考えてみた→クオリティ高すぎでこれは見てみたい…「天才だ」「毎週リアタイする」」togetter.com/li/1899265
がきてるみたいっ。なんだか気になってきたよ！作成者:@kasajimajima

タグ：

posted at 06:54:05

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計線形回帰における(回帰直線上の値の)信頼区間は各xごとに決まっており、各xごとの(回帰直線上の値の)信頼区間の上に「とんがり帽子」が乗っかっている(笑)

とんがり帽子自体には信頼度の指定は必要ない。

誰かこれを視覚化すると面白いかも。

タグ：統計

posted at 06:58:00

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計

この図は、データ「n=100回中k=30回成功」から得られる仮説p=p₀達のP値達をプロットしたもので、その高さ=有意水準での切断が信頼区間になっていることを示しています。

この図から、逆にすべての有意水準での信頼区間が与えられれば、そこから逆にP値函数を作れることも分かります。続く pic.twitter.com/0JUhHKMixP

タグ：統計

posted at 09:35:37

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計続き。P値函数のグラフで信頼区間について理解すると、

任意のP値函数 ↔ 任意の区間推定法

という一対一の対応が自明にあることを理解できる。

どんな方法であっても、区間推定法を1つ決めてそれを使うことは、P値函数を使っていることにも自動的になってしまうのです。続く

タグ：統計

posted at 09:39:29

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計だから、「P値を使うべきではない」という主張は「区間推定してはいけない」という主張を含みます。

こういうことを理解していれば、「P値を使うべきではない」という主張はまったくのナンセンスであることが分かります。

そういう過激で非生産的なことを言う人達は恥ずかしい思いをするべき。

タグ：統計

posted at 09:42:55

ずかし♡手作りツイート @ZukashiT

22年6月11日

昨日の餃子が失敗だったので、やり直しました pic.twitter.com/sL5hbcH8Jb

タグ：

posted at 09:51:46

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計データから決まる仮説p=p₀のP値は、

⭕️データの数値とパラメータ値をp=p₀に設定した統計モデル(図の場合は二項分布モデル)の整合性の指標

です。

❌仮説の正しさの指標

ではありません。この辺についてはP値に関するASA声明にも書いてあります。 pic.twitter.com/NSXqPgrH3O

タグ：統計

posted at 09:52:54

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計 P値はどこまで信頼できるかの判断が難しい「データの数値」と「p=p₀のときの統計モデル」の整合性の指標でしかない。

データが目的に合う取得のされ方をしているか

とか

統計モデルは妥当であるか

などの問題はP値と別に調べる必要があります。

この点が不明瞭な教科書が実に多い。

タグ：統計

posted at 09:52:55

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計 P.D.Hoffさんの本(なぜか『標準ベイズ統計学』という挑発的な題で翻訳された)からの非ベイズ的方法との比較の節の引用。赤字は私によるコメント。

この部分はひどくミスリーディングなので、この本を読む人は騙されないように注意した方がよいと思いました。

よりにもよってWaldの信頼区間！😱 twitter.com/genkuroki/stat... pic.twitter.com/sPjzpn3uxY

タグ：統計

posted at 12:59:36

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計 n人中0人というデータから、割合パラメータθの推定値を0/n=0とすることの解釈。これは最尤推定値。

⭕️正しい解釈：n人中0人というデータに最もモデルがフィットする割合パラメータ値は0である。

❌現実の割合を0だと推定した。

モデルと現実を混同することは典型的に非科学的です。 pic.twitter.com/6iio7ZkTAG

タグ：統計

posted at 13:04:04

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計尤度は単にモデルのデータへのフィッティングの度合いの指標に過ぎなかったことを思い出しましょう。

n人中感染者は0人というデータから尤度最大化で求めた割合の推定値0/n=0は、単にモデルがデータに最も適合するパラメータ値を求めただけで、現実の感染者の割合を求めているのではないです。 pic.twitter.com/q1WArHs2EA

タグ：統計

posted at 13:07:53

光＠読書垢 @hikari_SMN

22年6月11日

あ～ごめんなさい文字数の関係上その前提をはしょりました。袋は同確率で選ぶものとするが前提です。 twitter.com/genkuroki/stat...

タグ：

posted at 13:09:40

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計こういう尤度の定義と意味に戻れば当たり前の話を蔑ろにするから、添付画像に引用した部分のようなおかしな説明になってしまうのです。

尤度は決して「もっともらしさ」ではありません。

モデルのデータの数値への適合度の指標の1つでしかない。 pic.twitter.com/kskkMeloG1

タグ：統計

posted at 13:10:37

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計非ベイズの代表例としてWaldの信頼区間を出して来たのもかなり酷い。その理由：

* Waldの信頼区間は二項分布モデルでの信頼区間の中では特に性質が悪い(有名)。

* Agresti-Coull(1998)ではWilsonのスコア信頼区間を勧めている。添付画像②

* Wilsonの信頼区間とBayes信用区間は非常に近い。 pic.twitter.com/dZsp89aRCi

タグ：統計

posted at 13:46:30

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計非ベイズ的方法との比較で、引用しているAgresti-Coull(1998)でお勧めになっているWilsonのスコア信頼区間を扱わずに、誤差の大きなWaldの信頼区間の誰も使っていない補正を取り上げていることが不可解に見える理由は添付画像を見れば一目でわかります！続く

github.com/genkuroki/publ... pic.twitter.com/vmRLK1azf2

タグ：統計

posted at 13:50:42

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計添付画像は二項分布モデルでのP値函数のプロットです。

ベイズ信用区間も区間推定の一種なので、対応するP値函数を定義できます。それがグラフ中の橙色のdashdot line.

WilsonとBayesianがほぼぴったり一致しています！

補正されたWaldとの違いは非常に大きい。

github.com/genkuroki/publ... pic.twitter.com/r3HpZDJfY9

タグ：統計

posted at 13:53:43

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計このように、ベイズ統計との一致について印象的で、参照している文献も勧めているWilsonのスコア信頼区間を取り上げずに、誤差が大きいことが知られているWaldの信頼区間を取り上げ、さらに全然普及していないその補正を取り上げて、ベイズ統計と関連付けている。

物凄いバイアスを感じます。 pic.twitter.com/Adk4hFpUxm

タグ：統計

posted at 13:56:28

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計以下のようなことをやっているように見える！😱

* 誤差の大きなWaldの信頼区間を目立つように取り上げ、非ベイズ的方法に問題があることを印象付けようとしている。

* その非ベイズ的方法の補正方法がベイズ的な方法になっていることに言及し、ベイズ的方法の優位性を印象付けようとしている。

タグ：統計

posted at 14:01:28

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計しかし、R言語のprop.testで採用されているWilsonのスコア信頼区間(ただしcorrest=Fで連続性補正はオフにすること！)が、ベイズ的な信用区間に非常によく一致しており、これがダメなら、ベイズ統計もダメだということになります。

方法の選択はトレーフォオフの問題でしかない。 pic.twitter.com/2TEDmBxWa6

タグ：統計

posted at 14:04:27

黒木玄 Gen Kuroki @genkuroki

22年6月11日

#統計こういうクォリティの「非ベイズ的方法との比較」が翻訳されて普及してしまうことは、我々の社会にとって損失になるのではないかと思いました。

妙なバイアスをかけずに、比較すれば面白い話になるし、実用的な知識にもなるのに困ったことだと思います。 pic.twitter.com/xvjufgEr01

タグ：統計

posted at 14:07:42

黒木玄 Gen Kuroki @genkuroki

22年6月11日

@hikari_SMN #数楽約97%という値は、ベイズの定理をいきなり使うお勧めでない方法では、以下のようにして求まります。

www.wolframalpha.com/input?i=%28bin... twitter.com/hikari_SMN/sta... pic.twitter.com/PRrG7ONXZy

タグ：数楽

posted at 14:14:47