黒木玄 Gen Kuroki(@genkuroki)/2022年07月14日

#統計パラメータ値がθ₀の統計モデルM(θ₀)内部で生成された仮想的なデータX(確率変数になる)から計算された仮説θ=θ₀のP値 pval(X|θ=θ₀) は確率変数になるのですが、pval(X|θ=θ₀)の確率分布は0～1の一様分布を近似するように定義されます。続く

タグ：統計

posted at 00:04:15

#統計だから、X～M(θ₀)のとき、pval(X|θ=θ₀)<αとなる確率はαの近似値になります。(Xは現実世界と無関係のモデル内確率変数)

これが有意水準αと第一種の過誤X～M(θ₀) & pval(X|θ=θ₀)<αの確率の一般的な関係です。

タグ：統計

posted at 00:04:16

#統計その関係を信頼度1-αに焼き直すと、X～M(θ₀)のとき、Xから決まる信頼区間ci(X|α)の両端の数値はモデル内確率変数になり、θ₀∈ci(X|α)となる確率が1-αで近似されることもわかる。

95%信頼区間の95%はモデル内確率(の近似値)になる。

モデル内の話なので標本を何度も取りなおさなくてよい。

タグ：統計

posted at 00:08:36

#統計 P値 pval(x|θ=θ₀) はデータの数値xとモデルのパラメータ値θ₀の整合性(compatibility, 両立性)の指標の1つです。(他にも色々ある。)

有意水準αは、ある閾値で整合性の指標の値が小さ過ぎるパラメータ値θ₀を捨て去ることために使われます。

タグ：統計

posted at 00:12:06

#統計そうやって捨て去られずに済むパラメータ値全体の集合が信頼区間になります。

検定のイロハのイは、「仮説θ=θ₀のP値がα以上ならば、仮説θ=θ₀の正否に関する判断を保留する」です。

信頼区間に含まれるパラメータ値はそういう意味で判断を保留するパラメータ値になります。

タグ：統計

posted at 00:15:12

#統計閾値αの選択が目的に合わせて適切であれば、αの大きさに応じた危険度で、信頼区間に含まれないパラメータ値はデータとに整合性がなさ過ぎるという理由で捨て去るという判断をしても大丈夫でしょう。

捨て去られずに残ったパラメータ値達が信頼区間を構成する。

タグ：統計

posted at 00:17:21

#統計以上が、検定と信頼区間の表裏一体性に基く信頼区間の適切な解釈の仕方の解説です。

検定も信頼区間も閾値αでちょん切るという結構乱暴なことをしている点が危険です。

しかもP値函数 θ₀↦pval(x|θ=θ₀) の情報を、α以上か否かの2値的な情報に縮小してしまう。続く

タグ：統計

posted at 00:20:48

#統計科学と無関係に社会的実践では「やるか、やらないか」の2値的な判断が必要になるので仕方がないのですが、実践に直結しない事柄までも、P値函数が持つ豊富な情報を2値的情報に縮小する必然性はありません。

タグ：統計

posted at 00:23:35

#統計そういうことをつらつらと考え、さらに、データの数値とパラメータ値の別の整合性の指標である尤度函数や事後分布とP値函数の関係について思い出せば、

* P値函数全体の様子をそのまま利用する方が自然なんじゃないか？

と誰でも考えると思います。続く

タグ：統計

posted at 00:26:11

#統計こういう考え方にかなり近い話が最近の論文

journals.sagepub.com/doi/10.1177/02...

に書かれていて、「やっぱりそうだよね」と思いました。 twitter.com/genkuroki/stat...

タグ：統計

posted at 00:29:04

非公開

タグ：

posted at xx:xx:xx

キャルちゃん @tweetnakasho

#キャルちゃんのquantphチェック
Rydberg原子のブロッケード領域でエルゴート性の破れが観測されたことから、隣接する2サイトが低状態にある場合にそのサイトを更新する古典ルールを基にした量子セルオートマトンを調査。エルゴート性の破れがカオス状態にも及ぶことを示した
arxiv.org/abs/2207.05360 pic.twitter.com/mr3shjzabh

タグ：キャルちゃんのquantphチェック

posted at 00:41:24

放射能デマカルト方面の人とつるむという人間的に問題がありまくりな人物が、別の一方では悪質な宗教カルトとの戦いで正義の味方になっている。

おお！なんてこった！と叫びたくなる案件は他にも沢山ある。

タグ：

posted at 00:43:29

Genie @GenieMVC

ライオ@マルチ被害をなくす会体験談募集 @multiblack_tw

✨ It’s almost here! Next week we’ll release Genie Builder, a no-code VSCode plugin for quickly creating interactive data dashboards in Julia.

👉 Join the waitlist to get notified as soon as it's out: bit.ly/3PlDVcb

#JuliaLang #genie #dataviz #dashboards #NoCode pic.twitter.com/RCnH23sHq2

タグ： dashboards dataviz genie JuliaLang NoCode

posted at 01:00:02

ライオ@マルチ被害をなくす会体験談募集 @multiblack_tw

#統一教会2世の方が沢山発信されています。
#アムウェイ2世の方はいませんか？アムウェイに限らず #マルチ2世の方はいませんか？

親が離婚した、子供に借金してきた、製品強要された、絶縁した、布おむつ使うよう促された、親がマルチを転々としている等ありませんか？
www.multi.black/post/vol6-haha...
↓

タグ：アムウェイ2世マルチ2世統一教会2世

posted at 09:05:42

ライオ@マルチ被害をなくす会体験談募集 @multiblack_tw

私は　#マルチ2世です。
親に伝えよう伝えようと頑張りましたがこの取り組みを経て心の整理がつきました。
生きづらい中必死に生きてきた方、沢山いらっしゃいませんか？
便乗じゃないですが、被害の声を上げるしか課題解決の道は開けない。
カルト宗教とマルチは大差ない
www.multi.black/post/vol0-rio
↓

タグ：マルチ2世

posted at 09:05:42

みんな、似たようなことで苦しんでるんです。
あなたの家庭だけじゃないんです。

原因がカルト宗教だろうとマルチだろうと家庭が崩壊する事例いっぱいあるんです。

この本読んでください。あなたの経験したことにそっくりな話が出てくるかもしれません。
www.amazon.co.jp/dp/4591168425

タグ：

posted at 09:05:43

@tsatie 【閾値内（何方が内と思えば良いのか？）】という言い方が不正確。こういう言い方をやめるように気をつければ話が通じ易くなります。

「閾値未満」とか「閾値以上」のように言えばよいし、私がそういう言い方をしているのを見ているはず。

あと【仮設検定？】と「？」をつける前に教科書を読むべき。

タグ：

posted at 09:39:36

@tsatie 【仮設検定？では「得られたデータの代表値？であるp値が閾値内（何方が内と思えば良いのか？）かどうかが問題になる。そう考えると両側検定が自然と。」いう事が皆さんの言いたい事なんだろうか？】

いいえ、少なくとも私はそういうことを言っていません。

っていうか、何を言っているか理解不能。

タグ：

posted at 09:41:13

@tsatie ①有意水準5%で片側検定を行う場合には、「n人中k人」の型のデータの数値を見る前に、効き目が出る確率は2/3であるという仮説の下で「n人中k人__以上__に効き目が出る確率」と「n人中k人__以下__に効き目が出る確率」のどちらが5%未満になるかを見るかを前もって決めておく必要がある。

これはOk？

タグ：

posted at 09:47:22

@tsatie 以下では、効き目が出る確率は2/3であるという仮説の下で「n人中k人以上に効き目が出る確率」を求めると決めてあったとします。

タグ：

posted at 09:50:14

@tsatie ②仮に「30人中10人に効き目が出た」というデータが得られたとします。続く

タグ：

posted at 09:52:10

@tsatie 続き。そのときに、10/30が2/3未満だからという理由で、効き目が出る確率は2/3であるという仮説の下で「30人中10人__以下__に効き目が出る確率」を計算して、効き目が出る確率は2/3未満であるという(対立)仮説に関する片側検定に変更するのは反則になる。

これもOk？

タグ：

posted at 09:53:15

@tsatie ③データの数値を見てからどちら向きの片側検定を行うかを決める、というやり方は、実質的に両側検定と同じことになります。続く

タグ：

posted at 09:56:49

@tsatie 続き。片側検定の向きをデータの数値を見てから決めるという確率的な「ずる」をキャンセルするためには、閾値の5%を半分にするか、計算した片側検定のためのP値(上で言及していた確率)を2倍する必要があります。

通常は後者の処方箋を採用します。

タグ：

posted at 09:58:02

@tsatie ④データの数値を見るまで、30人中20人を超えるかどうか不明の場合には、事前のルール設定を「5%の有意水準で両側検定を行う」にしておいた方が無難でしょう。

タグ：

posted at 10:01:35

@tsatie 以上の話を教科書を読んで(必ず読む必要がある)理解できたら、検出力(検定力、power)についても調べておくとよいと思います。

ここら辺は統計学入門の標準メニュー。

少なくとも教える側は理解しておく必要がある。

タグ：

posted at 10:07:11

@tsatie 二項分布モデルでのP値函数ごとのpowerの定義。

pは帰無仮説の確率パラメータ値(上の文脈ではp=2/3)で、qは対立仮説の確率パラメータ値。q=pの場合には第一種の過誤の確率になる。

github.com/genkuroki/publ... pic.twitter.com/fYWz02HpEy

タグ：

posted at 10:17:52

@tsatie 3種類の(両側検定の)P値函数のデータサイズn=30と帰無仮説p=2/3に関するpowersのグラフ。3つは一致している。

n=30で検出力(power)を8割以上にするには、真の効き目が出る確率がおおよそ4割以下または9割以上である必要がある。

github.com/genkuroki/publ... pic.twitter.com/T1mSn3GSGy

タグ：

posted at 10:22:15

@tsatie 訂正：1つ前の添付画像中のClopper-Wilsonは正しくはClopper-Pearsonです。

github.com/genkuroki/publ... のコードを後で直します。

タグ：

posted at 10:23:55

あ〜る菊池誠(反緊縮)公式 @kikumaco

#統計 #Julia言語

添付画像①二項分布モデルでのP値函数の定義の例(複数)

②genericな信頼区間函数

③P値函数達のグラフの例

コードは、コーナーケースへの配慮もしていないし、効率も度外視しています。しかし、何をやっているかは分かり易くなっているはず。

github.com/genkuroki/publ... pic.twitter.com/Q14SPDf0ux

タグ： Julia言語統計

posted at 10:38:02

紀藤弁護士は放射能デマに関しては「カルト側」なんですよ。それはずっと前からそうで、僕が紀藤弁護士をフォローするのをやめたのは放射能デマに加担したから。

これもひどいね twitter.com/sonohennokuma/...

タグ：

posted at 10:55:47

@tsatie 訂正版

github.com/genkuroki/publ... pic.twitter.com/9qWH9AQ4Bj

タグ：

posted at 11:24:13

@tsatie tsatieさんはtsatieさんの独自見解の話をしているのか、それとも文献資料に書いてあったことについての話をしているのかも不明のまま。

参考にした資料のタイトルと著者と関連箇所の引用があれば、現在どういう問題が全国的に発生しているかが分かり易くなると思います。 twitter.com/genkuroki/stat...

タグ：

posted at 11:27:54

ttakahasi @ttakahasi

原発事故以降あちらに行ってしまった知人の書き込みを見ていると、学生時代統一教会に引っ張られてしまった友人を思い出すここ数日。わがこくの分断は極まったなぁ。

タグ：

posted at 12:21:17

ふじたまいこ @pie_co

DIYと将棋と連珠は同じだと思った話〜AERA後日談｜ふじたまいこ @pieco_renju #note note.com/pieco_renju/n/...

noteを書きました。

タグ： note

posted at 14:28:04

#超算数
 #数教協
数教協のパー付き式の強要についてはこの報告も参考になる。
ameblo.jp/metameta7/entr...

タグ：数教協超算数

posted at 14:32:27

#超算数
 #数教協
　遠山啓の思想は「難解」で私も理解しきれていない。不必要に難しくして「崇高な理論」を作り上げているようだが、その中身は、信奉者も分かっていないだろう。

　で結局「パー付き式がいい」とか「掛け算は同数累加ではない」という分かりやすい断片が引き継がれることになる。

タグ：数教協超算数

posted at 14:35:00

#超算数
 #数教協
7人に5個ずつ配るには何個必要か？

5×7なら理解しているが、7×5なら理解していない
5個×7人は駄目で、5個/人×7人が正しい

どちらも、想定した形式を踏まえていたら理解している、そうじゃなければ理解していない、という薄っぺらなものである。

タグ：数教協超算数

posted at 14:37:03

#超算数
 #数教協
 twitter.com/sekibunnteisuu...

誤解する人がいると困るから言っておくが、私は「遠山啓は正しかったのに、後継者が彼の理論をきちんと理解していないがゆえに、歪んだ実践を行っている」と言っているのではない。

遠山啓は最初から間違っている。後継者によって誤りが増幅されている。

タグ：数教協超算数

posted at 14:38:52

天むす名古屋 Temmus @temmusu_n

#超算数
 #数教協
ステラキッズ氏、「遠山啓の真意を理解しているのは自分であって、お前らじゃない」と言いたそうだが、

「遠山啓の真意は我にあり」なんて端から言っていない。幕末志士や反乱青年将校じゃあるまいし、そんな権威は無用。 pic.twitter.com/JAk7Deetgv

タグ：数教協超算数

posted at 14:42:38

#超算数ドイツ算数教育で割合教育を整備したのは、ディースターヴェークだったようだ。三数法なのか、それとも三用法なのか？
books.google.co.uk/books?id=4-IGA...

translate.google.com/?hl=en&tab=TT&...

上のOlbright (1891:2)が言及するのはディースターヴェークとホイザーの以下の教科書。
www.digitale-sammlungen.de/en/search?filt... pic.twitter.com/4STIvqNALb

タグ：超算数

posted at 14:44:14

@tsatie @genkuroki 仮設は流石に仮説の誤字。
しかし、高等学校学習指導要領(平成30年告示)解説数学編:これは、ヤバイでは。両側の仮説(H1は「等しくない」)を立てたのに結果を見てから片側5%の確率で検定しとるます。 pic.twitter.com/5S9YoF0xWz

タグ：

posted at 15:44:07

@tsatie @genkuroki 指導要領解説がこうなっているということは、「現在どういう問題が全国的に発生しているか」について、相当やばいことを想定すべきと思います。

タグ：

posted at 15:46:13

Ken-ichi MAEDA @ken1maeda

@genkuroki 承知しました．原典が確認できたら，またご報告します．

タグ：

posted at 16:13:54

#数楽 #統計ガンマ函数とそのお仲間でかつ一般化になっているベータ函数及びそれらの不完全版は、コンピュータの基本特殊函数ライブラリで効率良く実装されており、

* 正規分布
* Poisson分布
* 二項分布

の統計学で縦横無尽に大活躍します！

コンピュータで確認すると時間が溶けて無くなる。😊 twitter.com/huwahuwamrwk/s... pic.twitter.com/F1ir7iYugV

タグ：数楽統計

posted at 17:05:24

@ken1maeda 資料の確認は実際にやってみるとめちゃくちゃしんどいので、仲間が増えることをいつも期待しています。

どこに何が書いてあるかが不明のものに目を通しまくると、目が死にます！

無理せずに、嫌になったら、資料探索をやめちゃってよいと思います。

タグ：

posted at 17:08:06

@tomoak1n @tsatie #統計添付画像は

平成30年版の高等学校学習指導要領解説
www.mext.go.jp/content/140707...

より。

両側検定の設定で片側検定をやっている。

ああ、これは非常にまずいです。

しかし『解説』には拘束力はないので従った人達の自己責任で、これに従った高校の先生達は批判の対象になってしまう。 pic.twitter.com/yGb7JYsiVd

タグ：統計

posted at 18:06:17

@tomoak1n @tsatie #統計気になるのは、教科書の記述。

高校の検定済み教科書でも、学習指導要領解説(学習指導要領そのものとは異なる、厳密な区別が必要)と同じように、両側検定の設定で片側検定を行うようになっていたら、その教科書の執筆者達及び教科書出版社及び検定を通した文科省を批判する必要が生じます。

タグ：統計

posted at 18:10:25

@tomoak1n @tsatie 不正確かもしれない要約しかないと、まともな議論にならないので、どなたか、「この通り」(=「両側検定の設定で片側検定をやっている」)の記述がある教科書のページの詳細を教えてくれると助かります。 twitter.com/tsatie/status/...

タグ：

posted at 18:50:26

大事なことなので再度言及。添付画像は

平成30年版の高校の学習指導要領解説(≠学習指導要領)
www.mext.go.jp/content/140707...

より。帰無仮説と対立仮説の組が両側検定の設定なのに、片側検定をやってしまっています。

これを放置しておくと、高校生達がこの通りに教わることになる危険性があります！😱 twitter.com/genkuroki/stat... pic.twitter.com/tFozudHtvs

タグ：

posted at 19:00:01

まだ私が分かっていないことは、高校の教科書でも、両側検定の設定で片側検定をやることを指示する説明があるかどうか。

教科書の記述がどうなっているか、ご存知の人がいれば教えて下さい。

タグ：

posted at 19:01:50

P値に関するASA声明によれば、P値の定義は

【特定の統計モデルのもとで、[モデル内で生成された仮想的な]データの統計的要約(たとえば、 2 グループ比較での標本平均の差)が観察された値と等しいか、それよりも極端な値をとる確率[もしくはその近似値]】([ ]の内側は私が追加した)

続く

タグ：

posted at 19:15:18

続き。添付画像中の【帰無仮説H0が真であると仮定した場合に事象Eが起こる確率p】では事象Eの取り方を曖昧にし過ぎている点がまずいと思いました。

「データの数値以上に」と「近似」の意味を明確にした上で、「データの数値以上に極端な値が生成される確率」としてP値を定義する必要あり。 pic.twitter.com/OpOCwByw5U

タグ：

posted at 19:15:21

#統計例えば「成功確率は2/3である」という(帰無)仮説の「n回中k回成功」というデータの数値に関する(両側検定の)P値は、

大雑把

には

試行回数nと成功確率p=2/3を持つ二項分布内
における成功回数K (これはモデル内確率変数)
に関するK/nがデータの数値k/n以上にpから離れる確率

です。続く

タグ：統計

posted at 19:21:01

#統計ただし、「K/nがデータの数値k/n以上にpから離れること」の定義は、二項分布が左右非対称な分布なので、自然には決まりません。

実際、「モデル内確率変数K/nの値がデータの数値k/n以上にpから離れること」の有用な定義の仕方は非常に沢山ある。続く

タグ：統計

posted at 19:23:23

#統計最も安直な定義の仕方は、片側確率の2倍をP値として採用することです(対応する信頼区間はClopper-Pearsonの信頼区間になる)。具体的には、片側確率の定義は、

K≥kとなる確率とK≤kとなる確率の小さい方

です。慣習的にP値を1以下にするために片側確率の2倍が1を超えたらP値を1にしたりする。

タグ：統計

posted at 19:27:33

#統計他にもよく使われるのは、二項分布を左右非対称な正規分布でして、両側確率としてP値を定義することです。これについては少なくともWilson型とWald型の2種類がある。

好ましいのはWilson型を使うことです。信頼区間もWilson型の方が好ましいが、計算は面倒になります。

タグ：統計

posted at 19:30:09

#統計正規分布近似を使わない方法として、Clopper-Pearson型のP値以外に、Sterne型のP値もあって、Rのbinom.test, fisher.test, poisson.testが表示するP値はSterne型です。

どれを使ってもサンプルサイズが大きいならば実質的な違いはなくなります。nが小さい場合には違いが出る。

タグ：統計

posted at 19:32:59

@tsatie @tomoak1n 2回返信するときには、1度目の返信に返信(要するに自分がした返信ツイートに返信)して下さい。

スレッドが分岐してしまいます。

お願いします。 twitter.com/tsatie/status/...

タグ：

posted at 19:35:11

#統計 P値に関するASA声明の翻訳を

www.biometrics.gr.jp/news/all/ASA.pdf

で読めます。検定と信頼区間について教える人はこれに従っておくのが無難だと思う。

タグ：統計

posted at 19:40:44

#統計 ASA声明では

【P 値はデータと特定の統計モデル(訳注: 仮説も統計モデルの要素のひとつ)が矛盾する程度をしめす指標のひとつ】

となっています。

例: 統計モデルが二項分布の場合には、(帰無)仮説の例として「成功確率は2/3である」などを考えられて、仮説も統計モデルの構成要素になる。

タグ：統計

posted at 19:43:23

質問者2 @shinchanchi

(｢・ω・)｢ｶﾞｵｰ @bicycle1885

今秋以降に円安が収まることを示唆する記事^_^ twitter.com/reutersjapan/s...

タグ：

posted at 19:48:33

無限にキャベツスープを作る妖怪になってる

タグ：

posted at 19:48:52

@tsatie @tomoak1n そもそも、そこの説明での「仮説検定の例」は有意水準を決めていないので仮説検定の例になっていません。

ネット上の解説が信用できないのはいつもの話なので、教科書のような誰かにきっちり社会的責任を取らせるべき文献に何が書いてあるかが重要だと思います。

タグ：

posted at 19:53:11

@tsatie @tomoak1n 確率的に勝敗を決するゲームでは、最初にルールを決めておかないと色々まずいことが起こります(当たり前)。

ルールを曖昧にしておいて、ルールの後出しジャンケンをやられちゃうと困る。

勝敗を決するゲームとしての検定では、データを取得する前に有意水準も決めておく必要がある。

タグ：

posted at 19:56:03

@tsatie @tomoak1n あと、私のツイッターでの発言を見て、「統計学自身が怪しげな分野だ」という印象を持ったとすると、それはひどい誤解。

実際、私は、ほぼ常に代替となる統計学におけるまともな考え方を専門家による文献の引用と共に示しています。

単に「分かっていない人達が沢山いる」という問題に過ぎません。

タグ：

posted at 19:58:28

@tsatie @tomoak1n 社会的に責任を取らざるを得ない人たちは、学習指導要領解説(≠学習指導要領)を書いたような人達だと思います。

文科省の仕事の一環として作られた文書なので、ネット上に落ちている無保証の解説を書いた人達とは違う。

タグ：

posted at 20:00:39

@tsatie @tomoak1n 統計学がちょっとでも科学的あろうと努力しているあらゆる分野で使われていて、かつ、分野ごとに主に使う道具や気をつけることが違います。

だから、各分野ごとに統計学の解説をする人達がいて、その質に大きなばらつきが出てしまう仕組みになっています。

タグ：

posted at 20:09:17

@tsatie @tomoak1n 各分野ごとの統計学教育で統計学を学ぶ側のモチベーションはおそらく多くの場合に低いです。

教える側もそれに合わせて、表面的なことや単なる「やり方」だけを説明したりしまいがちだと思います。

そして、社会的にも統計学教育は十分にサポートされて来なかったと思います。

タグ：

posted at 20:12:17

@tsatie @tomoak1n それにも関わらず、シンプルで有用そうに見える怪しげではない解説は、教科書を何十冊もチェックすれば見つかるし、論文をチェックしても見つかります。

タグ：

posted at 20:14:29

@tsatie @tomoak1n 実際に私は新たに見つけるごとにしつこく有益な文献の内容を自分の言葉で紹介している。場合によってはコンピュータでの実装込みで紹介しています。

タグ：

posted at 20:16:07

@tsatie @tomoak1n 算数自体は怪しげな分野ではない。しかし、算数についておかしなことを言っている人たちが結構目立つ。
↑
「算数」を「統計学」に置き換えても同じことだと思います。

タグ：

posted at 20:19:21

@tsatie @tomoak1n 分岐。

他人の発言に反応するときも、その反応したい発言そのものに返答するのではなく、返答の連鎖の最後の発言に返答すると、スレッドの分岐を抑制できます。 twitter.com/genkuroki/stat...

タグ：

posted at 20:51:16

@tsatie @tomoak1n manabitimes.jp/math/1073 にある「仮説検定の例」では、そもそも有意水準を決めていないので、片側検定をやっているか、両側検定をやっているかを区別はできません。

片側検定のみに見えていること自体が誤解でしょう。 pic.twitter.com/snnK0JUsAO

タグ：

posted at 20:53:51

@tsatie @tomoak1n 私の意見はこれ
↓ twitter.com/genkuroki/stat...

タグ：

posted at 20:55:03

@tsatie @tomoak1n 有意水準を決めていないので、そもそも仮説検定の例になっていない。 twitter.com/genkuroki/stat...

タグ：

posted at 20:56:56

#統計二項分布については高校数学に含まれており、その累積分布函数は

Σ_{i=0}^k n!/(i!(n-i)!) pⁱ (1-p)ⁿ⁻ⁱ

と書けます。これの通常の実装ではこの和を地道に計算していなくて、正則化不完全ベータ函数

∫_p^1 tᵏ(1-t)ⁿ⁻ᵏ⁻¹dt / B(k+1,n-k)

の効率的な実装を使って計算しています。

タグ：統計

posted at 21:13:12

#統計四則演算だけで計算できる二項分布の累積分布函数であっても、そのコンピュータでの効率的実装には、ベータ函数やその不完全版が必要になります。

そしてそのことは二項分布モデルでのClopper-Pearsonの信頼区間の実装でも非常に役に立っています。

タグ：統計

posted at 21:16:19

#統計ガンマ分布はベータ分布のある種のスケール極限になっています。

さらにポアソン分布も二項分布のある種のスケール極限になっている。

このことから、ポアソン分布とガンマ分布の関係は、二項分布とベータ分布の関係のスケール極限として得られることも分かります。

タグ：統計

posted at 21:18:48

#統計ベータ函数をガンマ函数で表す公式も重要ですが、ベータ函数のスケール極限でガンマ函数が得られることも重要です。

なぜならばそのことはt分布の極限で標準正規分布が得られることも本質的に含んでいることです。

タグ：統計

posted at 21:20:55

#統計ガンマ函数とベータ函数の関係は、正規分布と相性がよいガンマ分布とベータ分布を本質的に含んでおり、分散が過剰になっているt分布やF分布はベータ(プライム)分布の仲間として理解できます。

タグ：統計

posted at 21:23:43

#統計その辺は一部の計算だけを見ると意味不明に複雑なことをやっているように見えがち。

全体像が見えるように徹底的に整理した方が分かり易くなります。

こういうことは数学では普通。一部の問題を解くことに特化する余計に難しくなり、理解できなくなる。

タグ：統計

posted at 21:25:38

@tsatie @tomoak1n その「仮説検定もどき」はtsatieさんの独自の見解ですか？
その「仮説検定もどき」の正確な説明をして下さい。

教科書に書いてあることなら、教科書を正確に引用して下さい。

繰り返し同じことを何度でも詳しく正確に説明しないと伝わらないことを学ぶべき。

タグ：

posted at 21:31:35

@tsatie @tomoak1n それは良い質問！

n=100, p=1/2の二項分布において、データの数値と同じ63回という数値が生成される確率を尤度(likelihood)と呼びます。

尤度もしくは尤度函数を使った統計的推論の方法もあります。例えば、

* 対数尤度比検定
* ベイズ法

タグ：

posted at 21:38:11

@tsatie @tomoak1n しかし、尤度をP値と同じように「有意水準未満になるか否か」について使うのは不適切です。

有意水準の概念はP値の定義とワンセット。

タグ：

posted at 21:40:36

@tsatie @tomoak1n 例えば、p=1/2の二項分布で

「10回中5回」となる確率は24.6%

「100回中50回」となる確率は7.96%

「1000回中500回」となる確率は2.52%

「10000回中5000回」となる確率は0.798%

とnを増やすとどんどん小さくなって行く。

こういう値(尤度)を適切に使うためにはP値とは異なる扱い方が必要になる。

タグ：

posted at 21:51:05

@tsatie @tomoak1n 「P値ではなく、尤度を使えないか？」という意味だと解釈される質問は、自然で素晴らしく、実践的に使われている統計学的方法への視界を広げるきっかけになるかもしれません！

そういう質問に適切に対処するためには統計学に関する十分な理解が必要。

タグ：

posted at 21:53:42

@tsatie @tomoak1n まずは、教える側のtsatieさん自身が理解することが先。
そして、直接教えている人でなければ、どういう説明がうまく行きそうかは十分にわからない。

まずはtsatieさんが統計学の教科書的知識を身につけることが大事。

私なら、その質問をしたこと自体を絶賛します。説明より絶賛が先。 twitter.com/tsatie/status/...

タグ：

posted at 21:57:36

@tsatie @tomoak1n 教えている生徒が絶賛されて当然の質問をして来たときは、教えている側が最も興奮するときだと思います。

素朴で自然な質問の普遍性と凄さを教えている側が理解できるならば、なんだかんだで自然にうまく行きそうな感じがします。

タグ：

posted at 22:00:21

@tsatie @tomoak1n あ、TNさんとネタがもろにかぶっていた！

何はともあれ、具体的な数値を計算させてみたいですよね。

近似的もしくはどんぶり勘定でいいので、具体的な数値を計算してみて、自分で考えてもらう。基本。 twitter.com/tomoak1n/statu...

タグ：

posted at 22:04:09

@tsatie @tomoak1n p=1/2の二項分布で、「n回中n/2回以上」となる確率はn→∞で1/2に収束する。

以下のリンク先が尤度の例で、すぐ上の例は片側検定のP値の例(2倍すれば両側検定のP値になる)。

それらの数学的性質は違うので、異なる取り扱い方が必要になります。

P値も尤度も重要。 twitter.com/genkuroki/stat...

タグ：

posted at 22:10:23

@tsatie @tomoak1n この議論は、統計学をほぼ何も理解できていない人が、独自の見解と考察で教えているように見えたので、私やTNさんが解説しているという流れになっています。

tsatieさんはかけ算順序問題を引き起こしている教師扱いされているわけです。

そういう文脈に沿った適切な回答はすでにされています。

タグ：

posted at 22:22:37

@tsatie @tomoak1n マジで統計学の教科書を一冊も読んだことがないんじゃない？

タグ：

posted at 22:23:37

@tsatie @tomoak1n 私とTNさんによる「表と裏が同じ確率で出るという仮定の下で10000回中5000回表になる確率などを求めさせる」という誘導のどこに難しい言葉が入っているでしょうか？

tsatieさんがあまりにも無知な点がこのスレッドの最大の問題です。

おそらく全国的に高校でもっと恐ろしいことが起こっている。

タグ：

posted at 22:28:50

@tsatie @tomoak1n 多分、tsatieさんは私やTNさんが言っていることを、初歩的知識が足りないせいで何も理解していないです。

すでに回答している
↓ twitter.com/genkuroki/stat...

タグ：

posted at 22:33:20

@tsatie @tomoak1n 「表と裏が出る確率が等しいという仮定の下で、100回中63回以上ではなく、100回中ちょうど63回になる確率を求めて、5%未満になったかどうかを見てはダメなのか？」の類の質問には、「それじゃあ、10000回中ちょうど5000回表になる確率を求めてみましょう」と言うことのどこに問題があるのやら？

タグ：

posted at 22:40:48

@tsatie @tomoak1n 「それじゃあ、表と裏が同じ確率で出るという仮定の下で、10000回中ちょうど5000回表になる確率を求めてみましょう」と言うことの教育的意味は、実際にその数値を計算できれば分かります。

TNさんはtsatieさんをそういう方向に誘導しようとし、私は面倒なので答えをいきなり書いちゃったわけです。

タグ：

posted at 22:43:06

@tsatie @genkuroki まあ、計算機がないと具体的な数字は計算できない。
dbinom(63,100,0.5)→0.0027
が公平なコインで63回でる確率かな。
表の確率を決定する自由パラメータが1つあるモデルでfitすると、
dbinom(63,100,0.63)→0.0824
この確率を比べて検討しようとすれば、有効な尤度比検定につながると。 twitter.com/genkuroki/stat...

タグ：

posted at 22:46:40

@tsatie @tomoak1n で、質問して来た高校生がすぐに計算できないならば、その高校生をよく見て、

* 宿題にする

こともできるだろうし、

* すぐに答えを言ってしまう

こともできるでしょう。そこまで細かい話は教えている本人にしか調節できません。我々にそこまで細かい説明を要求するのは筋違い。

タグ：

posted at 22:47:00

残り13件のツイートを見る

@tomoak1n @tsatie こちらからもリンクしておきます。

「表と裏が出る確率が同じであっても、10000回中ちょうどぴったり5000回表が出る確率が小さくなること」のようなことの説明はした方がよいですよね。

❌「10000回中ちょうどぴったり5000回表が出る確率は大きい」という__誤解__は結構ありがちだと思う。 twitter.com/genkuroki/stat...

タグ：

posted at 22:52:23

@tomoak1n @tsatie WolframAlpha なら、スマホからアクセスして、こんな感じで計算できます。

www.wolframalpha.com/input?i=pdf%28...

www.wolframalpha.com/input?i=cdf%28... pic.twitter.com/03uZ9ktvCB

タグ：

posted at 22:56:36

@tomoak1n @tsatie 表の出る確率が0.5のとき100回中63回表が出る確率
pdf(BinomialDistribution(100, 0.5), 63) ≈ 0.00269793

表の出る確率が0.5のとき100回中63回以上表が出る確率
1 - cdf(BinomialDistribution(100, 0.5), 62) ≈ 0.00601649 pic.twitter.com/8UxOxDkZoq

タグ：

posted at 23:03:03

@tomoak1n @tsatie まあ、高校生自身が自分でコンピュータなどを使って計算できる方が好ましいですが、それが苦しいなら、教える側が「100回中ちょうど63回の確率」や「10000回中ちょうど5000回の確率」などについて全部説明すればよい。

そういう細かい話について我々に文句を言うのは酷過ぎ。

タグ：

posted at 23:06:00

@tsatie @genkuroki だから【「63回の分だけ」の確率と比べる】のなら何が妥当かですよ。そのまま定数ではまずい。

でも例えば、「63回の分だけ」の確率と比べる相手も、「63回の分だけ」の確率ただし公平仮定なしとやれば、意味のある比較になる。 twitter.com/tomoak1n/statu...

タグ：

posted at 23:08:46

高橋カヲル @kaoru6

@genkuroki @tomoak1n @tsatie www.wolframalpha.com/input?i=prob+x...
とか
www.wolframalpha.com/input?i=x+%3D+...
でストレートにWolframAlpha先生に聞く例を出す方が親切だと思う。
prob 60 <= x <= 64みたいにもできるし。

タグ：

posted at 23:10:14

@tomoak1n @tsatie こういう数値例はめっちゃいいと思いました。

さすがTNさん！

もしかしてわざわざこのためにRを起動した？ twitter.com/tomoak1n/statu...

タグ：

posted at 23:11:46

@tomoak1n @tsatie P値やら尤度などの基本的な言葉をtsatieさんは理解する必要があります。

生徒になにを話すとよいかどうかは、基本的なことを理解した後でないとわかるはずがない。

タグ：

posted at 23:13:38

@tsatie @tomoak1n 【教科書などにある例は100回などとんでもなくて精々が30回】

そういうことを言ってしまうと、Rを起動したらしいTNさんからn=30での使える数値例が出て来そう。😅

タグ：

posted at 23:31:16

@tsatie @genkuroki 公平なコインの確率分布の一番高いところの確率がだんだん小さくなる傾向は上30回でもはっきりわかるのでは。
15:15 0.144
10:10 0.176
5:5 0.246
4:4 0.273
3:3 0.313
2:2 0.375
1:1 0.5

タグ：

posted at 23:41:06

@tsatie @tomoak1n コインを30回投げて21回表

添付画像①
仮説p=0.5の両側検定のP値

②
p=0.5のとき30回中21回表が出る確率≈1.33%
p=21/30=0.7のとき30回中21回表が出る確率≈15.7%

③④
対数尤度比検定のP値

www.wolframalpha.com/input?i=2%281+...

www.wolframalpha.com/input?i=pdf%28...

www.wolframalpha.com/input?i=2+log%...

www.wolframalpha.com/input?i=1+-+cd... pic.twitter.com/5w6M4D13zB

タグ：

posted at 23:46:16

@tsatie @tomoak1n 30回でも多いならもっと減らせます。😊

タグ：

posted at 23:47:00