黒木玄 Gen Kuroki(@genkuroki)/2022年07月28日

黒木玄 Gen Kuroki

@genkuroki

いいね数 389,756/311,170
フォロー 995　フォロワー 14,556　ツイート 293,980
現在地 (^-^)/
Web https://genkuroki.github.io/documents/
自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。

Favolog ホーム » @genkuroki » 2022年07月28日

« 次の日| 前の日 »

並び順 : 新→古 | 古→新

2022年07月28日(木)

Hideki Kawahara: WAS @hidekikawahara

22年7月28日

この結果を論文に載せるときは、さらにマイク位置の情報で補正して唇前方30cmでの音圧で表現する必要があります。今回のMATLABのAudiotoolboxは、A特性でのレベルを求めるためにだけ使っています。でも、実時間処理には必須ですので、音を使う場合には購入しておくことを（強く）勧めます。 twitter.com/hidekikawahara...

タグ：

posted at 00:02:43

OokuboTact　大久保中二病中年 @OokuboTact

22年7月28日

財務省も経団連も国会議員も「消費税は安定的な財源」＆「不況だから消費税の税収を増やすべし」というマクロ経済学的に間違った思考にとらわれている。

#消費税という呪縛　 #岸田内閣

タグ：岸田内閣消費税という呪縛

posted at 00:15:13

Mark Kittisopikul ht @markkitti

22年7月28日

The Julia for Medical Imaging talk by Niklas Hackelberg today during #JuliaCon2022 really shows the potential for #JuliaLang for open source hardware control.

Using Julia's tasks, threads, and asynchronous I/O, Hackelberg demos control of serial and DAQ
youtu.be/chZfGfAAnpE

タグ： JuliaCon2022 JuliaLang

posted at 00:17:10

deconbatch @deconbatch

22年7月28日

Morph the Cat.
The cat formula found! 😼 www.deconbatch.com/2018/11/morph-...
mtc-220728005501
#processing #generative #creativecoding pic.twitter.com/ltSO4If7NW

タグ： creativecoding generative processing

posted at 01:09:37

さくら @Sakura_Med_DSci

22年7月28日

変化する RStudio
とりあえず社名変更とのことです。
R方面も強化しつつPythonなどを扱えるように横方向に拡張していきたいという雰囲気でした。
既にリリースされている、Quarto（RだけでなくPythonやJuliaを扱えるえる）についても言及されてます。
www.infoworld.com/article/366825...

タグ：

posted at 01:18:40

World and Science @WorldAndScience

22年7月28日

How many Humans have ever lived?

(Credit: Max Roser) pic.twitter.com/WVZbz6HFNq

タグ：

posted at 04:59:06

今日の英単語 @ehandout

22年7月28日

illusion pic.twitter.com/BfM6Rhq805

タグ：

posted at 06:42:37

今日の英単語 @ehandout

22年7月28日

illusion pic.twitter.com/3CAQKQ4c5H

タグ：

posted at 06:43:05

Uryu Shinya @u_ribo

22年7月28日

#rstudioconf2022 で発表さたRStudio社の社名変更（RStudioからPositへ）。Python実行環境の整備やreticulateによる連携、QuartoでのPython, Julia, Observableといった多言語への広がりを見せていただけに納得。何より「データサイエンスのためのR」を超えた使命をきちんと宣言しているのが推せるっ！

タグ： rstudioconf2022

posted at 07:52:49

Shin1K @theBarnOwlLover

22年7月28日

海中に水面が見えるらしいから一回は見てみたいな twitter.com/karapaia/statu...

タグ：

posted at 08:18:38

toyo @toyo9

22年7月28日

ax+bx=cx
が(a,b,c)の値によって方程式と呼んだりそう呼ばなかったりするのは、不自然だし不便な気がします。 twitter.com/genkuroki/stat...

タグ：

posted at 08:41:14

3j5a @3j5a_

22年7月28日

how close can you get expressing the most beautiful equation in #JuliaLang REPL? pic.twitter.com/ViFmUX1u8p

タグ： JuliaLang

posted at 10:13:39

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

 www.jstage.jst.go.jp/article/seitai...
生態学におけるAICの誤用 : AICは正しいモデルを選ぶためのものではないので正しいモデルを選ばない
粕谷英一 2015

へのコメント

そこで扱われている場合は、本質的に

　有意水準15.7%の検定では、真のモデルを約15.7%で棄却する

と同じです。続く twitter.com/genkuroki/stat...

タグ：統計

posted at 11:41:13

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 AICによるモデル選択の話なので、みんなよく知っていると思われるP値を使う通常の検定との関係が見えなくなりがちだと思います。

タグ：統計

posted at 11:52:17

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計モデル0がモデル1のパラメータ空間を次元を1次元下げた部分に制限したものになっているとき、それらのAICによるモデル選択は、モデル0を帰無仮説とし、モデル1を対立仮説としたときの、有意水準15.7%の対数尤度比検定と同じです。

自由度1のχ²分布では2以上になる確率≈15.7%

タグ：統計

posted at 11:52:18

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計サンプルサイズを大きくしても(大きくすると)、帰無仮説=モデル0が正しいときに、帰無仮説=モデル0が棄却される確率は約15.7%になります。

これを知っていれば、検定の知識さえあれば、 www.jstage.jst.go.jp/article/seitai... の内容を理解できます。

タグ：統計

posted at 11:52:19

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

 kasuya.ecology1.org/stats/utest01....
Mann-WhitneyのU検定と不等分散
粕谷英一 2001

への計算例補足。

Y側の分散と標本サイズがともにX側の2倍のとき(どちらも平均0の正規分布)、Mann-WhitneyのU検定では、P値が8.5%の確率で5%未満になる。(約5%であってほしい。)

github.com/genkuroki/publ... twitter.com/genkuroki/stat... pic.twitter.com/m54eiUflq2

タグ：統計

posted at 13:21:13

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Mann-WhitneyのU検定のP値の計算では、P値計算用の統計モデルにおいて「2つの母集団分布は等しい」と仮定します。

この2つの分布が等しいという仮定は非常に強く、ほとんどの場合に現実の母集団では成立していないでしょう。

成立していない場合に、Mann-WhitneyのU検定では誤差が生じます。

タグ：統計

posted at 13:25:40

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計粕谷さんが問題にしたことは、Mann-WhitneyのU検定の使用が適切になるためには厳しい条件が必要なのに、そのことを無視して、みんなで大挙して、安易にMann-WhitneyのU検定を使っているということです。

それは20年前の指摘ですが、現在でも同じ問題が残っているのではないでしょうか？

タグ：統計

posted at 13:28:22

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計一般にP値の構成では、「帰無仮説下の統計モデルで生成したデータ(モデル内確率変数)について、P値がα未満になる確率はαを近似する」という要請が課されます。

これがひどく成立していないP値の使用は不適切だということになります。

そこで、実際にその確率を計算してみましょう。

タグ：統計

posted at 13:31:18

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計添付画像は、2つの分布が共に標準正規分布の場合の、Mann-WhitneyのU検定でP値がα以下になる確率(左)とWelchのt検定でP値がα以下になる確率(右)です。

45度線にどちらも近く、それらの確率はαに近い。続く

github.com/genkuroki/publ... pic.twitter.com/GCg0YvI9QY

タグ：統計

posted at 13:34:48

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計今度は、X側は標準正規分布で、Y側は平均0標準偏差2の正規分布の場合。サンプルサイズはどちらも25です。

左側のMann-WhitneyのU検定ではP値がα以下になる確率は上側に少しオーバーシュートするようになりました。

個人的な意見ではこの程度のオーバーシュートは許容範囲。続く pic.twitter.com/G9Ey9aj8PE

タグ：統計

posted at 13:37:57

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Yの側の標準偏差をXの側の2倍にするだけではなく、Xの側の標本サイズをYの側の2倍にすると、Mann-WhitneyのU検定のP値が5%以下になる確率は8.5%程度になっています！

これはひどい。

Mann-WhitneyのU検定を安易に使うと、こういう不当な方法で有意差を出せてしまう！

github.com/genkuroki/publ... pic.twitter.com/n9hHoc4PXK

タグ：統計

posted at 13:41:12

黒木玄 Gen Kuroki @genkuroki

22年7月28日

訂正

❌Y側の分散と標本サイズがともにX側の2倍

⭕️Y側の分散はX側の2倍で、Y側の標本サイズがともにX側の半分 twitter.com/genkuroki/stat...

タグ：

posted at 13:43:03

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Welchのt検定は、中心極限定理による標本平均の分布の正規分布近似がうまく行っていれば概ね使用可能なのに、正規母集団の仮定が必要だと誤解して、Mann-WhitneyのU検定を使っている人達は、知らず知らずのうちに不当な方法で有意差を出している可能性がある。

過去に遡って確認の必要有り。

タグ：統計

posted at 13:46:30

稲葉可奈子 @kana_in_a_bar

22年7月28日

ほむほむ先生 @ped_allergy の解説が分かりやすすぎて感動的です。

・カロナール以外にもアセトアミノフェン製剤はあります。
・子どもと妊婦さん（と腎臓が悪い人）以外はアセトアミノフェンである必要はないし、できればアセトアミノフェンがよいというわけでもないです。

news.yahoo.co.jp/byline/horimuk...

タグ：

posted at 13:47:39

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 2つの母集団分布が等しいという現実には保証されることが稀なはずの仮定の下で計算されたMann-WhitneyのU検定のP値によって、中央値が等しいかどうかの検定をできると誤解している人も多いように見えます。

これもちょっと計算すれば誤りだとすぐに分かります。

github.com/genkuroki/publ... pic.twitter.com/ZFREjFqYMw

タグ：統計

posted at 13:49:43

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計添付画像は、Xが-1と1の間の一様分布に従い、Yが指数分布をシフトした分布に従っている場合です。

左：P(X < Y) = 0.5 になるようにシフトした場合
右：XとYの中央値が一致するようにシフトした場合

左と右で全然違う！

github.com/genkuroki/publ... pic.twitter.com/xnWKu2eHLv

タグ：統計

posted at 13:53:42

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Mann-WhitneyのU検定のP値は、2つの分布が等しいという仮定の下で計算されます。

2つの分布が等しくなくても、左側のように、P(X < Y) = 0.5 が成り立つようにすると、P値がα以下になる確率がほぼαになることはあります。続く

github.com/genkuroki/publ... pic.twitter.com/SJH2HtgEZb

タグ：統計

posted at 13:56:30

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計同じ場合に、XとYの中央値が一致させて計算してみると(右側のグラフ)、Mann-WhitneyのU検定のP値が5%以下になる確率は32%以上もの値に！

これから、2つの分布の一致抜きに、中央値が等しいかどうかの検定をMann-WhitneyのU検定でできないことが分かります。

github.com/genkuroki/publ... pic.twitter.com/id5KCjgFWT

タグ：統計

posted at 14:00:43

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計以上におけるグラフの左右でXとYの分布がどうなっているかは添付画像の通り。

形状は同じだが、横方向のシフトの仕方が違う。

左側ではP(X < Y)=0.5となっており、右側では中央値が一致している。

github.com/genkuroki/publ... pic.twitter.com/ZTu69KvN20

タグ：統計

posted at 14:03:39

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計要するに、ちょっと計算してみるだけで、以下のことが分かるわけです。

Mann-WhitneyのU検定のP値は、2つの母集団分布が等しいという極めて強い仮定の下で計算されているので、現実の母集団でその条件が成立している保証がないと、不当な方法で有意差を出すことになってしまうかもしれない。

タグ：統計

posted at 14:06:32

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計さらに、

Mann-WhitneyのU検定のP値が「2つの母集団分布が等しい」という極めて強い仮定の下で計算されていることを忘れて、中央値が等しいかどうかの検定であるかのように語ってはいけない。

タグ：統計

posted at 14:07:34

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計もしかしたら、上の計算例を見て、Mann-WhitneyのU検定は

❌近似的に「P(X < Y) = 0.5 であるか否か」の検定である

と誤解する人がいるかもしれませんが、添付画像を見れば分かるようにそういうことにはなっていません。

私なら「Mann-WhitneyのU検定は原則として使用しない」としたいです。 pic.twitter.com/GVfOHwmd5r

タグ：統計

posted at 14:14:43

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 2つの母集団分布は横方向のシフト分の違いしかないことが何らかの理由で非常に確からしいならば、Mann-WhitneyのU検定も実用的になる可能性がある。

しかし、そういう場合は稀だと思います。

あと、違いを測る適切な方法が何であるかについてもきちんと考えるべき。

タグ：統計

posted at 14:17:56

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計中心極限定理による近似が有効になっている場合における仮説「P(X<Y) + P(X=Y)/2 = 1/2」の検定は、Brunner-Munzel検定と呼ばれています。

BM検定では、MWのU検定と違って「2つの分布は等しい」のような強い条件を仮定しません。

タグ：統計

posted at 14:21:31

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Brunner-Munzel検定で使用する検定統計量が本質的にMann-WhitneyのU検定におけるUと同じです。

しかし、P値の計算用の統計モデルは異なります(これ重要)。

BM: P(X < Y) + P(X = Y)/2 = 1/2 でかつ中心極限定理による近似が有効。

MW: XとYが従う分布は等しい。

この違いが非常に重要。

タグ：統計

posted at 14:25:33

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計「ノンパラメトリック」という形容詞が付いている検定であっても、P値の計算で使われる統計モデルの分布には制限が付きます。

その制限がきつい場合には、そのP値による検定の妥当な適用範囲は狭くなります。(Mann-WhitneyのU検定は狭くなり、Brunner-Munzel検定では広くなる。)

タグ：統計

posted at 14:28:29

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Brunner-Munzel検定とMann-WhitneyのU検定で使用されるUがデータから全く同じように計算されることから、「BM検定でMW検定と同じなんじゃないか」と誤解する可能性があるので注意が必要です。

P値の計算のために使われる分布に関する仮定(=統計モデル)について常に注意を払う必要があります。

タグ：統計

posted at 14:31:32

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計パラメトリックであろうが、ノンパラメトリックであろうが、統計モデルを意識せずにまともな(例えば不当な方法で有意差を出してしまわないような)統計学の使用は不可能だと思います。

しかし、その部分は統計学入門の解説で避けて来たことだと思います。

高等教育における今後の課題。

タグ：統計

posted at 14:38:58

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

 blog.goo.ne.jp/r-de-r/e/2c2f1...
裏 RjpWiki
Brunner-Munzel 検定
19/05/21

は添付画像のようにひどく間違っています。

Mann-WhitneyのU検定とBrunner-Munzel検定の統計モデルが全然違うことを完全に無視するという誤りをおかしています。

検索するとこういう解説が出て来るので要注意。 pic.twitter.com/oW5tnmyqYC

タグ：統計

posted at 14:47:11

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

 note.com/xinzuzhai/n/na...
Brunner-Munzel検定
川口秀樹
2020年4月20日 09:00

これもひどく間違っています。

2群に関するStudentおよびWelchのt検定では、2群の母集団の正規性は必要ではなく、標本平均の分布について中心極限定理による正規分布近似が有効ならば概ね使用可能です。 pic.twitter.com/UF16kIrAE7

タグ：統計

posted at 14:53:47

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Welchのt検定を使える場合に、Welchのt検定とは異なる違いの測り方をするノンパラメトリック検定を、違いの測り方を変更することが自分の目的に合わせて適切か否かの考察抜きに、有意差を出すために安易に使う傾向が普遍的に観察される。

私には科学的なふりをしている非科学的な奴らに見える。

タグ：統計

posted at 14:57:17

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計もしかしたら、2つの分布が等しくなくても、分散が等しければMann-WhitneyのU検定を「中央値が等しいかどうか」の検定には使える、のように誤解している人は2つの添付画像の各々の右側を参照。

「等分布」と「等分散」では条件の強さが段違いです。

github.com/genkuroki/publ... pic.twitter.com/UznI0bXrIC

タグ：統計

posted at 15:09:31

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計そもそも順位統計を扱っているノンパラメトリック検定について分散に関する条件を持ち出すのってどうよ？

タグ：統計

posted at 15:12:24

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

 rpubs.com/hoxo_m/57550
Brunner-Munzel 検定
RPubs
by hoxo_m 7年前

もWelchのt検定が(母集団の)正規性を前提にしていると誤解しています。

あと、Mann-WhitneyのU検定やBrunner-Munzel検定が中央値に関する検定で__ない__ことも分かっていないように見える。 pic.twitter.com/5KJR9kWz9p

タグ：統計

posted at 15:20:36

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

 hoxo-m.hatenablog.com/entry/20150217...
マイナーだけど最強の統計的検定 Brunner-Munzel 検定
2015-02-17

の方を見ると、さらに誤解は明瞭になります。

違いの測り方を変えると全然違うことをやっていることになるはずなのに、違いの有無に関する検定として同列に扱うという「伝統的パターン」にも合致。 pic.twitter.com/6qVFWtBipX

タグ：統計

posted at 15:24:50

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

 hoxo-m.hatenablog.com/entry/20150217... の最初の方を見ると、【Brunner-Munzel 検定は、分布が同じことは仮定せず、両群から一つずつ値を取り出したとき、どちらが大きい確率も等しいという帰無仮説を検定する】と正確な説明があるのに、後の方では中央値の検定扱いしている。 pic.twitter.com/bwlwUntn4k

タグ：統計

posted at 15:29:31

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

 www.pu-hiroshima.ac.jp/p/ttetsuji/Sof...
↓
www.pu-hiroshima.ac.jp/p/ttetsuji/R/%...
Brunner-Munzel検定
冨田哲治

これも、両t検定について正規性の仮定が必要だと誤解している。 pic.twitter.com/Vh3yBsPbye

タグ：統計

posted at 15:33:02

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

【この前も正規分布しないデータをt検定にかけていたけど、その場合はマンホイットニー等を使うべきだろう。こんなことは医学部1年の4月に習うことだぞ。】

よく見る典型的な誤り。複数の意味でまずい。

本当に医学部でそう教えているなら、憂慮するべき事態になっている。 twitter.com/muuucol/status...

タグ：統計

posted at 15:39:55

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計ちなみに、2群に関するStudentのt検定は、2つの標本のサイズが等しければ、等分散の前提抜きに使用可能です。

2つの母集団の正規性も不要で、2つの標本平均の分布が中心極限定理によって正規分布で近似されていれば概ね十分です。 twitter.com/genkuroki/stat...

タグ：統計

posted at 15:51:46

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 2つの標本のサイズが大きく違っていてかつ等分散の条件も保証されない場合には、Studentのt検定ではなく、Welchのt検定の方を使うべき。

その場合にも母集団の正規性の強い仮定は不要で、標本平均の分布が中心極限定理によって正規分布で近似されていれば概ね大丈夫。

タグ：統計

posted at 15:54:38

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Mann-WhitneyのU検定を使う場合には、違いの測り方が変わることを受け入れ可能な理由を明瞭に説明できないとダメ。

さらに、Mann-WhitneyのU検定のP値は「等分散」よりも圧倒的に強い「等分布」の下で計算されるので、使える場合が限られていることへの注意が必要。

タグ：統計

posted at 15:57:48

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計高校生に数学を教えている人達もこういう話題に興味を持つ可能性があるので、コメントを追加。

このスレッドでは使える場合が限られていることを強調したMann-WhitneyのU検定での確率計算は、高校数学的な場合の数の計算に帰着します。

もしかしたら、大学入試問題ネタに既になっているかも。

タグ：統計

posted at 16:06:13

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Mann-WhitneyのU検定では、m個の文字xとn個の文字yの並べ方全体を扱います。例えばm=3, n=4なら

yxxyyxy

のような文字の並び方全体を考える。

それらの文字の並びが全て等確率で生じるという統計モデルを考えます。続く

タグ：統計

posted at 16:09:29

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計そして、

yxxyyxy

のような文字の並びに対して、Uという数を

U = (その中のxとそれより右にあるyの組全体の個数)

と定義します。yxxyyxyについては、各xごとにそれより右にあるyの個数を数えて和をとって

U = 3 + 3 + 1

となる。数uについて、U=uとなる確率を考えます。続く

タグ：統計

posted at 16:13:21

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計このように、Mann-WhitneyのU検定では、「いかにも高校数学！」と言いたくなるような確率の計算が行うことになります。

高校で数学を教えている人も調べておくと、ネタにできるかもしれません。

タグ：統計

posted at 16:15:15

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計実践的には、サンプルx_1,…,x_mとサンプルy_1,…,y_nが得られたとき、Mann-WhitneyのU検定では、同じ母集団から2つのサンプルが得られたかどうかを検定できます。

タグ：統計

posted at 16:20:24

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計この場合のP値の一般的な定義は「同じ母集団から2つのサンプルが得られたという仮定の下で、データの数値以上に極端な値が得られる確率」です。

同じ母集団の母集団の分布についての制限がないので、「データの数値以上に極端な値」の定義の仕方には工夫が必要です。

タグ：統計

posted at 16:20:25

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Mann-WhitneyのU検定では、

U = (x_i < y_j となる(i, j)達全体の個数)

とおいて、これを「データの数値以上に極端な値」の定義に利用します。

x_i,y_jが同じ分布(連続分布とする)のサンプルならば、x_i < y_j となる確率は 1/2 なので、Uの期待値はmn/2になります。

タグ：統計

posted at 16:24:15

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Uの分散も容易に計算できます。E[U]=mn/2とすでに分かっているので、分散は

var(U) = E[U²] - E[U]²

で計算できる。E[U²] の計算はi≠i', j≠j'のときの

P(x_i<y_j) = 1/2
P(x_i<y_j & x_i<y_{j'}) = 1/3
P(x_i<y_j & x_{i'}<y_j) = 1/3
P(x_i<y_j & x_{i'}<y_{j'}) = 1/4

に帰着できます。

タグ：統計

posted at 16:28:42

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計結果は

E[U²] = (1/2)mn + (1/3)mn(n-1) + (1/3)m(m-1)n + (1/4)m(m-1)n(n-1)

です。これより、

var(U) = E[U²] - (mn/2)² = mn(m+n+1)/12.

この辺の計算について、難しく解説してある場合もあるようなので要注意。

タグ：統計

posted at 16:32:20

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 x_i, y_j 達が同じ母集団の標本であるという仮定は

P(x_i<y_j & x_i<y_{j'}) = P(x_i = min(x_i,y_j,y_{j'})) = 1/3
P(x_i<y_j & x_{i'}<y_j) = P(y_j = max(x_i,x_{i'},y_j)) = 1/3

の部分でも本質的に使われている。一般には1/3にならない。

Brunner-Munzel検定との違いの理解で重要。

タグ：統計

posted at 16:37:09

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計 Mann-WhitneyのU検定の具体的な計算例はググれば嫌になるほど得られます。

この「嫌になるほど」という感想をみんなで共有したいところ(笑)

実際に検索
↓
www.google.com/search?q=Mann-...
www.google.com/search?q=Mann-...

タグ：統計

posted at 17:00:58

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

 lbm.ab.a.u-tokyo.ac.jp/~omori/kensyu/...
ノンパラメトリック検定
大森宏
2018.11.13

これもなぜか、t検定達は母集団分布が正規分布であることが疑わしい場合には使わない方が良いことにされている。

あとノンパラメトリック検定は中央値に関する検定ではない。

続く pic.twitter.com/gugyT8j1rJ

タグ：統計

posted at 19:30:41

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計そもそも、「平均の差」に関する検定の代わりに、それとは全く異なる違いの測り方に置き換えるノンパラメトリック検定を使う場合には、違いの測り方を変えても良いことについてはきちんと議論して正当化が必要だと思う。

有意差の「差」の意味をまともに考えようとしないのは非常にまずい。

タグ：統計

posted at 19:33:26

ことばと広告 @kotobatoad

22年7月28日

あの頃のわたしに、教えてあげたい。 pic.twitter.com/VigPH6ILHg

タグ：

posted at 21:03:00

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計

① θ = P(X < Y) + (1/2)P(X = Y) = 1/2 だが、最悪のケースであってもYはそう悪くなく、Yは良い場合には非常に良い。

② 中央値が等しくても、θ = P(X < Y) + (1/2)P(X = Y) > 1/2 となる場合。

③ 中央値はXの方がYよりも大きいが、XがYに負ける確率が 1/2 より大きい場合。 pic.twitter.com/Q0NMHi2u04

タグ：統計

posted at 21:49:33

黒木玄 Gen Kuroki @genkuroki

22年7月28日

#統計違いの大きさと方向を測る指標は無数に作れるので、データを見てから違いの大きさと方向を測る指標を選択することは、検定論的にはもろに不正行為になります。

目的ごとに適切な「違いの大きさ大きさ」の指標はある程度制限されるはずで、それに合わせて検定法も選択しないとまずい。

タグ：統計

posted at 21:56:12