Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2022年02月04日
並び順 : 新→古 | 古→新

2022年02月04日(金)

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 #統計 訂正

「母尖度の不偏分散の分布の分散への影響が大きい」は予想ではなく事実。

予想は、

母尖度の不偏分散の分布の分散への影響が大きいことから来るT統計量の裾の太さの違いも、母尖度の推定で補正できるのではないか?

です。

タグ: 統計

posted at 23:57:54

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 黒丸と赤丸が近いのは、標本平均X̅と不偏分散S²が近似的に独立になっているからだと思います。

Z = (X̅ - μ)/√(σ²/n) の分布がS²の値によらずに正規分布でよく近似できているなら(よく出て来るS²の値の違いでZの分布が大きく変わらないなら)、ZとS²は近似的に独立になります。

タグ:

posted at 23:54:36

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 誰かやると面白いのではないかと思った実験の中身の詳細は以下の通りです。 twitter.com/genkuroki/stat... pic.twitter.com/cuebDqE6vs

タグ: 統計

posted at 23:48:53

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 #統計 不偏分散の分散が変わると、T統計量の裾の太さも変わります。

1群のStudentのt検定では、自由度n-1のχ²分布で決め打ちしていますが、それを平均がn-1、分散が「(n-1)²S²/σ²の分散の推定量」のガンマ分布で置き換えれば、補正の精度が上がる可能性があると思いました。

間違っていたらごめん。

タグ: 統計

posted at 23:45:49

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 私の予想は、以下の通りです。

* 標本平均と不偏分散の非独立性の問題は気にしなくてよい。
* 母尖度の不偏分散の分布の分散への影響が大きい。

そして

* 母尖度の不偏分散の分布の分散への影響を補正する実験を誰かやると面白いかもしれない。

と言いました。

色々間違っていたらごめんなさい。

タグ:

posted at 23:40:56

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 上の1群のt検定の場合のt分布での補正では、母集団分布の尖度の影響が大きいです。

不偏分散/母分散の分散は母尖度κから2(n-1)(1+(1-1/n)κ/2)と決まるので、母尖度も推定してt分布での補正を改善できないのかなと思いました。しかし、母尖度の推定の誤差が大きく悪影響するとアウト。

タグ:

posted at 23:34:58

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 自由度が30程度以上のt分布を使うような段階ではt分布を使う必然性はあまりないと思います。

2群のWelchのt検定の場合(こちらはさらにどんぶり勘定な感じ)のデータから決める自由度の分布はどうなっているんですかね?小さくなる場合が結構ありそう。

タグ:

posted at 23:27:36

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 あ、2.2は打ち間違いです。隣の2.1と入力したつもりでした!

タグ:

posted at 23:23:39

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 νが10以上での赤丸と黒丸はもっと近いです。

タグ:

posted at 23:21:55

Mうら @tchaikovsky1026

22年2月4日

@genkuroki 2.0と2.2を同等と見なすなら、正規分布の95%区間である1.96でもいいのでは(つまり、t検定でなくz検定でもいいのでは)とか思っちゃったりもするので、、、

黒丸と赤丸が非常に近いことが、「たまたまそうなる」のか、「他の対称な分布でも同じ傾向」なのかは、興味がありますね。

タグ:

posted at 23:19:22

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 分岐スレッドを見逃さないためのリンク twitter.com/genkuroki/stat...

タグ: 統計

posted at 23:17:38

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 #統計

X̅とS²は近似的に独立な場合を考えれば十分だと思います。

反例に計算があれば是非とも見てみたいです。

タグ: 統計

posted at 23:13:33

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 #統計 νが10以上では赤丸と黒丸がほぼ一致していますね。

中心極限定理を使うのでn=ν+1は10以上程度はないとまずそうなので、νが10以上での一致はうれしいニュースだと思いました。 pic.twitter.com/DjeMvmF7TB

タグ: 統計

posted at 23:12:11

黒木玄 Gen Kuroki @genkuroki

22年2月4日

@tchaikovsky1026 2.0と2.2の違いは大した問題ではないと思いました。
こういう雑な感覚の続き↓

Z=(X̅-μ)/√(σ²/n) とS²=(不偏分散)は独立にはならないのですが、ZがS²の値と無関係に標準正規分布にほぼ従っているくらいnが大きいなら近似的に独立だとみなして良いと思います。

反例の計算があれば教えて下さい。

タグ:

posted at 23:04:08

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 歪度は「中心極限定理による標本平均の分布の正規分布への収束の速さ」と関係しており、尖度は「大数の法則による標本の不偏分散の値の収束の速さ」と関係している。

中心極限定理と大数の法則のユーザーは、母集団分布の歪度と尖度について気にする必要がある。

タグ: 統計

posted at 22:55:32

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 難読用語

尤度 ゆうど likelihood
歪度 わいど skewness
尖度 せんど kurtosis

であってますか?

歪度と尖度が正規分布以外の分布の形状の分類に非常に役に立つことは、カール・ピアソンさん(父の方)が発見したことだったはず。

タグ: 統計

posted at 22:51:07

Mうら @tchaikovsky1026

22年2月4日

@genkuroki
これ、以前考えようと思ったのですが、サンプルの分布が正規分布でない場合は標本平均と不偏分散が独立でなくなるので、結構複雑な話題みたいです。

標本平均と不偏分散を1サンプルから取得した場合と、それぞれ独立に取得した場合の比較の例(一様分布の場合)を示します

twitter.com/tchaikovsky102...

タグ:

posted at 22:47:46

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 歪度と尖度の定義

μ = E[X]
σ = √E[(X-μ)²]

のとき、

歪度 = skewness = E[((X-μ)/σ)³]
尖度 = kurtosis = κ = E[((X-μ)/σ)⁴] - 3

が定義です。3を引くことは

log E[exp(t(X-μ)/σ)] = t²/2 + (歪度) t³/3! + (尖度) t⁴/4! + O(t⁵)

という公式を知っていると自然に感じられる。

タグ: 統計

posted at 22:40:59

知念実希人 物語り @MIKITO_777

22年2月4日

ただ、別に日本の製薬会社がだめということは全く無く、
第一三共や武田はしっかりと地に足をつけて、正しいプロセスを踏んで治験を行っています。

今回の塩野義や、数日前に非臨床試験のプレスリリースを出した興和が、科学を無視したスタンドプレーで信頼を失っているだけです。 twitter.com/MIKITO_777/sta...

タグ:

posted at 22:39:02

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 誰か実験すると面白そうなのは、母尖度を標本から推定して、t分布による補正の仕方の精度を上げる試みをしてみることです。そのときにはχ²分布をガンマ分布に一般化する。

実際にやってみた人がいたら、コードと結果を見せてくれるとうれしいです。

タグ: 統計

posted at 22:32:53

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計

まとめ:t検定の精度にはまず第一に母集団分布の左右非対称性の具合が中心極限定理を通して強く影響し、尖り具合がt分布による補正に影響するわけです。

タグ: 統計

posted at 22:32:51

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 このように、母尖度が0から外れていると、自由度n-1のt分布を使った補正の精度は下がります。

しかし、素朴に標準正規分布を使った場合よりも、母尖度が0から大きく外れていない場合には精度が上がる。

これがt検定におけるt分布を使った大雑把な補正の内容です。

タグ: 統計

posted at 22:26:39

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計

(n-1)Aの分散が2(n-1)より大きいと、Tの分布の裾は太くなって危ない。

(n-1)Aの分散が2(n-1)より小さいと、Tの分布の裾の太さは正規分布に近付きます。この場合には過剰に「保守的」になる。

しかし、どちらの場合であっても、nを大きくすれば、S²への大数の法則が効いて問題なくなる。

タグ: 統計

posted at 22:22:42

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 Zは標準正規分布に従い、ZとAは独立で、T = Z/√A、Aは単峰型でAの期待値は1という状況を色々設定して、Tの分布を数値計算すると、(n-1)Aの分散が2(n-1)ならば、Tの分布は自由度n-1のt分布に近くなります。

続く

タグ: 統計

posted at 22:22:40

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 (n-1)S²/σ²の期待値がn-1であることは、S²が不偏分散なので、S²/σ²の期待値が1になるからです。

S²/σ²の分布の分散は

2/(n-1) + κ/n

になることをまじめに計算すれば確認できます。ここでκは正規分布で0になるように定義された母尖度です。続く

タグ: 統計

posted at 22:13:32

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 母集団分布が正規分布でなくても、(n-1)S²/σ²が従う分布の平均は上と同じn-1になります。分散は、母尖度をκと書くと(正規分布でκ=0となるバージョン)、

2(n-1)(1 + ((n-1)/n)κ/2) ≈ 2(n-1)(1 + κ/2)

と自由度n-1のχ²の分散から母尖度の半分κ/2だけずれます。

続く

タグ: 統計

posted at 22:09:10

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 母集団分布が正規分布ならば、Tが従う分布は自由度n-1のt分布にぴったりなります。

そうなる理由は、母集団分布が正規分布ならば、不偏分散S²の(n-1)/σ²倍が従う分布が自由度n-1のχ²分布(平均はn-1で分散は2(n-1))になるからです。

続く

タグ: 統計

posted at 22:02:21

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 標準正規分布を使って定義された素朴なP値は「標準正規分布内で絶対値が|T|以上になる確率」です。

Tが従う分布(標準正規分布より裾が太い)において絶対値が|T|以上になる確率は、その素朴なP値より大きくなります。

そこを実用に耐える感じで大雑把に補正したい。これがt検定の正体です。

タグ: 統計

posted at 21:57:19

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 ZとTの関係は

T = Z/√A, A = S²/σ²

で、Aの期待値は1です。Tの分布の分散は1より大きくなる。

Zの分布は標準正規分布でよく近似されていると仮定しているのですが、Tの分布は標準正規分布よりも裾が太くなることになる。

続く

タグ: 統計

posted at 21:53:26

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 平均0、分散1の標準正規分布に従う確率変数zの1/√a倍は平均0、分散1/aの正規分布に従います。

さらにaが(zと独立に)確率的に揺らいでいて、aの期待値が1のとき、z/√aが従う分布の分散は、Jensenの不等式より、1より大きくなります。1/√aはaについて下に凸な函数です。

タグ: 統計

posted at 21:53:24

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 t検定でやっている工夫は、大数の法則によって不偏分散S²を定数だとみなすのではなく、不偏分散S²が確率的にばらつくことによって、Tの分布の分散が標準正規分布より大きくなってしまうことの影響を大胆な近似で補正していることです。

t検定のP値はその分だけ大きくなる。

タグ: 統計

posted at 21:40:07

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 t検定でも、標本平均X̅に関する中心極限定理による近似を使うので、母集団分布の非対称度(母歪度)が大きい場合には、その分だけnを大きくしないと、誤差が大きくなる。

続く

タグ: 統計

posted at 21:35:42

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 t検定でも、nを十分大きくして、

Z = (X̅ - μ)/√(σ²/n)

が標準正規分布に近似的に従うようにする(この近似はS²の値と無関係に通用しているとする)という設定はそのまま引き継ぎます。

t検定の第一の基礎は標本平均に関する中心極限定理です。これ抜きには先に進めない。続く

タグ: 統計

posted at 21:33:40

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 母歪度と母尖度の影響を気にする必要があるという性質は、t検定も引き継いでいます。

それでは、t検定のどこが上の素朴な方法の検定を改良していることになるのか?

続く

タグ: 統計

posted at 21:30:37

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 要するに、t分布を使わずに、T統計量と標準正規分布を使う素朴な検定では、母歪度の絶対値が大きい場合や母尖度が大きい場合にはnをその分だけ大きくしないと誤差が大きくなってしまう。

しかし、この点に気をつければ、t分布 を使わなくても、十分に使える検定になっています。続く

タグ: 統計

posted at 21:28:35

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 続き~、大数の法則による不偏分散による母分散の近似の精度は母集団分布の尖度で決まります。

母集団分布の全然左右対称でなくて歪度の絶対値が大きな場合には、中心極限定理による正規分布への収束は遅くなり、尖度が大きいと不偏分散の母分散への収束が遅くなります。

続く

タグ: 統計

posted at 21:24:22

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 以上で説明したT統計量と標準正規分布を使った検定のユーザーは、標本平均X̅に関する中心極限定理と不偏分散S²の大数の法則を用いた近似の精度がいつ悪くなるかを知っておく必要があります。

中心極限定理の収束の速さの程度は母集団分布の歪度の絶対値の大きさで大雑把に決まり、続く

タグ: 統計

posted at 21:24:21

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計

さらに、大数の法則より、nを大きくすると、不偏分散S²の値は母分散σ²をよく近似した値になります。

以上の状況では、Zの中のσ²を不偏分散S²で置き換えて作られたTは近似的に標準正規分布に従います。

このとき、Tと標準正規分布で平均μに関する検定法を作れる。

続く

タグ: 統計

posted at 21:17:05

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 中心極限定理と大数の法則しか使わずに、t分布を使わない検定を、nが大きなときにTが近似的に標準正規分布に従うことを使えば作れる。

中心極限定理より、nを大きくすると

Z = (X̅ - μ)/√(σ²/n)

は標準正規分布に近似的に従います。この近似はS²の値と無関係に通用しているとする。続く

タグ: 統計

posted at 21:14:18

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 この場合のStudentのt検定のよくある解説では、母集団分布が正規分布ならば、Tの分布が自由度n-1のt分布にぴったりなっていることを強調します。

しかし、その説明の仕方だと、正規母集団の仮定抜きには全く使えない検定のように見えがちだと思います。実際にはそうではないのに。

続く

タグ: 統計

posted at 21:05:19

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計

2群のWelchのt検定の理解に役に立つスタイルで、1群のStudentのt検定について説明してみたいと思う。

標本X_1,…,X_nの母集団分布の平均をμ, 分散をσ²と書く。

標本平均をX̅と書き、不偏分散をS²と書き、

T = (X̅ - μ)/√(S²/n)

とおく。続く

タグ: 統計

posted at 21:02:05

非公開

タグ:

posted at xx:xx:xx

非公開

タグ:

posted at xx:xx:xx

非公開

タグ:

posted at xx:xx:xx

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 ベルヌーイ試行のコンピュータでのシンプルな実装は

rand()がp以下なら成功を返し、そうでないなら失敗を返すことを繰り返す

です。

n回中k回以上成功を返す確率を考えると、rand()が従う一様分布からベータ分布が出て来る。

これはベータ分布の非常に教育的な導入法だと思う。

タグ: 統計

posted at 11:54:05

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 このように、ベータ分布についてちょっと知っているだけで、ベイズ統計では事後分布で仮説が成立する確率がわかるので、P値を使う頻度論統計と違って解釈がしやすい、という主張がまったくのナンセンスな説明であることがわかる。

タグ: 統計

posted at 11:47:35

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 仮設検定のイロハの一つは「P値が大きな値であっても帰無仮説が正しい可能性が高いと安易に判断してはいけない」です。

ゆえに、ベイズ統計における事後分布内で仮説が成立する確率が高くても、その仮説が現実においても正しい可能性が高いだろうと安易に判断してはいけない。

タグ: 統計

posted at 11:44:28

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 この結果は、片側二項検定のP値が、対応するケースのベイズ統計での事後分布において帰無仮説が成立する確率にぴったり一致していることを意味している。

一般に、ベイズ統計における事後分布で仮説が成立する確率はP値に類似の統計量になっている。

タグ: 統計

posted at 11:38:03

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 応用

試行回数n、成功確率pのベルヌーイ試行でk回以上成功する確率

=

n個のrand()の中にp以下のものがk個以上ある確率

=

n個のrand()の中でk番目に小さな値がp以下になる確率

=

ベータ分布Beta(k, n-k+1)でp以下になる確率

タグ: 統計

posted at 11:23:26

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 ベータ分布の規格化定数を除いた密度函数の

x^{α-1} (1 - x)^{β-1}

はα-1個のrand()がすべてx以下になる確率とβ-1個のrand()がすべてx以になる確率の積。

以上は標本の順序統計量とベータ分布の関係の話。これを知っているとベータ分布を理解し易くなると思う。

タグ: 統計

posted at 11:08:57

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 α+β-1個のrand()の値の中でα番目に小さな値をXと書くとき、Xの分布はベータ分布Beta(α,β)になる。

その規格化定数

1/B(α,β)=(α+β-1)!/((α-1)!1!(β-1)!)

はα+β-1個の集まりのα-1個、1個、β-1個への分割の仕方の個数。多項係数の特殊な場合。

タグ: 統計

posted at 10:58:29

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 自明な誤りの訂正

【中心極限定理より、(n-1)S²/σ²の分布は、平均n-1、分散2(n-1)(1 + κ(n-1)/n) ≈ 2(n-1)(1+κ)の正規分布で近似される。】

❌分散2(n-1)(1 + κ(n-1)/n) ≈ 2(n-1)(1+κ)
⭕️分散2(n-1)(1 + κ(n-1)(2/n)) ≈ 2(n-1)(1+κ/2)

相対誤差は尖度κそのものではなく、その半分。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 09:29:25

まみ @mammynalover

22年2月4日

@nekoryonya3456 @Tanuk_Ichi 本当にそう思います。

19歳の時に元彼が不全で、本人も私も傷つきました。

まずは生活改善から..で治りましたが、夫が不全で抱いてくれないと悲しむ女性の話も仕事で聞いた事があります。

タグ:

posted at 08:10:30

@kuri_kurita

22年2月4日

いや、話は逆で、政府の失政によって三十年も経済“不成長”が安定的に続くことこそ人類史上極めて稀な出来事なのでは。 twitter.com/____nouryusan/...

タグ:

posted at 05:54:24

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 新しい教科書が必要。誰が書くのか。

タグ: 統計

posted at 04:38:25

Akiya Mizukoshi @Akiyah

22年2月4日

長期時系列データを使うとまとめて取得できて便利そう
www.e-stat.go.jp/stat-search/fi...

タグ:

posted at 03:09:15

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#超算数 しかし、親がそういうことを気にするうちの子はそういう周囲のお陰で結果的に何とかなる可能性が高いと思う。

問題はそうでないようなうちの子も割合概念を身につけて科学的な考え方をするための足場を固められるようになっていないとまずいこと。

現状では社会的分断が生じていると思う。

タグ: 超算数

posted at 03:04:32

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#超算数 そういう大きな話よりも、自分の子が科学的な考え方を将来できるようになるかに直結した問題であることを気にしている親や将来親になる人達は多いと思う。

割合についてまともな教え方をする人に自分の子の面倒をみてもらえるようにすることは現時点では結構難しい。運の要素が大きい。

タグ: 超算数

posted at 03:02:05

増田聡 @smasuda

22年2月4日

↓長文ですが、「クラシック音楽界」というものがどういうものであるか、全く縁がない人によくわかる文章になっている(全面的に同意するものではない)。特に社会学畑のポピュラー音楽研究者の人にはおすすめ。なぜ「あちらの方々」と話が合わなくなるのか(笑)がよくわかる。こういう世界なんです

タグ:

posted at 03:02:00

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#超算数 この辺の割合概念を理解している人達を増やすことは、次の世代が科学的な知見を活かして複雑な現実に立ち向かうことに直結している大問題だと思います。

そういう方面で教育が改善されると長期的に我々の次世代の人達に巨大なメリットがあると予想されます。

タグ: 超算数

posted at 02:59:09

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#超算数 このスレッドでも以下のリンク先でも説明されているように、教科書的な「これがなんでわり算になるか?」的な教え方がダメであることを認識していて、まともな教え方をしている小学校の先生達もいる。

過去の伝統に縛られた有害な算数数学教育専門家ではなく、そういう先生達に従えばよい。 twitter.com/yamazaksv2/sta...

タグ: 超算数

posted at 02:54:46

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#超算数 算数の小5の教科書は「504÷0.6」のようなわり算の式を書かせようとする教え方になっているので、「これがなんでわり算になるか?」という考え方を子供に押し付けるようになっているのです。

そのような教え方が割合に関する落ちこぼれを生産していることの証拠とみなせる研究もあります。
twitter.com/genkuroki/stat...

タグ: 超算数

posted at 02:31:11

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 一般に、データは貴重であり、

* 値の情報を捨てて順位の情報だけを残す。

* 値を(例えば)5段階に分類してどの段階に分類されたかの情報だけを残す。

のように、データが含む情報を大量に捨て去ることはもったいないというような考え方の方が普通だと思うのですが、どうですかね?

タグ: 統計

posted at 01:49:43

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 Brunner-Munzel検定(t分布を使う場合)が

(X<Yとなる確率) + (X=Yとなる確率)/2 = 1/2

という仮説の検定になっており、X軍とY軍の構成員の戦闘力の値を完全に無視する検定になっている点にも注意が必要だと思います。

本当にそういう検定を実行したいのか? twitter.com/genkuroki/stat...

タグ: 統計

posted at 01:45:15

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 以下のリンク先に追加

あと、各検定法ごとに

* どのようなモデルでどういう仮説をテスト(検定=test)するのか

について、明瞭に説明することも必須だと思います。

例えば、Mann-Whitney検定について「中央値が等しいかどうかの検定」と説明するのは誤り。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 01:40:03

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 Brunner-Munzel検定(t分布を使う場合)は、2つの群の母集団分布のそれぞれに独立に従う確率変数X, Yに関する

(X<Yとなる確率) + (X=Yとなる確率)/2 = 1/2

という仮説の検定になっています。中心極限定理を基礎とするので標本サイズが小さ過ぎると使えません。(原論文(2000)にもそう書いてある)

タグ: 統計

posted at 01:36:42

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 Mann-WhitneyのU検定は2群の分布が等しいという仮説の検定であり、一般には中央値が等しいかどうかの検定には使えません。

MWのU検定は何を検定しているかが非常に分かりにくい検定であり、実践的な場合での使用は相当に危ないと思います。

タグ: 統計

posted at 01:32:55

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 2群の平均の差に関するStudentのt検定は等分散という強い仮定が本質的に使われるので、未知の母集団分布を相手にする実践的な場合に使用するのは危険。

タグ: 統計

posted at 01:32:52

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 例えば、2群の平均の差に関するWelchのt検定は、未知の母集団分布が正規分布から少々外れていても使える検定になっており、等分散のような強すぎる仮定も必要ありません。

しかし、Welchのt検定は中心極限定理を基礎としているので、中心極限定理による近似の精度が悪そうな場合は危険。

タグ: 統計

posted at 01:27:08

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 検定や推定の方法の各々ごとに伝えておかないとまずいことは、

* 母集団分布が正規分布から外れていても使える方法になっているか否か



* 等分散や等分布のような強過ぎる仮定に頼り切る方法になっていないかどうか

の方だと思います。

タグ: 統計

posted at 01:22:48

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 「パラメトリック vs. ノンパラメトリック」という分類は実践的には「正規分布を仮定 vs. 正規分布を仮定しない」のように説明されることが多いのですが、本当は正規分布に限らない話であることを見逃したとしても、実践的に重要な事柄を伝えることに失敗させる悪しき要約の仕方だと思います。

タグ: 統計

posted at 01:19:45

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 母集団分布が正規分布のときに0になる母尖度κが0から離れると、標本の不偏分散の分布の分散がその分だけ大きくなったり小さくなったりします。

そうなることに等分散に関するF検定は脆弱であり、個人的な意見では使わない方がよいと思います。

タグ: 統計

posted at 01:16:48

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計

nが大きいとき、自由度n-1のχ²分布は平均n-1、分散2(n-1)の正規分布で近似されます。

一般の母集団分布について、中心極限定理より、(n-1)S²/σ²の分布は、平均n-1、分散2(n-1)(1 + κ(n-1)/n) ≈ 2(n-1)(1+κ)の正規分布で近似される。

分散が母尖度κの分だけずれます!

続く

タグ: 統計

posted at 01:13:40

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 等分散に関するF検定は、不偏分散S²に関する(n-1)S²/σ²の分布が自由度n-1のχ²分布に従うということを使います。母集団分布が正規分布なら実際にそうなる。(一般にはならない!)

続く

タグ: 統計

posted at 01:13:38

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 続き~不偏分散の分布の分散は

(κ/n + 2/(n-1))σ⁴

になる。

中心極限定理より、不偏分散の分布は、nが大きいとき、平均σ²、分散(κ/n + 2/(n-1))σ⁴の正規分布で近似される。

尖度κは正規分布で0になるように定義していたことに注意。母集団分布が正規分布から離れるとκも0以外の値になる。

タグ: 統計

posted at 01:04:55

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 中心極限定理によって、標本の不偏分散の分布もnが大きいとき正規分布に近くなります。

不偏分散の分布の平均は「不偏」の定義通りに母分散σ²に等しく、母集団分布の正規分布で0になる尖度を

κ = (μとの差の4乗の期待値)/σ⁴ - 3

と定義すると、不偏分散の分布の分散は、続く

タグ: 統計

posted at 01:04:53

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 詳細の説明

母集団分布の平均をμ、分散をσ²と書き、標本サイズをnと書き、n→大としておく。

中心極限定理より、標本平均の分布(標本抽出を繰り返したときの標本平均のバラつき方)は平均μ分散σ²/nの正規分布で近似されます。

標本平均の分布は母平均μと母分散σ²だけでほぼ決まる。続く

タグ: 統計

posted at 01:04:51

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 正規分布モデル内での確率を正確に計算することによって得られる検定には、平均と分散に関する2種類の検定があるのですが、平均に関する検定は現実の母集団分布が正規分布から結構離れていても使えますが、分散に関する検定はそうではないです。

タグ: 統計

posted at 00:44:32

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 しかし、母集団分布が正規分布から外れると、標本の不偏分散S²に関する(n-1)S²/σ²の分布はχ²分布に全然近くならない。nを大きくしても全然近くなりません。

(n-1)S²/σ²の分布はχ²分布に近くなってくれないと、等分散に関するF検定の誤差は大きくなり、実質的に無意味な検定になります。

タグ: 統計

posted at 00:44:31

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 しかも、2群が等分散であるという仮説のF検定はもろに正規分布モデルを使った検定になっている。

母集団分布が正規分布から結構ずれていても、中心極限定理のお陰で、標本平均の分布は正規分布に近くなってくれます。

続く

タグ: 統計

posted at 00:44:28

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 2群の違いの検定ではやめた方がよいスタイル②

❌等分散検定で等分散であるかどうかを確認して、等分散の条件を使う検定とそうでない検定のどちらかを選択

⭕️等分散であるという仮説が棄却されずに済んでも、等分散であることがわかったことにはならない。検定のイロハのイ!

続く

タグ: 統計

posted at 00:44:27

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計 2群の違いの検定ではやめた方がよいスタイル①

❌正規性検定で正規分布であるかどうかを確認して、「パラメトリック」と「ノンパラメトリック」のどちらかを選択

⭕️正規分布であるという仮説が棄却されずに済んでも、正規分布であることがわかったことにはならない。検定のイロハのイ!

続く

タグ: 統計

posted at 00:44:24

黒木玄 Gen Kuroki @genkuroki

22年2月4日

#統計

t検定一般(1群のStudentのt検定、2群の等分散を仮定するがゆえに使うと危なそうなStudentのt検定、2群の等分散を仮定しないWelchのt検定)を「正規分布を仮定するパラメトリック検定」に誤って分類するスタイルがかなり普及しているという問題が結構酷そう。

分岐していたスレッドへ
twitter.com/genkuroki/stat...

タグ: 統計

posted at 00:24:55

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました