黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2022年02月05日(土)
#統計 極端でない場合として、α=5, θ=1のガンマ分布が仮想的な母集団分布の場合も計算してあります。
nを大きくするにつれて中心極限定理が効いて行く様子がよく見えます。
このシンプルな計算を今までやったことがなかったのはかなりまずかった!何も分かっていなかったことになる。 pic.twitter.com/J5bv01EnRj
タグ: 統計
posted at 23:57:02
#統計 対数正規分布母集団のn=163840の場合
私のパソコンで約400秒かかりました。 #Julia言語 便利。
github.com/genkuroki/publ... pic.twitter.com/xHLaqWbYFj
posted at 23:49:10
#統計 一般の場合の理解のためには、以下のリンク先のプロットが役に立ちそう。中心極限定理。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 23:28:46
#統計
#Julia言語 で書かれたソースコードとプロット
↓
github.com/genkuroki/publ...
並列化してあるので、並列化の恩恵が欲しい場合には
docs.julialang.org/en/v1/manual/m...
の指示に従って下さい。
パソコンのファンがシューっと鳴るようになるのは楽しいです。
posted at 23:20:28
#統計 母集団分布が対数正規分布の場合には、n=10からnを倍々で増やして行くとn=640で名目有意水準5%での第一種の過誤の確率が5%台になりました。
現時点ではn=20480の場合まで計算してあります。(Z, X²)の同時分布のプロット(4つのうちの左上)に綺麗に楕円が見えるところまで行きたかった。 pic.twitter.com/NfQIUEs5Bp
タグ: 統計
posted at 23:14:56
#統計 さらに状況を悪くするためのシンプルな手段は、仮想的な母集団分布として対数正規分布を採用することです。
対数正規分布はモーメントだけで分布が一意的に決まらない分布にもなっています。 genkuroki.github.io/documents/2016... のp.91に解説があります。
続く pic.twitter.com/gMkl9bOgsi
タグ: 統計
posted at 23:11:50
#統計 続き。この場合に名目有意水準5%で第一種の過誤の確率を5%台におさえるためには、倍々でnを320まで増やす必要がありました。
そこまでnを大きくすると、ZとX²の同時分布にも中心極限定理がよく効いていて、4つのうちの左上のプロットにきれいに楕円状の分布が見えています!これが示唆的。 pic.twitter.com/MrDIKG17YY
タグ: 統計
posted at 22:57:06
#統計 その場合に、n=10, 20の結果は以下のようになります。
名目有意水準5%での第一種の過誤の確率がそれぞれ18%、20%もあります。
n=10, 20程度では、5%分だけ含まれている例外的に大きな値をうまく扱えないので、これは当然の結果でしょう。続く pic.twitter.com/YIEtSKq3kd
タグ: 統計
posted at 22:48:05
#統計 全体の5%だけが特別に非常に大きな値を持つ分布は実は「非対称性が非常に大きな分布」に分類され、中心極限定理による近似を良くするためにはnをかなり増やす必要があります。
中心極限定理に頼らずに、外れ値の生じ方を統計モデルに組み込んだ方が良い場合になります。 pic.twitter.com/CNsylZn5lQ
タグ: 統計
posted at 22:43:28
#統計 次に、母集団分布が添付画像のように、大きな山とそこから離れた小さな山を合わせたものになっている場合を試してみましょう。
全体の5%分だけ外れ値が含まれている場合。続く pic.twitter.com/lEXgq4tPbF
タグ: 統計
posted at 22:39:43
想像以上の出来栄えと存在感でニヤニヤしている。そして実際に作って初めてわかったのは、「メンガーのスポンジ」というだけあって、水で洗った後になかなか水分が取り切れないということ。本当にスポンジだった。現実世界の物理シミュレーションは高速で便利だなあ! pic.twitter.com/ylnidnBtbI
タグ:
posted at 22:25:59
#統計 名目有意水準5%で第一種の過誤の確率が6%程度になるまで、n=10を倍々で増やして行ったら、n=80でそれを達成できました。
どんぶり勘定的には、母集団分布が指数分布であっても、n=80程度以上まで標本サイズを増やせば、1標本t検定は使っても良さそうです。 pic.twitter.com/uyjYAkO1VJ
タグ: 統計
posted at 22:10:33
#統計 指数分布はx>0上の非対称性の大きな分布でx=0の近くに分布が集中しています。
標本の不偏分散S²が小さくなることと、X²=(n-1)S²/σ²が小さくなることは同じです。
不偏分散が小さくなるのは標本がx=0の近くに集中して、標本平均が母平均より小さくなる場合です。その様子も見えています。 pic.twitter.com/0HNqs2BrAX
タグ: 統計
posted at 22:05:50
#統計 母集団が指数分布でn=10の場合
左上と右上のグラフが思いっ切り左右非対称になっています!
名目有意水準を5%とするとき、この場合に1標本t検定を適用すると、第一種の過誤が起こる確率が10%程度になってしまいます。
こんな感じの場合に1標本t検定を使っちゃダメ! pic.twitter.com/gbntCujoSL
タグ: 統計
posted at 22:00:58
#統計 母集団が自由度4.01のt分布でn=10の場合
自由度4.01のt分布の裾はクソ太いです。尖度が600もある。
それにも関わらず、右下のグラフを見ると、T²の分布とF分布がよく一致しており、この場合にもt検定はおおむねうまく行きます! pic.twitter.com/HVu5SvYrGy
タグ: 統計
posted at 21:47:55
#統計 母集団がBeta(0.2, 0.2)でn=10
Beta(0.2, 0.2)は区間(0, 1)上の左右対称な分布で0と1の周囲に集中している分布です。p=1/2のベルヌーイに近い。
この場合の(Z, X²)の同時確率分布(左上のグラフ)は面白い形!
右下のグラフを見ると、こんな場合でもt検定がうまく行くことが分かる! pic.twitter.com/Wzqp0msSbz
タグ: 統計
posted at 21:42:26
#統計 続き。それにも関わらず、右下のグラフを見ると、T²の分布はFDist(1, n-1)に非常に近くなっています!
この事実は、母集団分布が正規分布とは全然違う一様分布であっても、n=10の小サンプルで、1標本のt検定を十分な精度で可能なことを意味しています。 pic.twitter.com/oBWuoOI39Q
タグ: 統計
posted at 21:36:26
#統計 母集団分布が(0,1)区間上の一様分布のサイズn=10の標本を10万個生成した場合。
右上のグラフで、Zの5%と95%ラインが縦軸に平行ではなく、X²の値に大きく依存しています。これはX²とZが全然独立ではないことを意味しています。
左下のグラフを見るとX²の分布はχ²分布とは全然違う。続く pic.twitter.com/dSiHJrI2M7
タグ: 統計
posted at 21:33:28
#統計 このように、正規母集団では、ZとX²が独立になり、X²はぴったりχ²分布に従い、T²はぴったり自由度(1, n-1)のF分布にぴったり従います。
t検定の精度は、T²の分布がどれだけ自由度(1, n-1)のF分布でよく近似されるかで決まるので、右下のグラフが最も重要です。 pic.twitter.com/1hTpSZzASw
タグ: 統計
posted at 21:29:05
#統計 右下のグラフは、t検定で使われる統計量
T = √n(X̅ - μ)/S
の二乗のヒストグラムと自由度(1, n-1)のF分布の比較です。正規母集団でTは自由度n-1のt分布に従うので、その二乗は自由度(1, n-1)のF分布に従います。
検定で重要になる裾部分のみをプロットしています。 pic.twitter.com/jfCo9xM1fl
タグ: 統計
posted at 21:26:02
#統計 右上のグラフは、10万個の(Z, X²)の値から推定した「X²の値を固定したときのZの条件付き確率分布の密度函数p(z|x²)」のヒートマップです。
シアンの線はZの5%と95%ライン。正規母集団ではZとX²が独立な確率変数になるので、シアンの線は縦軸に並行になります。 pic.twitter.com/2xOQp3eIJB
タグ: 統計
posted at 21:22:13
#統計 4つのうちの左下のグラフはX²のヒストグラムとχ²分布の比較です。正規母集団の場合には、X²=(n-1)S²/σ²の分布は、自由度n-1のカイ二乗分布にぴったり一致します。 pic.twitter.com/hEcfOuN3Je
タグ: 統計
posted at 21:22:11
#統計 これは正規母集団の場合。
正規母集団でないときに様子がどのように変わるか
及び
様子が変わってもどのような性質が近似的に生き残るか
に興味があります。
2×2の4つのプロットの左上のやつは、サイズnの標本を10万個生成して、その(Z, X²)を平面に点でプロットしたものです。続く pic.twitter.com/wSf030ZhKB
タグ: 統計
posted at 21:15:32
#統計 まずは易しい1標本のStudentのt検定の理解のために、なぜか今までやっていなかった標本平均X̅と不偏分散S²と母平均μと母分散σ²で表される
Z = √n(X̅ - μ)/σ
X² = (n-1)S²/σ² (カイ二乗のつもり)
について、X²で条件付けられたZの分布などをプロットしてみました。
github.com/genkuroki/publ... pic.twitter.com/BuimwKE8OA
タグ: 統計
posted at 21:11:30
@onotchi_ 【教育方法に科学的根拠を出すにはあまりにもまだ教育の歴史って短すぎませんか】
歴史が短いとは?
教育学は科学的にやる気がないので何百年待っても無駄という事ですか?
twitter.com/genkuroki/stat...
掛け算の順序強制で児童の理解度を測れない事を示唆する論文しか見たことないです。
タグ:
posted at 19:30:44
OokuboTact 大久保中二病中年 @OokuboTact
> 取りあえず、MMTは何か胡散臭いでも何でも良いから、
なんで胡散臭いMMTにお願いするんだろう
神頼み? pic.twitter.com/XHikDX2TUc
タグ:
posted at 10:03:16
OokuboTact 大久保中二病中年 @OokuboTact
MMT派の「又貸し」VS「万年筆マネー」という藁人形構図を作る意図が不明 pic.twitter.com/MNQaVtf0KE
タグ:
posted at 09:56:52
@genkuroki 自分の定性的な解釈ですが、
一様分布は、
標本平均が0から離れた値の場合はサンプルが偏っているので、有限の台の影響で不偏分散が小さい
→標本平均^2と不偏分散が負の相関
裾の重い分布は、標本平均が0より離れたの場合は外れ値が多い
→標本平均^2と不偏分散が正の相関
をイメージしています
タグ:
posted at 09:02:24
@tchaikovsky1026 #統計 私の側が一方的に酷く間違っていました!
既出の
github.com/genkuroki/publ...
にも例を追加しておきました。微小に左右非対称な分布でも同じ傾向に見えました。
ついでに並列化もしておいた。 #Julia言語 twitter.com/genkuroki/stat...
posted at 01:46:05
#統計 Mうらさんが正しく、私に側が完全に間違っていました。
添付画像を見ればすぐにわかるように、kurtosisが非常に小さくても(最小値は-2)、非常に大きくても、左半分の分布の裾の太さには大きく影響していない場合があることが明瞭です!
github.com/genkuroki/publ... pic.twitter.com/lfUuHiYbz5
タグ: 統計
posted at 01:40:45
#統計 kurtosisが小さいのに、左半分のグラフの裾が細くなっていない!
なるほど、この点では誤解していた。
やばいなあ。寝ないと!
nbviewer.org/github/genkuro... twitter.com/genkuroki/stat...
タグ: 統計
posted at 00:32:43
@genkuroki しかし、赤丸は紫丸よりも黒丸のほうが近い、すなわち
母集団が一様分布で、1セットのサンプルから標本平均と不偏分散の両方を取得して計算したt値の分布
は、一様分布の尖度から予想される裾の軽い分布よりも、正規分布の裾の少し重い分布に近く、
「独立でない」が効いていると考えていました。
タグ:
posted at 00:19:24
新しい記事がZennにアップされました!#Julia言語 #Julia日本語記事
zenn.dev/terasakisatosh...👈
タグ: Julia日本語記事 Julia言語
posted at 00:11:59
@genkuroki 実際、標本平均と不偏分散が独立な紫丸は、正規分布の黒丸よりも狭い、すなわち、
母集団が正規分布のときのt値の分布
よりも、
母集団が一様分布で、標本平均と不偏分散を独立に取得して計算したt値の分布
のほうが狭く(裾が軽く)なっています。
続く
タグ:
posted at 00:11:50
@genkuroki 私の勘違い、説明不足ならすみません。
前で示しているグラフは、母集団が一様分布であって、
赤丸:1セットのサンプルから標本平均と不偏分散を計算
紫丸:サンプルを独立に2セット用意して、別々に標本平均、不偏分散を計算
なのですが、近似的に独立なら両者は一致すると思うのです。
続く
タグ:
posted at 00:04:31
すぐにコードを書いて自分で実験してみたいが、この時間から病み上がりの私がそれを始めるのは自殺行為。
こうやって書いておかないと自殺行為に走りそうなので、こうやって書いておく。
タグ:
posted at 00:00:16