黒木玄 Gen Kuroki(@genkuroki)/2022年02月/Page 23

#統計極端でない場合として、α=5, θ=1のガンマ分布が仮想的な母集団分布の場合も計算してあります。

nを大きくするにつれて中心極限定理が効いて行く様子がよく見えます。

このシンプルな計算を今までやったことがなかったのはかなりまずかった！何も分かっていなかったことになる。 pic.twitter.com/J5bv01EnRj

タグ：統計

posted at 23:57:02

#統計対数正規分布母集団のn=163840の場合

私のパソコンで約400秒かかりました。 #Julia言語便利。

github.com/genkuroki/publ... pic.twitter.com/xHLaqWbYFj

タグ： Julia言語統計

posted at 23:49:10

#統計一般の場合の理解のためには、以下のリンク先のプロットが役に立ちそう。中心極限定理。 twitter.com/genkuroki/stat...

タグ：統計

posted at 23:28:46

#統計

 #Julia言語で書かれたソースコードとプロット
↓
github.com/genkuroki/publ...

並列化してあるので、並列化の恩恵が欲しい場合には

docs.julialang.org/en/v1/manual/m...

の指示に従って下さい。

パソコンのファンがシューっと鳴るようになるのは楽しいです。

タグ： Julia言語統計

posted at 23:20:28

#統計母集団分布が対数正規分布の場合には、n=10からnを倍々で増やして行くとn=640で名目有意水準5%での第一種の過誤の確率が5%台になりました。

現時点ではn=20480の場合まで計算してあります。(Z, X²)の同時分布のプロット(4つのうちの左上)に綺麗に楕円が見えるところまで行きたかった。 pic.twitter.com/NfQIUEs5Bp

タグ：統計

posted at 23:14:56

#統計さらに状況を悪くするためのシンプルな手段は、仮想的な母集団分布として対数正規分布を採用することです。

対数正規分布はモーメントだけで分布が一意的に決まらない分布にもなっています。 genkuroki.github.io/documents/2016... のp.91に解説があります。

続く pic.twitter.com/gMkl9bOgsi

タグ：統計

posted at 23:11:50

Aki＠めもおきば @nekoruri

某マイクラ動画で見た奴だ……！ twitter.com/hikalium/statu...

タグ：

posted at 23:03:17

#統計続き。この場合に名目有意水準5%で第一種の過誤の確率を5%台におさえるためには、倍々でnを320まで増やす必要がありました。

そこまでnを大きくすると、ZとX²の同時分布にも中心極限定理がよく効いていて、4つのうちの左上のプロットにきれいに楕円状の分布が見えています！これが示唆的。 pic.twitter.com/MrDIKG17YY

タグ：統計

posted at 22:57:06

#統計その場合に、n=10, 20の結果は以下のようになります。

名目有意水準5%での第一種の過誤の確率がそれぞれ18%、20%もあります。

n=10, 20程度では、5%分だけ含まれている例外的に大きな値をうまく扱えないので、これは当然の結果でしょう。続く pic.twitter.com/YIEtSKq3kd

タグ：統計

posted at 22:48:05

#統計全体の5%だけが特別に非常に大きな値を持つ分布は実は「非対称性が非常に大きな分布」に分類され、中心極限定理による近似を良くするためにはnをかなり増やす必要があります。

中心極限定理に頼らずに、外れ値の生じ方を統計モデルに組み込んだ方が良い場合になります。 pic.twitter.com/CNsylZn5lQ

タグ：統計

posted at 22:43:28

#統計次に、母集団分布が添付画像のように、大きな山とそこから離れた小さな山を合わせたものになっている場合を試してみましょう。

全体の5%分だけ外れ値が含まれている場合。続く pic.twitter.com/lEXgq4tPbF

タグ：統計

posted at 22:39:43

hikalium @hikalium

想像以上の出来栄えと存在感でニヤニヤしている。そして実際に作って初めてわかったのは、「メンガーのスポンジ」というだけあって、水で洗った後になかなか水分が取り切れないということ。本当にスポンジだった。現実世界の物理シミュレーションは高速で便利だなあ! pic.twitter.com/ylnidnBtbI

タグ：

posted at 22:25:59

#統計名目有意水準5%で第一種の過誤の確率が6%程度になるまで、n=10を倍々で増やして行ったら、n=80でそれを達成できました。

どんぶり勘定的には、母集団分布が指数分布であっても、n=80程度以上まで標本サイズを増やせば、1標本t検定は使っても良さそうです。 pic.twitter.com/uyjYAkO1VJ

タグ：統計

posted at 22:10:33

#統計指数分布はx>0上の非対称性の大きな分布でx=0の近くに分布が集中しています。

標本の不偏分散S²が小さくなることと、X²=(n-1)S²/σ²が小さくなることは同じです。

不偏分散が小さくなるのは標本がx=0の近くに集中して、標本平均が母平均より小さくなる場合です。その様子も見えています。 pic.twitter.com/0HNqs2BrAX

タグ：統計

posted at 22:05:50

#統計母集団が指数分布でn=10の場合

左上と右上のグラフが思いっ切り左右非対称になっています！

名目有意水準を5%とするとき、この場合に1標本t検定を適用すると、第一種の過誤が起こる確率が10%程度になってしまいます。

こんな感じの場合に1標本t検定を使っちゃダメ！ pic.twitter.com/gbntCujoSL

タグ：統計

posted at 22:00:58

#統計以上では、母集団分布を左右対称な分布にして、尖度が小さな場合と大きな場合の両方を試してみたことになっています。その場合には標本サイズがn=10の小サンプルでも1標本のt検定が(有意水準5%なら)うまく行くことを確認しました。

それでは左右対称な分布が母集団分布だとどうでしょうか？続く

タグ：統計

posted at 21:52:16

#統計母集団が自由度4.01のt分布でn=10の場合

自由度4.01のt分布の裾はクソ太いです。尖度が600もある。

それにも関わらず、右下のグラフを見ると、T²の分布とF分布がよく一致しており、この場合にもt検定はおおむねうまく行きます！ pic.twitter.com/HVu5SvYrGy

タグ：統計

posted at 21:47:55

#統計母集団がBeta(0.2, 0.2)でn=10

Beta(0.2, 0.2)は区間(0, 1)上の左右対称な分布で0と1の周囲に集中している分布です。p=1/2のベルヌーイに近い。

この場合の(Z, X²)の同時確率分布(左上のグラフ)は面白い形！

右下のグラフを見ると、こんな場合でもt検定がうまく行くことが分かる！ pic.twitter.com/Wzqp0msSbz

タグ：統計

posted at 21:42:26

#統計続き。それにも関わらず、右下のグラフを見ると、T²の分布はFDist(1, n-1)に非常に近くなっています！

この事実は、母集団分布が正規分布とは全然違う一様分布であっても、n=10の小サンプルで、1標本のt検定を十分な精度で可能なことを意味しています。 pic.twitter.com/oBWuoOI39Q

タグ：統計

posted at 21:36:26

#統計母集団分布が(0,1)区間上の一様分布のサイズn=10の標本を10万個生成した場合。

右上のグラフで、Zの5%と95%ラインが縦軸に平行ではなく、X²の値に大きく依存しています。これはX²とZが全然独立ではないことを意味しています。

左下のグラフを見るとX²の分布はχ²分布とは全然違う。続く pic.twitter.com/dSiHJrI2M7

タグ：統計

posted at 21:33:28

#統計このように、正規母集団では、ZとX²が独立になり、X²はぴったりχ²分布に従い、T²はぴったり自由度(1, n-1)のF分布にぴったり従います。

t検定の精度は、T²の分布がどれだけ自由度(1, n-1)のF分布でよく近似されるかで決まるので、右下のグラフが最も重要です。 pic.twitter.com/1hTpSZzASw

タグ：統計

posted at 21:29:05

#統計右下のグラフは、t検定で使われる統計量

T = √n(X̅ - μ)/S

の二乗のヒストグラムと自由度(1, n-1)のF分布の比較です。正規母集団でTは自由度n-1のt分布に従うので、その二乗は自由度(1, n-1)のF分布に従います。

検定で重要になる裾部分のみをプロットしています。 pic.twitter.com/jfCo9xM1fl

タグ：統計

posted at 21:26:02

#統計右上のグラフは、10万個の(Z, X²)の値から推定した「X²の値を固定したときのZの条件付き確率分布の密度函数p(z|x²)」のヒートマップです。

シアンの線はZの5%と95%ライン。正規母集団ではZとX²が独立な確率変数になるので、シアンの線は縦軸に並行になります。 pic.twitter.com/2xOQp3eIJB

タグ：統計

posted at 21:22:13

#統計 4つのうちの左下のグラフはX²のヒストグラムとχ²分布の比較です。正規母集団の場合には、X²=(n-1)S²/σ²の分布は、自由度n-1のカイ二乗分布にぴったり一致します。 pic.twitter.com/hEcfOuN3Je

タグ：統計

posted at 21:22:11

#統計これは正規母集団の場合。

正規母集団でないときに様子がどのように変わるか

及び

様子が変わってもどのような性質が近似的に生き残るか

に興味があります。

2×2の4つのプロットの左上のやつは、サイズnの標本を10万個生成して、その(Z, X²)を平面に点でプロットしたものです。続く pic.twitter.com/wSf030ZhKB

タグ：統計

posted at 21:15:32

#統計まずは易しい1標本のStudentのt検定の理解のために、なぜか今までやっていなかった標本平均X̅と不偏分散S²と母平均μと母分散σ²で表される

Z = √n(X̅ - μ)/σ
X² = (n-1)S²/σ² (カイ二乗のつもり)

について、X²で条件付けられたZの分布などをプロットしてみました。

github.com/genkuroki/publ... pic.twitter.com/BuimwKE8OA

タグ：統計

posted at 21:11:30

台風 @taifu21

@onotchi_ 【教育方法に科学的根拠を出すにはあまりにもまだ教育の歴史って短すぎませんか】

歴史が短いとは？
教育学は科学的にやる気がないので何百年待っても無駄という事ですか？

twitter.com/genkuroki/stat...
掛け算の順序強制で児童の理解度を測れない事を示唆する論文しか見たことないです。

タグ：

posted at 19:30:44

OokuboTact　大久保中二病中年 @OokuboTact

#統計こちらからもリンク twitter.com/genkuroki/stat...

タグ：統計

posted at 10:47:45

OokuboTact　大久保中二病中年 @OokuboTact

＞　取りあえず、MMTは何か胡散臭いでも何でも良いから、

なんで胡散臭いMMTにお願いするんだろう
神頼み？ pic.twitter.com/XHikDX2TUc

タグ：

posted at 10:03:16

MMT派の「又貸し」VS「万年筆マネー」という藁人形構図を作る意図が不明 pic.twitter.com/MNQaVtf0KE

タグ：

posted at 09:56:52

@genkuroki 自分の定性的な解釈ですが、

一様分布は、
標本平均が0から離れた値の場合はサンプルが偏っているので、有限の台の影響で不偏分散が小さい
→標本平均^2と不偏分散が負の相関

裾の重い分布は、標本平均が0より離れたの場合は外れ値が多い
→標本平均^2と不偏分散が正の相関

をイメージしています

タグ：

posted at 09:02:24

@tchaikovsky1026 #統計私の側が一方的に酷く間違っていました！

既出の

github.com/genkuroki/publ...

にも例を追加しておきました。微小に左右非対称な分布でも同じ傾向に見えました。

ついでに並列化もしておいた。 #Julia言語 twitter.com/genkuroki/stat...

タグ： Julia言語統計

posted at 01:46:05

#統計やばい。深夜に楽しい。

T統計量については非常に面白そうなことが起こっている感じなんですかね？

タグ：統計

posted at 01:42:39

#統計 Mうらさんが正しく、私に側が完全に間違っていました。

添付画像を見ればすぐにわかるように、kurtosisが非常に小さくても(最小値は-2)、非常に大きくても、左半分の分布の裾の太さには大きく影響していない場合があることが明瞭です！

github.com/genkuroki/publ... pic.twitter.com/lfUuHiYbz5

タグ：統計

posted at 01:40:45

#統計 kurtosisが小さいのに、左半分のグラフの裾が細くなっていない！

なるほど、この点では誤解していた。

やばいなあ。寝ないと！

nbviewer.org/github/genkuro... twitter.com/genkuroki/stat...

タグ：統計

posted at 00:32:43

#統計過去の関連スレッド twitter.com/genkuroki/stat...

タグ：統計

posted at 00:25:19

@tchaikovsky1026 あ、ごめんなさい。私がグラフを見間違えていました。

面白そうなので私も暇を見つけて色々試してみます。

タグ：

posted at 00:19:27

Julia日本語記事まとめ @julia_kizi

@genkuroki しかし、赤丸は紫丸よりも黒丸のほうが近い、すなわち

母集団が一様分布で、1セットのサンプルから標本平均と不偏分散の両方を取得して計算したt値の分布

は、一様分布の尖度から予想される裾の軽い分布よりも、正規分布の裾の少し重い分布に近く、
「独立でない」が効いていると考えていました。

タグ：

posted at 00:19:24

新しい記事がZennにアップされました！#Julia言語　 #Julia日本語記事
 zenn.dev/terasakisatosh...👈

タグ： Julia日本語記事 Julia言語

posted at 00:11:59

@genkuroki 実際、標本平均と不偏分散が独立な紫丸は、正規分布の黒丸よりも狭い、すなわち、

母集団が正規分布のときのt値の分布

よりも、

母集団が一様分布で、標本平均と不偏分散を独立に取得して計算したt値の分布

のほうが狭く(裾が軽く)なっています。

続く

タグ：

posted at 00:11:50

@genkuroki 私の勘違い、説明不足ならすみません。

前で示しているグラフは、母集団が一様分布であって、

赤丸：1セットのサンプルから標本平均と不偏分散を計算
紫丸：サンプルを独立に2セット用意して、別々に標本平均、不偏分散を計算

なのですが、近似的に独立なら両者は一致すると思うのです。

続く

タグ：

posted at 00:04:31