黒木玄 Gen Kuroki(@genkuroki)/2020年05月/Page 29

`inv(A) * B`よりも`A \ B`のほうが若干効率が良い...?
#julialang

タグ： julialang

posted at 23:37:48

マナマの生マナマコ @chor0sK

普通に計算するよりもQR factorizationしたほうが遅い...
解せぬ... #julialang #Emacs pic.twitter.com/LLfMz3PaZY

タグ： Emacs julialang

posted at 23:22:11

@takusansu ＞　疑問の声は色々と上がっているけれど、無視して進めているように見えます。

ポスト安倍首相や野党に良いアイデアを持った人はいるんだろうか？

タグ：

posted at 23:16:12

TaKu @takusansu

@OokuboTact #超算数
駄目な協力者会議が立ち上げられている
8254.teacup.com/kakezannojunjo...

大学入学者選抜における多面的な評価の在り方に関する協力者会議　議事録・配付資料：文部科学省
www.mext.go.jp/b_menu/shingi/...

疑問の声は色々と上がっているけれど、無視して進めているように見えます。

タグ：超算数

posted at 23:14:38

（続き）　　＃超算数

文科省官僚はヤバいなあ pic.twitter.com/WuM4uEfJ62

タグ：超算数

posted at 23:00:40

K.B.砂糖 @KB_satou

実装にストレスがかからずアルゴリズムに集中できるので Julia いいですね。(アルゴリズムが出来るとはいってない)

タグ：

posted at 22:50:40

Yukihiro Matz @yukihiro_matz

え？ Lisp界でdestuctive (function)という表現は古くから使われていたけど、Rubyに関数はないからメソッドと呼んだだけではないかと。
Link: 「破壊的メソッド(destructive method)」という用語はMatzが発祥っぽい - Qiita: qiita.com/ninomiyt/items...

タグ：

posted at 22:50:28

K.B.砂糖 @KB_satou

Julia に逃げた結果 D までは割と良かったのでこれからもそうしよう。

タグ：

posted at 22:48:29

#超算数

今年は新しい入試で混乱して文科大臣が謝罪して見送りになった。
竹内洋と佐藤郁哉の対談を読んでいたら、文科省官僚のダメダメさについて語っていた。 pic.twitter.com/YMqKfHiF3c

タグ：超算数

posted at 22:47:56

Kotatsu Rin @kotatsurin

iPhoneとAndroidをWebcamにできるアプリ（Win, Mac, Ubuntu対応）これが一番シンプルかな。

Iriun Webcam for PC and Mac
apps.apple.com/jp/app/iriun-w...

タグ：

posted at 22:05:31

M. Katsuse @bunkei_DA

自由度って、統計学の初学者が
最初につまづくものな気がして、
自分も常に？な状態だった。

何度か調べ直したことも
あったけれども、
こんな図示されたものは
初めて拝見しました。 twitter.com/genkuroki/stat...

タグ：

posted at 21:39:02

数学女子 @phasetrbot

@adsc3_141 JuliaのJunoがatomなので使わざるを得ないのが現状です。本当にこのためだけにいまatomを使っています。普段Emacsなので、JupyterだとC-wでタブ閉じが暴発したりとかエディタ部分が厳しい気持ちなので仕方なく次善の策でatomのJunoです。WindowsだとEmacsのプラグインが一部微妙で厳しいので厳しい。

タグ：

posted at 20:22:28

#統計統計学入門の最初に習う仮説検定の話が、実は「自由度」の適切な理解の経路を通して、仮説検定と表裏一体の信頼区間、ベイズ統計における信用区間(確信区間)、赤池情報量規準AICによるモデル選択、ベイズ統計におけるWAICによるモデル選択、などなどと自然に繋がって来る訳です。

タグ：統計

posted at 19:39:07

#統計あと、リンク先のような図で説明できる「自由度」の理解の基礎になるWilks' theoremの話は、仮説検定と赤池情報量規準(AIC, an information criterion)の関係を明らかにしてくれます。ベイズ版のWAICとも漸近論を通して繋がる。

twitter.com/genkuroki/stat...

タグ：統計

posted at 19:33:26

#Julia言語でも(Fortranでも)、実際には配列のインデックスの始まりを任意の値にずらせます。

Juliaについては

docs.julialang.org/en/v1/devdocs/...

github.com/JuliaArrays/Of...

を参照。 pic.twitter.com/icPNtAMeUx

タグ： Julia言語

posted at 19:05:58

#Julia言語のベクトル=1次元配列と行列=2次元配列の扱いはMATLABおよびそのクローン達(Octave, scilab)に似ています。MATLABの配列も1-basedです。MATLABは各種の仕事でよく使われています。

あとMathematicaやLuaも1-basedだし、FORTRANも1-basedです。

1-basedであることは意外ではないかも。 twitter.com/todotani/statu...

タグ： Julia言語

posted at 19:05:56

ccieojisan @ccieojisan

Julia という言語があるんだなぁ。Juliaなのかは知らんけど、pythonに取って代わる言語はどれになるんだろうか。
Bye-bye Python. Hello Julia! by @RheaMoutafis in @TDataScience towardsdatascience.com/bye-bye-python...

タグ：

posted at 19:02:45

Roger Luo 罗秀哲 @rogerluorl18

working on a new eDSL for programming quantum circuits, channels, and hybrid programs. Compatible with any legal (classical) #JuliaLang program! pic.twitter.com/vvHbmTmoP0

タグ： JuliaLang

posted at 18:42:52

匿本名太郎 @kaisekigakumoyo

@genkuroki ありがとうございます！

タグ：

posted at 18:40:37

K.B.砂糖 @KB_satou

ハガネの連勤術師 @hgn_no_otaku

VScode の remote WSL 上の C++ の設定と C++ 自体が難しすぎるので Julia に逃げたい

タグ：

posted at 18:39:33

ハガネの連勤術師 @hgn_no_otaku

@koukialpha これの①〜④を別々に覚えてそうだと感じることはたまにありますね。
「等しい両辺に同じ操作をしても等しいまま」で十分なはずなんですけどね。

twitter.com/genkuroki/stat... twitter.com/genkuroki/stat...

タグ：

posted at 18:04:49

係数に分数が混じった一次方程式で「最初に必ず分母の最小公倍数を掛けないといけないんですか？」って質問が出るの、超算数的な背景がチラつくんだよな

タグ：

posted at 17:44:51

#統計続き。非心超幾何分布もn→∞で正規分布で近似できますが、その証明を直接的計算でやるのは難しい。一般論に頼ればそう難しくないのですが。

ωが1以外の場合の「標本の期待値のオッズ比=ω」へのP値の一般化は仮説検定と整合的なオッズ比に信頼区間を得るためには必須です。

タグ：統計

posted at 17:06:30

#統計 2×2の分割表で全周辺度数を固定する議論のもう1つの欠点は「標本の期待値のオッズ比=1」の場合に限っては易しい超幾何分布の場合に帰着できますが、「～=ω」の場合に一般化すると非心超幾何分布という余り易しくない確率分布と付き合う必要が生じることです。続き

twitter.com/genkuroki/stat...

タグ：統計

posted at 17:02:54

栗原裕一郎 @y_kurihara

ここで島田雅彦のリフレ派理解を見てみましょう。
twitter.com/y_kurihara/sta...

タグ：

posted at 16:46:04

@temmusu_n 原真人氏は、小島寛之氏のブログにでも来る筋金入りの反リフレ派です

hiroyukikojima.hatenablog.com/entry/20180602...

タグ：

posted at 16:28:12

#統計 K. Pearson vs. Fisher 論争の時代(1922年頃)と違って、現代では、1938年のWilksさんの論文や1973年のGoodさんによる解説などによって、仮説検定の文脈における「自由度」の概念は以下のリンク先のようにクリアに認識可能になっているということです。

twitter.com/genkuroki/stat...

タグ：統計

posted at 16:27:16

#統計数学を道具として使う分野では、雑な議論で答えだけは正しいものを得た後に、本当は欲しかった定理が数学的に発見されて、答えの正しさが堅固になるということがよく起こっていると思います。

仮説検定の文脈での「自由度」の概念もそういう歴史をたどったとみなされます。

タグ：統計

posted at 16:09:02

#統計以上で引用した周辺度数を固定する現代的にはダメな議論をしているFisherさんの論文は1922年出版で、Goodさんが引用しているWilksさんに論文は1938年出版です。だから、Fisherさんの失敗は仕方がない。

しかし、現代の我々までダメな議論を否定しないのは馬鹿げていると思います。

タグ：統計

posted at 16:05:55

#統計統計学における多くの道具の有用性の根拠は「n→∞で成立する数学的定理」にあるのですが、実際に使用されるのは有限のnの場合なので、n→∞での数学的結果が応用先の有限のnでどれだけ近似的に成立しているかを確認しておく必要がある。

周辺度数を全固定する議論はその過程で排除されます。

タグ：統計

posted at 15:58:59

#統計特に医療統計の分野ではまるで常識であるかのように教えられている「χ²検定が不適切なほどサンプルサイズが小さい場合」にχ²検定を適用するシミュレーションを実行すると、その場合にχ²検定の適用が不適切だという説は間違っていることがわかるのです(ツイッターの過去ログ参照)。

タグ：統計

posted at 15:54:55

#統計 χ²検定が必要とするn→∞での結果は、有限離散性の問題を極度に悪化させる周辺度数の全固定を経由せずに、Wilks' theoremを経由しても得られる。

周辺度数を全固定しなければ、有限離散性の問題が極度に悪化することがなくなるので、小サンプルでもχ²検定が十分有効である可能性に気付きます。

タグ：統計

posted at 15:51:49

#統計 χ²検定は本質的に正規分布近似による検定なので、分割表の自由度を周辺度数の全固定の経路で認識してしまっている人が、可能な場合の数が数個程度になる場合が生じるケースではχ²検定は使用するべきではないと考えることになります。

しかし、その考え方は間違っています。

タグ：統計

posted at 15:48:14

#統計周辺度数をすべて同じ n/2 に固定せずに、周辺度数ごとに異なる値に固定すると場合の数はさらに減ります。

可能な値の種類が数個～十数個程度では、n→∞では成立している正規分布による近似は悪くなります。続く

タグ：統計

posted at 15:45:14

#統計続き。すべての周辺度数 a+b, c+d, a+c, b+d の全てを、仮に n は偶数として、n/2 に固定すると、可能な分割表全体の個数は

n/2 + 1

になります。例えばn=20ならば

20/2 + 1 = 11.

以上のように場合の数のオーダーがO(n³)とO(n)では大違いで、n=20のとき、1771と11の違いになる！続く

タグ：統計

posted at 15:41:42

#統計 2×2の分割表では、周辺度数の固定の仕方によって、有限性は大きく変化します。

非負の整数の分割表

a b
c d

でa+b+c+d=nのみを固定すると、可能な分割表全体の個数は

binom(n+3, 3) = (n+3)(n+2)(n+1)/3!

になります。例えばn=20ならば

binom(23, 3) = 1771.

続く

タグ：統計

posted at 15:36:12

#統計有限離散性の問題の解説: 有限離散分布のサンプルのP値の可能な値は有限個に制限されるので、帰無仮説のもとで、適切な意味でP値を正確に計算していると、P値がα以下になる確率は常にα以下になり、特別な場合を除いてαより真に小さくなります。

その問題は有限性が強くなると悪化する。続く

タグ：統計

posted at 15:29:35

#統計実際にそれが原因で、2×2の分割表の独立性検定について、「χ²検定はFisher's exact testの近似であり、近似が小サンプルで悪化するので、小サンプルでχ²検定を使うべきではない」というデタラメが定説になってしまった。統計学の黒歴史。

全周辺度数を固定して自由度を説明することは有害。

タグ：統計

posted at 15:22:16

#統計資料: Wilks' theoremが知られている前に議論なので、Fisherさんが間違った議論をしていたのは仕方がない。

全周辺度数を固定すると有限離散性がものすごく悪化するので、実際にχ²検定が有効なサンプルサイズでのχ²検定を正当化できなくなります。続く twitter.com/genkuroki/stat...

タグ：統計

posted at 15:16:12

Matt Henderson @matthen2

a method of drawing infinitely many touching circles pic.twitter.com/PEYUO7JHdJ

タグ：

posted at 14:55:39

おばけ @triwave33

2時間くらいかかった。コツわかればなんともない作業だけど… 年取ってだんだんこういう作業のコストを考えるようになってしまった

PS3のコントローラーを完璧に修理する方法 gta5-death-match.com/others/1435/

タグ：

posted at 14:45:53

#統計ゆるい仮定のもとで成立する数学的な定理ごとに、未知の何かを適切に推定する方法が得られるのです。

そういう科学的に合理的な考え方を捨てて、「主義」「思想」「哲学」の違いで「異なる統計学」を語る人達は、科学の世界から排除されるべきだと私は思います。

タグ：統計

posted at 14:40:40

#統計そういうベイズ統計に関するダメな解説の背後には、数学ではなく、「主義」「思想」「哲学」が統計学では重要であるかのようにみなすダメな考え方があります。

「ベイズ統計」になった途端に確率概念そのものが別の哲学によって塗り替えられるかのような解説は単なるデタラメに過ぎません。

タグ：統計

posted at 14:37:12

#統計出回っているベイズ統計の解説のほとんどはデタラメもしくはダメな考え方に誘導するスタイルになっているので要注意。

小学生レベルの割合の計算に過ぎないモンティ・ホール問題や陽性・陰性的中率などに関して、「ベイズ推定」のような用語を使って説明しているものはダメな解説に典型例です。

タグ：統計

posted at 14:33:56

#統計さらに、「通常の仮説検定や信頼区間とベイズ統計の関係がどうなっているのか？」を理解するためにも、Wilks' theoremの認識は決定的に重要です。

というわけで、「自由度」の概念の適切な定義に至る考察は統計学の中核部分に関係があると言って過言ではないと思います。

タグ：統計

posted at 14:30:25

#統計以上のような感じで、最尤法がうまく行く場合に普遍的に成立しているWilks' theoremに基く「自由度」の概念の理解は、実用的な種々の仮説検定の理解に繋がっているだけではなく、仮説検定と表裏一体の信頼区間の理解にも繋がっています。

もちろん、こういう話は統計学入門の教科書にはない。

タグ：統計

posted at 14:27:01

#統計 μ₂ - μ₁ = δ の片側検定のP値函数のプロットの例が既出の

nbviewer.jupyter.org/gist/genkuroki...

にあります。通常の両側検定のP値函数のプロットを見たい人は自分でやってみると良いでしょう。

青線はベイズ統計での対応物です。この場合に頻度論とベイズ統計の区別は実践的には無意味に近い。 pic.twitter.com/UMA7td44FB

タグ：統計

posted at 14:22:51

#統計続き～、P値函数を定義できます。P値函数は、サンプルが与えられたときに、パラメータωまたはδにP値を対応させる函数とみなされる。与えられたサンプルに対して、P値が5%以上になるパラメータωまたはδの範囲として、ωまたはδの95%信頼区間を定義できます。

タグ：統計

posted at 14:18:52

#統計まず、通常の帰無仮説(1),(2)を

(1) 標本の期待値のオッズ比 λ₁₁λ₂₂/(λ₁₂λ₂₁) = ω

(2) 標本平均の期待値の差 μ₂ - μ₁ = δ

に一般化します。ω, δはそれぞれ1, 0でなくてもよい。

このように一般化しても「自由度」の概念の基礎付けであるWilks' theoremは成立するので～続く

タグ：統計

posted at 14:13:38

#統計～指標になっています。この事実を使うと以下のようにして自然に信頼区間も定義できます。

仮説検定と信頼区間は表裏一体なのに、大学学部生向けの統計学入門の教科書では何も説明していないので注意が必要です。

続く

タグ：統計

posted at 14:10:05

#統計 2×2の分割表の独立性の帰無仮説は

(1) 標本の期待値のオッズ比 λ₁₁λ₂₂/(λ₁₂λ₂₁) = 1

で与えられ、平均の差の有無の検定での帰無仮説は

(2) 標本平均の期待値の差 μ₂ - μ₁ = 0

で与えられます。帰無仮説が成立していないとき、(1), (2)の左辺は「帰無仮説からの乖離の大きさ」の～

タグ：統計

posted at 14:08:02

マナマの生マナマコ @chor0sK

平面上への射影 #julialang #Emacs
Gist gist.github.com/hnakano863/f3e... pic.twitter.com/zCvuHnAJ68

タグ： Emacs julialang

posted at 13:56:00

積分定数 @sekibunnteisuu

@shinsyuasobi @SSau1013 @Kageyama_hideo 私自身はCです。
塾をやっていますが、Bの生徒を多数見てきました。

タグ：

posted at 13:43:48

積分定数 @sekibunnteisuu

@shinsyuasobi @SSau1013 @Kageyama_hideo 信州あそびの杜学園さんご自身は、

A　パターンを覚えた。考え方が身についた。
B　パターンを覚えた。考え方が身についていない。
C　パターンを覚えなかった。考え方が身についた。
D　パターンを覚えなかった。考え方が身についていない。

A～Dどれに該当するのでしょうか？

タグ：

posted at 13:43:20

#統計以上のように、2×2の分割表の独立性検定の文脈での自由度はモデルを変えてもどれも1になることが、帰無仮説の条件が「オッズ比=1」の形をしていることから分かります。

統計学入門の教科書によくあるサンプルの全周辺度数の固定によって自由度が1だとする議論は誤りです。答えは正しいですが。

タグ：統計

posted at 13:37:22

#統計さらに、別の場合。条件Aを満たす人の人数a+bと満たさない人数c+dを固定して、サンプルを抽出した状況は、2つの独立な二項分布でモデル化するのが自然です。この場合の全パラメータ数は2になり、独立性の帰無仮説「オッズ比=1」を課すとパラメータは1つ減ります。自由度1に変わりはない。

タグ：統計

posted at 13:33:39

#統計続き。全パラメータ空間の次元が、多項分布の3の場合と違って、その場合には4になるのですが、独立性の帰無仮説の条件は

オッズ比=1

のままであり、この条件によって下がるパラメータ空間の次元が1であることは変わりません。すなわち、独立性検定の文脈での自由度はこの場合も1になる。続く

タグ：統計

posted at 13:30:11

#統計サンプルを、全体の人数a+b+c+dを固定せずに、ある一定期間に観測された全ての事例の収集とした場合には、多項分布ではなく、4つの独立なPoisson分布でモデル化する方が自然です。

その場合にはモデルKの全パラメータ空間の次元は4になります(Poisson分布1つごとにパラメータが1個)。続く

タグ：統計

posted at 13:26:55

#統計「自由度」=「帰無仮説によって減る独立なパラメータの個数」という理解の仕方は以下のように役に立ちます。

2×2の分割表の話に戻りましょう。上の方では分割表

a b
c d

に制限が a+b+c+d=n しかない状況を多項分布でモデル化しました。それとは違う状況も考えられます。続く

タグ：統計

posted at 13:23:56

#統計仮説検定における自由度の適切な定義を図示するとこんな感じ。

「帰無仮説に対応するパラメータ集合から離れる方向が独立して何次元あるか」が、自由度の適切な定義になっています。

逆に言えば、「帰無仮説によって幾つパラメータ空間の次元が下がるか」が自由度の適切な定義。 pic.twitter.com/s1Vlt2BFeb

タグ：統計

posted at 13:15:49

Todotani @todotani

前野［いろもの物理学者］昌弘 @irobutsu

インタフェース６月号を見てJuliaをお試し。
配列のインデックスが0からではなく1から始まるのにびっくり。確かに人には分かりやすいが、既存言語との行き来で混乱しそう。数式も以下のように人が見て分かりやすく書けて興味深い：
a=2
b=2a + 3 → b = a*2 + 3と同じ

タグ：

posted at 13:12:07

「高校での物理の履修率が２０％だなんて！」という話がぶり返しているけど、実際もうだいぶ前からこうなのである。

よく思うのは１９８０年頃までに高校出た人とその後では「高校で習う物理」というものに対する感覚がだいぶ違うだろうな、ということ。わしは８０％の時代の人。 pic.twitter.com/77ls7X3NSF

タグ：

posted at 13:09:56

#統計仮説検定における自由度の定義について大雑把にまとめると、「帰無仮説によって減少する独立なパラメータの個数」が「自由度」の適切な定義になるということです。

サンプル(データ)の側に注目して自由度について考えるのではなく、パラメータ空間と帰無仮説に注目して自由度を求めます。

タグ：統計

posted at 13:05:25

こいなぎ @naginyan135

【級位者向け実戦型詰将棋part188(岡部雄二氏作)】
これは神問すぎて草 pic.twitter.com/QfqKBiGkjQ

タグ：

posted at 12:05:58

Yuki.H @hisao_00

めちゃくちゃわかりやすい説明だ twitter.com/genkuroki/stat...

タグ：

posted at 11:22:11

#統計自由度については、対立仮説のモデルKのパラメータ空間とその部分空間になっている帰無仮説のモデルHのパラメータ空間の次元の差をdとするとき、「最大尤度の比の対数の標本分布から得られる分布」と「自由度dのχ²分布」の比較を多数見なければ納得できないことだと思う。

具体例の計算は必須。

タグ：統計

posted at 11:06:29

#統計 1つ前のツイートの設定は、正規分布モデルで2つにグループの母平均に差があるか否かの検定でよく使われているものです。

その場合に、実際に自由度1のχ²分布が自然に出て来ることについては

nbviewer.jupyter.org/gist/genkuroki...

にあるプロットを参照。普通の教科書に書いていないことをしています。 pic.twitter.com/0y1q23J51b

タグ：統計

posted at 11:00:36

#統計さらに別の例。

モデルKとして2つの独立な正規分布を採用。パラメータは2つの平均μ₁, μ₂と2つの分散σ₁², σ₂²の合計で4つ。

モデルHとして、モデルHをμ₁=μ₂で制限したものを採用。パラメータ空間の次元が1下がって3になる。

この場合の仮説検定の文脈での自由度は1です。

タグ：統計

posted at 10:55:01

satoshi @souichi_k

昨日、自由度について調べ、？がいっぱいだったけど、さらにその先があったw twitter.com/genkuroki/stat...

タグ：

posted at 10:48:02

Akinori Ito @akinori_ito

pic.twitter.com/7EpWOjJNsH

タグ：

posted at 10:37:58

#統計

I. J. Good (1973) What are Degrees of Freedom?,
The American Statistician, 27:5, 227-228
dx.doi.org/10.1080/000313...

における自由度の定義。

今までのツイートおよび以上で私が説明したものと同じです。私の別の説明についてはツイログを参照:

twilog.org/genkuroki/sear... pic.twitter.com/2jvn6htA1f

タグ：統計

posted at 10:34:17

#統計しかし、大学学部生向けの統計学入門の教科書では、帰無仮説と対立仮説を以上で説明したように明瞭にモデル化して扱っていないので、読者は正しい理解にたどりつくことができません。

(仮説検定のより進んだ専門書にはその点について明瞭な説明がある。自由度についてはWilks' theoremが重要！)

タグ：統計

posted at 10:17:40

#統計別の例の続き。モデルH,Kのパラメータ数はそれぞれ0,5なので、それらの差の5がその場合の自由度です。

以上の意味での自由度を計算するためには、帰無仮説のモデルHとそのパラメータ空間を拡大した対立仮説のモデルKの両方を明瞭に認識する必要があります！続く

タグ：統計

posted at 10:13:39

#統計別の例。サイコロがイカサマであるか否かを、サイズnのサンプルを使って検定するために、帰無仮説のモデルHとして確率パラメータ(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)の多項分布を採用し、対立仮説のモデルKとして一般の多項分布(6項分布、パラメータ数は5)を採用したとしましょう。続く

タグ：統計

posted at 10:12:25

#統計もとのパラメータ空間を「オッズ比=1」という条件で制限すると、「オッズ比=1」という1本の方程式によって次元が1だけ下がるわけです。

その下がった次元の大きさが、適切な自由度の定義です。

タグ：統計

posted at 10:03:45

#統計独立性の帰無仮説によって多項分布のパラメータ空間を制限して得られるモデルHのパラメータ空間の次元は2になり、3から1つ下がります。

独立性の帰無仮説の条件は、λ_{ij}がすべて正であるという仮定のもとで、オッズ比=1型の条件

λ₁₁λ₂₂/(λ₁₂λ₂₁) = 1

という条件と同値。続く

タグ：統計

posted at 10:01:15

#統計モデルのパラメータとして、期待値 λ_{ij} 達を採用することもできます。λ_{ij} 達には総和が n になるという制限が付く。

独立性の帰無仮説は、p_{ij}達が

p₁₁ = pq, p₁₂ = p(1-q),
p₂₁ = (1-p)q, p₂₂ = (1-p)(1-q)

と表されるという条件で記述されます。続く

タグ：統計

posted at 09:57:57

#統計より詳細な説明。

多項分布における (a,b,c,d), a+b+c=d=n の確率は

n!(p₁₁^a/a!)(p₁₂^b/b!)(p₂₁^c/c!)(p₂₂^d/d!)

と書けます。パラメータp_{ij}には総和が1になるという制限が付く。a,b,c,dの期待値はそれぞれ λ_{ij} = n p_{ij} になります。

続く

タグ：統計

posted at 09:54:14

#統計続き

モデルHを、モデルKのパラメータ空間を独立性の条件(期待値のオッズ比=1)で制限してできるモデルだと定義しましょう。

モデルHのパラメータ空間の次元はモデルKより1小さくなります。

ゆえに、独立性の帰無仮説のモデルHと対立仮説のモデルKの仮説検定における自由度は1になります。続く

タグ：統計

posted at 09:48:55

#統計 a+b+c+d=nという制限だけが付いている2×2の分割表

　　　 B　not B
A　　　a　　b
not A　 c　　d

の独立性検定の話に戻りましょう。

モデルKとして「(a,b,c,d)が多項分布に従う」を採用しましょう。4項分布なのでモデルのパラメーターの個数は3です。続く

タグ：統計

posted at 09:44:30

#統計要するに、帰無仮説のモデルHのパラメーター空間のより広い対立仮説のモデルKのパラメーター空間における余次元(codimension、次元が何次元下がったか)が、自由度の適切な定義なのです。

素朴に「自由に動ける変数の個数」が「自由度」になるわけでは__ない__ということです。続く

タグ：統計

posted at 09:38:38

#統計 χ²検定で使用するχ²分布の自由度は、Goodさんも指摘しているように、Wilks' theoremから得られる。

モデルKのパラメーター空間をνだけ次元が小さな部分空間に制限して得られるモデルをHとしたとき、Hを帰無仮説、Kを対立仮説とする仮説検定の文脈では、νを自由度だと定義するのが適切です。続く

タグ：統計

posted at 09:35:21

#統計 Fisherさんの考え方は誤りなのですが、独立性検定の文脈での正しい自由度が得られるので、現代の教科書にもその間違った考え方が書いてあることが多い。

そして、その帰結として「Fisher's exact testは正確である」という有害な言説も広まってしまった。統計学の黒歴史の1つだと思います。続く

タグ：統計

posted at 09:30:29

#統計 Fisherさんは以下のような__間違った考え方__で正しい自由度1を導きました。分割表

a b
c d

の制限に、「a+b+c+dの固定」だけではなく、「全周辺度数a+b, c+d, a+c, b+dの固定」も含まれているならば、a,b,c,dのうち自由に動けるのはそのうちの1つだけになるので、自由度は1になる。続く

タグ：統計

posted at 09:25:39

#統計 Fisherさんは2×2の分割表の独立性のχ²検定で使用するχ²分布の自由度を正しい数値である1に訂正したのですが、1になる理由を(Goodさんとは違って)正確には理解していませんでした。

「論争」当時の数学の発展度合いを見ると仕方がなかったことかもしれません。続く

タグ：統計

posted at 09:21:10

#統計正しい答えは「それだけだと回答不能。具体的にどのようなモデルで何を検定したいかを決めないと自由度は決まらない。条件A,Bの独立性のχ²検定を行う場合の正しい自由度は1になる」です。

この例を見れば「自由度」を「標本中の独立な成分の個数」などと解釈するのはまずいことが分かる。続く

タグ：統計

posted at 09:18:20

#統計 a+b+c+d=nという制限付きの2×2の分割表

　　　 B　not B
A　　　a　　b
not A　 c　　d

の統計学的文脈における自由度は幾つか？

もしもこれに「4つのa,b,c,dにa+b+c+d=nという制限がついているので自由度は4-1=3である」と答えると間違いになります(Karl Pearsonさんと同じ誤り)。続く

タグ：統計

posted at 09:13:11

#統計母集団から無作為抽出したn人を2つの条件A, Bを使って以下の表のように分類したとします：

　　　　　　　　Bを満たす　Bを満たさない
Aを満たす　　　　　 a人　　　　 b人
Aを満たさない　　　 c人　　　　 d人

全部でn人なので、a,b,c,dには

a+b+c+d=n

という制限が付きます。続く

タグ：統計

posted at 09:07:52

#統計歴史的には、2×2の分割表の独立性に関するχ²検定で使用するχ²分布に自由度を、Karl Pearsonさんが3だと間違え、それをFisherさんが1に訂正した「論争」が有名です。

この例について正確に理解すれば、Goodさんによる一般的な「自由度」の定義も理解できます。続く

タグ：統計

posted at 09:03:42

#統計「自由度」という用語は広く雑に使用されているのですが、統計学の文脈では「自由度」の定義を絶対に間違ってはいけない場合があります。

例えば、(沢山の種類がある)χ²検定で使用するχ²分布の自由度の定義を間違うと不適切な検定を行なってしまうことになります。

続く

タグ：統計

posted at 09:00:20

#統計

J. Good (1973) What are Degrees of Freedom?, The American Statistician, 27:5, 227-228
dx.doi.org/10.1080/000313...

における「自由度」の解説は非常に良いです。

その説明は私がツイッターで繰り返し強調した説明と同じ。

自由度の定義はGoodさんの定義に従うのが良いと思います。続く twitter.com/kaisekigakumoy...

タグ：統計

posted at 08:56:10

Clara Kreft @808Towns

加藤公一, 가토우 기미카즈（はむかず） @hamukazu

「・・・うひいいいいいいいい～！！」の翻訳について
#英語の勉強にどうぞ twitter.com/godanomarco/st...

タグ：英語の勉強にどうぞ

posted at 07:17:28

高校の物理履修率が20%というのは正直驚いてるし、娘に「高校物理はちゃんとやっておけ」と言ったのは、もう頭の硬い古いおっさん扱いなんだろうか。まあそれでもいいけど。

タグ：

posted at 07:04:52

峰　宗太郎 @minesoh

Masahiro Ono 小野　昌弘 @masahirono

@masahirono @takavet1 小野先生ありがとうございます👶まさに探していたものです…！日本でもこれをやってほしいのです…もちろん公開で…

タグ：

posted at 06:55:21

@minesoh @takavet1 横からすみません、感染を広げてどう収束するかのシミュレーションが、ファーガソン教授の３月１６日公表の報告書です。Fig 3とTable 2をみてください、何もしなかった場合、英国で４０−５０万人の死者（人口比だけなら日本で８０−１００万人に相当）で収束、という計算です
www.imperial.ac.uk/media/imperial...

タグ：

posted at 06:43:18

平岡拓也 @HiraokaTakuya

物理習ってる時は、この世界が謎に満ちていて僕は何も理解していないという気分になって凄かった(´･_･`)
量子力学なんかは直感に反しまくってて最高(´･_･`)

タグ：

posted at 06:29:32

Massimo @Rainmaker1973