黒木玄 Gen Kuroki(@genkuroki)/2019年11月19日

#統計 Fisher検定の場合の信頼区間を求めるときには、負連続函数=0の解を求める必要がある感じなのですが、Roots.find_zero を使う手抜きですませています。仮に誰かがパッケージ化して配布する場合にはその辺をもっと慎重に考え直す必要があると思います。

タグ：統計

posted at 23:51:59

#統計ここまで詳しく説明しておけば、 #Julia言語で書かれたχ²検定に付随する信頼区間の計算のコードの解読は比較的容易だと思います。

普及のためには誰かが #R言語で書くべきだと思う。

タグ： Julia言語 R言語統計

posted at 23:49:23

#統計 #Julia言語 Roots.jl の find_zero 函数で方程式を解いています。ただし、P値がα以上になるωの範囲を求めるのではなく、一般化されたピアソンのχ²統計量 X² = shifted_chisq(a,b,c,d,ω) の値が quantile(Chisq(1), 1-α) 以下になるωの範囲を求めています。X²はωの有理函数なので計算が軽い。

タグ： Julia言語統計

posted at 23:47:59

言迷水 @genmeisui

この番組を次の方々に捧げたい
・磁気活水のトンデモ理論を構築した東大工学部卒のIさん
・健康器具として販売した奥羽大の山本正雅教授
・「マンション　上手に修繕」と紹介した北海道新聞の酒谷信子記者
・「老朽化を食い止める独創的な技術」と紹介した東京新聞の岸本拓也記者 twitter.com/kikitai9ch/sta...

タグ：

posted at 23:45:13

#統計 #Julia言語

 nbviewer.jupyter.org/gist/genkuroki...
2×2の分割表のχ²検定の信頼区間

には「無駄に見える試行錯誤の様子」がすべて残されています。そのせいで分量が非常に多くなっているように見えるのですが、本質的部分はほんの少しです。現時点では添付画像の部分に重要なパーツがすべて書かれている。 pic.twitter.com/gxtOowbjZI

タグ： Julia言語統計

posted at 23:40:47

#統計これで、pval(a,b,c,d,ω)の例が一つ得られたので、信頼区間を計算することも(原理的には)これで可能になったわけです。

以上のようなことを実際にやった例が以下のリンク先にあるわけです。 #Julia言語

 nbviewer.jupyter.org/gist/genkuroki...

タグ： Julia言語統計

posted at 23:34:20

#統計このようにP値を計算する函数を与えたらよいという話は(その数学的正当化に一切触れずに単に数値的な例を説明しただけの)Fisherさんの1962年の論文(既出)に書いてあります。ただし、FisherさんはYates補正までしてしまっている。Yates補正はしない方がよい。

タグ：統計

posted at 23:32:38

#統計 X²は自由度1のχ²分布に近似的に従う確率変数とみなせ、X²は偏りの大きさに関する適切な指標っぽいこともわかるので、このX²を使って、

pval(a,b,c,d,ω) = (自由度1のχ²分布で値がX²以上になる確率)

と定義するとかなり実用的なP値函数が得られます(所謂χ²検定)。

タグ：統計

posted at 23:31:06

言迷水 @genmeisui

主戦力になったのは東京大学工学部の卒業生です
彼が入社してから業者のトンデモ理論が巧妙になりました
現在は組織とは無関係の様子

タグ：

posted at 23:29:07

言迷水 @genmeisui

「磁気活水器のトンデモ理論は誰が考えているのか？」という疑問に答えてくれているツイート twitter.com/parasite2006/s...

タグ：

posted at 23:29:07

#統計実際には、a,b,c,dの期待値が余り大きくなくても、良い近似になっていることを数値計算で確認することになります。

極限で成り立っている数学的結果を応用したい場合には、極限を取る前に良い近似になっていることまで確認しないと全く実用になりません。

タグ：統計

posted at 23:28:31

#統計 ω=1の場合に、X²はピアソンのχ²統計量と一致するので、このX²はピアソンのχ²統計量の一般化になっています。そして、a,b,c,dの期待値が大きくなる極限で、X²は漸近的に自由度1のχ²分布に従うことを証明できる。

タグ：統計

posted at 23:27:23

#統計 pval(a,b,c,d,ω)の例を与える既出のFisher(1962)の方法の紹介。まず、分割表a,b,c,dとω>0から

(a+δ)(d+δ)/((b-δ)(c-δ)) = ω

を満たす-min(a,d)とmin(b,c)のあいだにあるδを二次方程式を解いて求めます。そして、

X² = δ²(1/(a+δ) + 1/(b-δ) + 1/(c-δ) + 1/(d-δ))

とおく。続く

タグ：統計

posted at 23:27:22

#統計まとめ：分割表のサンプルa,b,c,dとパラメーターωからP値を計算する函数 pval(a,b,c,d,ω) から、サンプルa,b,c,dから計算される信頼係数 1-α の信頼区間は f(ω) = pval(a,b,c,d,ω) ≥ α を満たすωの範囲として計算される。

pval(a,b,c,d,ω)を与えることが非自明な点を除けばシンプルです。

タグ：統計

posted at 23:22:17

こなみひでお @konamih

これが日本システム企画の「当社製品に対する誹謗中傷について」と題されたページです。なかなかすごいものがあります。それにしても「誹謗中傷」の具体的な中身がぜんぜんわからないので謎ばかりです。

www.jspkk.co.jp/jp/explanation...

タグ：

posted at 23:20:48

#統計実際にはa,b,c,dのどれかが0になった場合への対処が必要なので面倒な細かい注意が必要になります。

あと、f(ω) = pval(a,b,c,d,ω) = α を数値的に解こうとすると、一般に複雑な計算が必要なP値を計算する函数が何度も呼ばれることになって計算効率が劣化します。計算効率を上げる工夫も必要。

タグ：統計

posted at 23:20:06

#統計 ωに関する方程式 f(ω) = α の解を数値的に求めるためには #Julia言語ならば

github.com/JuliaMath/Root...

を使えるし、 #R言語ならば

www.rdocumentation.org/packages/stats...

を使えます。f(ω)が単峰型でピークになるωが分かっているなら比較的容易に2つの解を数値的に求められます。

タグ： Julia言語 R言語統計

posted at 23:18:05

こなみひでお @konamih

私が理科探に書いた『「謎水装置」ＮＭＲパイプテクターに翻弄される人々』のファイルはこちらからダウンロードできます。日本システム企画社のサイトには，「NMRパイプテクターを事実無根により誹謗中傷するものとして削除されました」と堂々とウソが書かれているものです。
www.rikatan.com/wiki.cgi?page=...

タグ：

posted at 23:14:08

#統計 f(ω) = pval(a,b,c,d,ω) がωについて単峰型の函数になっていれば、f(ω) = α の解が ω₀ < ω₁ と2つ求まって、信頼係数1-αの信頼区間は [ω₀, ω₁] として確定するわけです。

タグ：統計

posted at 23:13:54

#統計しかし、ひとたび、P値を与える函数 pval(a,b,c,d,ω) が確定してしまえば、サンプル a,b,c,d に対するパラメーター ω の信頼係数1-αの信頼区間は「pval(a,b,c,d,ω)≧αとなるωの範囲」として確定します。

タグ：統計

posted at 23:13:54

#統計コンピューターで検定を実装するときには、P値を計算してくれる函数 pval(a,b,c,d,ω) のコードを書くことになります。

P値を計算してくれる函数 pval(a,b,c,d,ω) の作り方には相当な任意性があるのですが、良いものを作るのは非自明な面白い数学的問題になります。

そう簡単な問題じゃない。

タグ：統計

posted at 23:08:17

#統計 P値の計算が有用なものになるためには、P値が「モデルM(ω)の下でサンプルa,b,c,d以上の偏りが生じつ確率」の近似値になっている必要があります。

偏りの大きさの定義は、a,b,c,dがad/(bc)=ωの状態からどれだけ離れたかを意味する指標を何か与えれば確定する。

タグ：統計

posted at 23:06:13

#統計 M(ω)の検定は、M(ω)に含まれる確率分布でランダムに生成された分割表

a b
c d

とパラメーターωの函数 pval(a,b,c,d,ω) (これの値はP値と呼ばれる)を与えれば確定します。P値の値は0以上1以下になるものとします。

twitter.com/genkuroki/stat...

タグ：統計

posted at 23:04:13

しぶてぃ @takuizum

DataFrames周りのことについて書きます
#julia言語 twitter.com/takuizum/statu...

タグ： julia言語

posted at 22:26:27

公表された正答例と一言一句同じならよいが、特に国語では表現ぶりが違うのが普通。その場合、どのような表現が正答として許容されるかの幅は、正答例や正答基準だけでは判断が難しい。
新共通テストの自己採点と結果の不一致は、現行のセンター試験のものとは質的に異なる困難性だ。

タグ：

posted at 21:25:36

新共通テスト記述式問題の場合は、解答欄に読み取りミスが起きないような濃さで、採点者が読める程度の丁寧さで書き、さらにその解答を正確に写しても、自己採点と結果が一致する保証がない。→

タグ：

posted at 21:25:27

そもそも自己採点の観点も誤解している人がいるのではないか。現行のセンター試験では、マークシートを読取ミスが起きないように丁寧に塗りつぶし、かつ自分のマークした選択肢番号を正確に写せば、自己採点と結果は100％一致する。マークミスや解答の写し間違いで自己採点と結果が違うことはある。→

タグ：

posted at 21:25:05

現行のセンター試験でも自己採点とズレてる人が20％くらいいるのではというツイートを見た。20％はあまりにも大きい数字なので、もしこういうことを言うなら何か根拠が必要なのでは。→

タグ：

posted at 21:24:31

#統計 2×2の分割表の中心極限定理の基本図式

Poisson分布の中心極限定理
↓
Poisson分布×4の中心極限定理
↓
↓ a+b+c+d を固定
↓
4項の多項分布の中心極限定理
↓
↓ a+b, c+d を固定
↓
二項分布×2の中心極限定理
↓
↓ a+c, b+d も固定
↓
Fisherの非心超幾何分布の「中心極限定理」

タグ：統計

posted at 21:21:19

#統計

Poisson分布に関する易しい(一般論に頼らずにスターリングの公式で瞬殺できる)中心極限定理

と

多次元(多変量)正規分布の線形な条件での制限も多次元正規分布になること

から

2×2の分割表の中心極限定理

が芋づる式に容易に得られます。

タグ：統計

posted at 21:21:15

#統計 2×2の分割表の確率分布の基本図式

2×2の分割表
a b
c d
↓
↓ a,b,c,dは独立なPoisson分布に従うとする
↓
Poisson分布×4
↓
↓ a+b+c+d を固定
↓
4項の多項分布
↓
↓ a+b, c+d を固定
↓
二項分布×2
↓
↓ a+c, b+d も固定
↓
Fisherの非心超幾何分布

タグ：統計

posted at 21:12:22

#統計多項分布、二項分布、非心超幾何分布などの有限離散分布はどれも複数のPoisson分布の直積の条件付き確率分布になっているということから、Poisson分布はある意味で最も基本的な離散分布になっていると思うこともできます。面倒な分布が簡単な分布の条件付き確率分布になっていることはよくある。

タグ：統計

posted at 21:07:31

大内裕和 @ouchi_h

下村博文元文部科学大臣が、「文部科学省は、よく東大に指導していただきたい」と発言。この下村「恫喝」発言は、教育への「不当な支配」を禁じた教育基本法に明確に違反する。今回の入試改革全体の問題性を浮き彫りにする発言であり、絶対に許してはならない。
www3.nhk.or.jp/news/html/2019...

タグ：

posted at 21:06:43

#統計以上の例は、離散分布の理解のために非常に役に立ちます。

多項分布、二項分布、非心超幾何分布の類の有限離散分布はどれも複数のポアソン分布の直積を制限して得られる条件付き確率分布になっています。

そのことを使うと、多項分布のχ²検定をポアソン分布との関係で理解し易くなります。

タグ：統計

posted at 20:57:17

#統計分割表

a b
c d

の各成分a,b,c,dがPoisson分布に従っている場合の分割表の確率分布で、a+b+c+d=Nを固定すると、4項の多項分布が得られ、さらに横の合計 a+b=r と c+d=s を固定すると二項分布×2が得られ、さらに縦の合計 a+c=t, b+d=u も固定するとFisherの非心超幾何分布が得られるわけです。

タグ：統計

posted at 20:57:17

#統計独立性条件を満たすモデルM(1)の検定には、χ²検定、G検定、Wald検定、Fisher検定など沢山あります。

それらは比較的容易に一般のM(ω)の検定に拡張されます(χ²検定の拡張については少し考える必要あり)。

拡張さえできれば後はプログラムを書くだけ。例↓ #Julia言語

 nbviewer.jupyter.org/gist/genkuroki...

タグ： Julia言語統計

posted at 20:51:26

#統計「Fisherの非心超幾何分布」は知らない人が多いかもしれませんが、Poisson分布×4, 四項分布, 二項分布×2において縦横の合計を固定した条件付き確率分布がその定義になります。

#Julia言語のDistributions.jlでも非心超幾何分布を扱えます。
github.com/JuliaStats/Dis...

タグ： Julia言語統計

posted at 20:46:37

#統計 2×2の分割表の数学的モデルM(ω)は以下のどれか。

M(ω) = 「分割表は期待値のオッズ比がωの {Poisson分布×4, 四項分布, 二項分布×2, Fisherの非心超幾何分布} に従う確率変数である」

全部で4種類ある。「M(ω)が正しい」という仮説の検定を定義すれば、信頼区間も自動的に定義される。

タグ：統計

posted at 20:41:23

#統計区間推定について統計学入門書の範疇を超えた理解をするためには、2×2の分割表の独立性検定(複数の方法がある)の各々について相性がよい区間推定のプログラムを自分で書くことは非常に良い演習になると思いました。

まず「モデルM(ω)の仮説検定」のプログラムを書くことを強いられる点がよい。

タグ：統計

posted at 20:37:44

Miyahan @miyahancom

(自称)AIの専門家がAIが自我を持ち暴走し出したような挙動をはじめててワロタ(笑えない)

もうお薬も効かなさそう。 pic.twitter.com/T9tK2loCnh

タグ：

posted at 20:31:15

#統計以上で「どの統計学入門書を批判しているのか」について微妙にぼかした表現になっているのは、多くの入門書が問題を抱えているからだと思っているからなのですが、具体的には東京大学教養学部統計学教室編『統計学入門』を念頭において批判的なことを述べています。

あれはひどい。

タグ：統計

posted at 20:29:46

#統計統計学入門は他にも色々ひどくて、「最小二乗法は最良線型不偏推定(BLUE)である」という理由で最小二乗法が常に適用可能なベストの推定法であるかのように説明するのもひどい。最小二乗法は正規分布モデルの一種なので、正規分布モデルの適用が適切な場合でないと、誤差がひどく大きくなります。

タグ：統計

posted at 20:28:14

#統計統計学入門書にある区間推定が客観的だと思っているならば、同程度にベイズ統計も客観的だし、ベイズ統計が主観的だと思う人は同程度に単純な区間推定も主観的であると思っていなければまずいわけです。

タグ：統計

posted at 20:25:56

#統計単純な区間推定であっても数学的モデルの母集団分布への適用の妥当性がキーになる。

この事実を忘れて「頻度論的統計学は客観的である」のようにひどく誤解するから、「ベイズ統計は主観的である」のようにこれまたひどい誤解をすることになるのだと思います。

タグ：統計

posted at 20:23:37

#統計モデルの現実への適用の妥当性の判断は、統計分析にかけたデータの外側の過去の経験などを使って行うことが多いわけです。

区間推定であってもこの事実には変わりがない。なぜならば区間推定は使用する数学的モデル依存だからです。

タグ：統計

posted at 20:22:35

#統計現実の分析では、経験が膨大にあるならば、ある種の実験で得られるデータが正規分布もしくはそれに近い分布に従っていると結論して妥当な場合が出て来ます。そういう場合には正規分布モデルにより母平均の区間推定から強い結論を出せる。

モデルの現実への適用の妥当性がキーになっている。

タグ：統計

posted at 20:20:52

#統計普通に筋の通った考え方をすれば当然このような結論になるので、この事実を統計学の入門書は強調する責任があります。しかし、実際には間違った説明が堂々と書いてあって、それが何十年も訂正されない。指摘する人自体が極めてまれ。(私はこの指摘をしている人物を私以外に知らない。)

タグ：統計

posted at 20:19:03

#統計母集団分布の正規性検定を行って「正規分布である」という仮説が棄却されなかったとしても、仮説検定のイロハから「正規分布である」という仮説が正しいかどうかについては何もわかりません。

このようなことの繰り返しでは強い結論は決して出せない。

タグ：統計

posted at 20:17:21

#統計もちろん、サンプルを取り直して、信頼区間の計算を繰り返したとき、95%信頼区間に母集団分布の真の平均が含まれる割合が95%になるというような結論も絶対に出て来ない。

正規分布モデルM(μ)の母集団分布への適用が妥当である場合にしかそのような結論は出せない。

タグ：統計

posted at 20:17:21

#統計例えば、母集団分布は平均μの正規分布(分散は不定)に従うというモデルをM(μ)と書き、データとそのモデルからt分布を使って95%信頼区間を計算したとします。

そのとき、仮説検定のイロハより、その区間に含まれるμについて、モデルM(μ)が正しいかどうかについては何も言えない。続く

タグ：統計

posted at 20:17:20

#統計 95%信頼区間にパラメーターwが含まれることは単にモデルM(w)が有意水準5%で棄却されないことを意味します。仮説検定のイロハより、そのことはモデルM(w)が正しいことは全然意味しません。

モデルM(w)の現実への適用が適切である場合にのみもっと強い結論を出せるわけです。

タグ：統計

posted at 20:17:20

#統計そのような説明がないことは、統計学入門書ではなぜか区間推定の解説が仮説検定の解説よりも前に配置されていることから明らか。

しかし、おそらく、理由はそれだけではない。仮説検定と区間推定の関係がクリアになってしまうと、多くの人が言っていることがデタラメになってしまう。続く

タグ：統計

posted at 20:17:20

#統計「モデルMが有意水準αで棄却されなかったとしても、モデルMが正しいことにはならない」と統計学入門書でよく強調されていて、私も大事な注意だと思います。

しかし、信頼区間が多くの場合に「モデルM(w)が有意水準αで棄却されないパラメーターwの範囲」と一致することは説明されていない。続く

タグ：統計

posted at 20:17:19

#統計 #R言語 #Julia言語

「モデル M(ω) (ωは期待値のオッズ比)が有意水準αで棄却されないωの範囲」としての信頼区間とR言語で計算した信頼区間の比較の表を拡大した。

多分、独立性検定と信頼区間の組み合わせが私が書いた函数(表の上段)に一致していれば正しい結果。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/p5AJFc5qIw

タグ： Julia言語 R言語統計

posted at 20:01:54

Hal Tasaki @Hal_Tasaki

Fumiaki Nishihara（西原 @f_nisihara

わしもこの耳でしかと聞きましたぞ。 twitter.com/gejiqmq/status...

タグ：

posted at 19:50:56

元文科相の下村氏の「与党として当たり前の話」という発言、〈大学の自治〉や〈不当な支配に服することなく〉という言葉がまったくもって空しくなる発言で、英語民間試験がどうこうというだけでなく、さらに危険なものであると思います。 twitter.com/f_nisihara/sta...

タグ：

posted at 19:50:36

mtmt @mtmtlife

Fumiaki Nishihara（西原 @f_nisihara

羽生善治のタイトル通算100期を阻止し、いままた藤井聡太の史上最年少タイトル挑戦を阻止する男、広瀬章人。

タグ：

posted at 19:45:07

阿部公彦 ABE Masahiko @jumping5555

前々からうわさになっていましたが、音声が出てきましたね。 - 英語民間試験下村氏「東大に活用するよう指導を」党内会議で｜NHKニュース www3.nhk.or.jp/news/html/2019...

タグ：

posted at 19:44:44

朝日新聞将棋取材班 @asahi_shogi

これですね。下村さんの音声あり。民間試験ごり押しの証拠。www3.nhk.or.jp/news/html/2019...

タグ：

posted at 19:42:45

村）王将リーグ藤井七段―広瀬竜王戦、広瀬竜王が勝ちました。挑戦権は広瀬竜王が獲得。藤井七段は史上最年少でのタイトル挑戦を逃しました。最後はトン死だったようで、劇的な幕切れでした。

タグ：

posted at 19:42:32

牛マンボウ博士＠博ふぇすD24/C102 @manboumuseum

#統計 #R言語訂正

epotools::oddsratio.small は一致してしない。
視力の問題で数表を読み違えた。

twitter.com/genkuroki/stat...

タグ： R言語統計

posted at 19:41:52

阿部公彦 ABE Masahiko @jumping5555

ヤバい情報が飛び込んできました・・・NOAAが主催する深海探査船「Okeanos Explorer」の遠隔操作無人潜水艇が昨日？深海に潜っていたところ、深度は不明ですが、海底付近でマンボウと遭遇したようです！！！！これはマンボウも深海魚であることを示す明確な証拠ですね！！！！！！ twitter.com/oceanexplorer/...

タグ：

posted at 19:40:02

【速報】NHKのニュースで、下村博文さんの恫喝発言が流れた模様。あの東大を脅すやつですね
詳細はまた追って。

タグ：

posted at 19:39:36

優樹 @yuki1988jp

今夜のNHKのNEWS7より、下村博文が利権欲しさに東大に英語民間試験の導入を迫る生々しい音声データを入手。

#NEWS7 #NHK #ベネッセ #nhk_news #英語民間試験

 www3.nhk.or.jp/news/html/2019... pic.twitter.com/zVYFTDQo02

タグ： NEWS7 NHK nhk_news ベネッセ英語民間試験

posted at 19:31:42

首藤　嘉久 @shudoy

英語民間試験の施工団体の政商だからね、下村博文は。東大がやらないと他の大学もやらなくなり、英語民間試験を受ける受験生が少なくなるからね。そうすると入ってくる政治資金が減るから。

英語民間試験下村氏「東大に活用するよう指導を」党内会議で | NHKニュース www3.nhk.or.jp/news/html/2019...

タグ：

posted at 19:14:16

QmQ @gejiqmq

猫と人間が付属している眼鏡 @sankyoh

「この話を算数で言うと」と、リー環の表現の既約分解の話に突入したので、彼の中では表現論は算数らしい

タグ：

posted at 18:46:15

@mph_for_doctors この件について、Synthetic Control Methodを用いて解析してみました。お時間がございましたら、ご笑覧下さい。結果としては、250人/都県の増加があると考えられました。ただ、ランダムウォークの一部である可能性は否定出来ません。note.mu/sankyoh/n/n55f...

タグ：

posted at 18:46:00

へいほぅ @h3y6e

研究室の slack で話が上がってた Eigenvectors from Eigenvalues を Julia で検証してみた #julia言語
 gist.github.com/5ebec/1db43d4f...

タグ： julia言語

posted at 17:55:09

twitter.com/bonohu/status/...

タグ：

posted at 17:16:35

the SOCIAL / ポジティブニュ @thesocial24

完成したパッケージに関しては、デザイナーさんと一緒に、六角形のステッカー（Hex Sticker）を作ることも可能です。すでに自分は12種類作ってます。
twitter.com/suimye/status/...
みんなのHex Stickerを繋げて、日本列島にしましょう！
twitter.com/mritchieau/sta...

タグ：

posted at 17:03:50

海藻がなくなった海で大量発生する“身がスカスカのウニ”。この駆除対象のウニに、廃棄予定のキャベツを与えると…絶品のウニに変身するんです😋
www.news24.jp/articles/2019/...
#ウニ #キャベツウニ #神奈川 pic.twitter.com/u72nleWCbn

タグ：ウニキャベツウニ神奈川

posted at 17:00:00

intolerance @Royal_Wedding

「経団連『情報科学や数学、歴史、哲学などの基礎科目を全学生の必修科目とする』ことを提案」→歴史に哲学って…「実学重視」の金切り声はどこへ行ってしまったの？／経団連「数学は全学生必修に」　若手育成で提言：日経 www.nikkei.com/article/DGXMZO...

タグ：

posted at 16:56:29

#R言語はど素人の中のど素人なので手をまったく出せそうもない。

タグ： R言語

posted at 16:54:41

#統計今どき、P値だけを示されても困ると思うので、#R言語のchisq.testも信頼区間を表示して欲しいと思う。

Fisher (1962)を引用して、素直に実装すれば良いだけ。Fisherさんのお墨付きの方法なので文句を言う人はいないと思われる。ただし、Yates補正無し版も実装しないとダメ。 twitter.com/genkuroki/stat...

タグ： R言語統計

posted at 16:53:43

#統計 Fusher検定に関する「モデルM(w)が有意水準αで棄却されないパラメーターw全体の集合」の意味での信頼区間は私が #Julia言語で書いた函数や #R言語の

exact2x2 の fisher.exact(), bkaker.exact()
epitools の oddsratio.small()

が表示してくれるようです。fisher.exact()がお勧め。

タグ： Julia言語 R言語統計

posted at 16:49:56

#統計信頼区間は「モデルM(w)が有意水準αで棄却されないパラメーターw全体の集合」なので、モデルM(w)の仮説検定が実装されていれば、原理的にはそこから信頼区間も得られます。

しかし、#R言語のfisher.testの信頼区間はそれとは全然違っており、chisq.testは信頼区間を表示してくれない。

タグ： R言語統計

posted at 16:43:06

#統計ところが、普及している統計学入門書を見てびっくりしたのですが、もろに「悪しき統計学ユーザーを生産するための書」になっているように見えた。

本当にびっくりしてしまった‼️

しかもおかしなことが書いていない安心して使える教科書が見つからない。 twitter.com/genkuroki/stat...

タグ：統計

posted at 16:39:23

#統計検定や推定の根拠となる数学的定理の証明まで理解しろと言われると統計学を道具として使える人は非常に限られた人達になってしまいます。だからその要求は厳しすぎ。

しかし、「どのような数学的モデルを使っているか」くらいは意識できないと「悪しき統計学ユーザー」になってしまうと思う。

タグ：統計

posted at 16:35:20

#統計私がやってみせたように、自分で2×2の分割表のオッズ比について「異なる仮説検定ごとに別々の正しい信頼区間」のプログラムを書けば、パラメーター付き数学的モデルM(w)を確定させることを実質強制されるので、信頼区間を理解するための非常によい演習になると思います。

タグ：統計

posted at 16:31:58

#統計統計学入門書での区間推定の説明では、区間推定が使用するパラメーターw付きの数学的モデルM(w)に強烈に依存していることを見せないようにしている点がひどい。

そのせいで、数学的モデルと現実の母集団分布の区別が曖昧になってしまい、ありえないくらい非科学的な感じの説明になっている。

タグ：統計

posted at 16:28:49

#統計信頼区間を「モデルM(w)が有意水準αで棄却されないパラメーターw全体の集合」だと理解しておくことは結構有用。モデルM(w)を強制的に意識させられることになる。

多くの統計学入門書では仮説検定の前に区間推定の説明があるのでこういうクリアな説明になってなくて悲惨なことになっている。

タグ：統計

posted at 16:25:23

#統計一般にパラメーターw付き数学的モデルM(w)の仮説検定が定義されているとき、モデルM(w)が有意水準αで棄却されないパラメーターw全体の集合として信頼係数1-αの「信頼区間」(多次元では信頼領域)が定義可能です。

そのまま実装すればP値と信頼区間の関係がおかしなことになることはなくなる。

タグ：統計

posted at 16:21:15

#統計このスレッドを立てたモチベーションは、#R言語のfisher.testでは独立性のP値が5%を切っているのに、オッズ比の95%信頼区間に独立性を意味する1が含まれる場合があることでした。

Fisher検定に付随する私が書いた信頼区間のコードではもちろんそうならない。 twitter.com/genkuroki/stat...

タグ： R言語統計

posted at 16:17:59

#統計同様の方法で、Yates補正版χ²検定に付随する信頼区間を求める方法は Fisher (1962) に書いてあります。

私のノート

nbviewer.jupyter.org/gist/genkuroki...

では補正無しのχ²検定に付随する信頼区間も実装されています。χ²検定と共に使う信頼区間の決定版。

私のノートではFisher検定版も実装されている。 twitter.com/genkuroki/stat...

タグ：統計

posted at 16:11:17

#統計 ”N-1"版のχ²検定とは、Pearsonのχ²統計量

(ad-bc)N/((a+b)(c+d)(a+c)(b+d)), N=a+b+c+d

のNをN-1に置き換えて、χ²検定を少し「保守的」側に寄せたものです。

#Julia言語での実装例が

nbviewer.jupyter.org/gist/genkuroki...

の{pval, confidence_interval}_chisq_Campbellにあります。

タグ： Julia言語統計

posted at 16:06:50

#統計以下のリンク先達(特にlimit.Rの"added *(nx+ny-1)/(nx+ny))"を見れば分かるように

rdrr.io/cran/PropCIs/s...
rdrr.io/cran/PropCIs/s...

PropCIs::orscoreciが採用している信頼区間の計算法は"N-1"版のχ²検定に付随する信頼区間のようです。ただし1.001倍でずらしながらの計算で誤差が大きめ。 twitter.com/genkuroki/stat...

タグ：統計

posted at 16:03:16

OokuboTact　大久保中二病中年 @OokuboTact

#統計文献紹介

2×2の分割表のオッズ比の信頼区間を求める #R言語のパッケージの比較

besjournals.onlinelibrary.wiley.com/doi/full/10.11...
Graeme D. Ruxton Markus Neuhäuser 2012

この論文では、exact testsの方法ではなく、このスレッドの上の方にも出て PropCIs::orscoreciがよいというtentativeな結論を得ています。

タグ： R言語統計

posted at 15:57:44

OokuboTact　大久保中二病中年 @OokuboTact

毛沢東はスターリンの死後にフルシチョフと大喧嘩して（毛沢東の一方的な喧嘩）、ソ連と絶交してしまう。
そのために中国からソ連の技術者が全員引き上げてしまって中国の工業化は遅れてしまう。

タグ：

posted at 15:52:43

毛沢東はスターリンに似ていると思う。毛沢東がどれほど意識したかは別として。
しかしスターリンはソ連の工業化に成功して、毛沢東は中国の工業化に失敗した。
毛沢東が科学を見くびってユートピア目指してしまったので、ディストピアになってしまった。

タグ：

posted at 15:50:52

#統計実際に小サンプルの場合を計算してみればわかるように、(補正無しの)χ²検定はG検定と違って概ね「保守的」です。有意水準5%で第一種の過誤が起こる確率が6%程度まで稀に上昇する場合もありますが、個人的には許容範囲。

Yates補正版χ²検定やFisher検定はパワーが弱すぎる。

タグ：統計

posted at 15:44:47

#統計 1つ前のツイートの添付画像を見ればわかるのですが、2×2の分割表の独立性に関するG検定(対数尤度比検定)に「保守性」は全くありません！小サンプルでP値が5%以下になる確率が跳ね上がっている。G検定は、これだけは絶対に使っちゃいけないやつ。

タグ：統計

posted at 15:41:46

#統計 P値が5%以下になる確率がほぼ5%程度で稀に4%や6%程度になるのであれば問題ないと思うが、P値が5%以下になる確率が常に1.5%以下とか2%以下になったり、頻繁に7%以上になったりするのは耐えられない。

添付画像はP値が5%以下になる正確な確率のプロット。

twitter.com/genkuroki/stat... pic.twitter.com/2dz2LpCOPc

タグ：統計

posted at 15:39:09

#統計「分割表の独立性検定において、小サンプルではχ²検定ではなく、Fisherの正確検定を使用する」と教えて来た人達は、権威的に文献を引用して根拠にすることなく、そのルールの根拠を提出するか、そのように教えて来たことを謝罪するかのどちらかの態度を取る必要があると思う。

タグ：統計

posted at 15:27:55

#統計別の文献でも、自分でプロットして、Fisherの正確検定の使用に疑問を見出している。

Cochranルールを鵜呑みせずに、自分で計算して調べた人達は似たような結論に。

「保守性」が何よりも重要な場合以外にはFisherの正確検定は特に小サンプルでは使用しない方がよい。

twitter.com/genkuroki/stat...

タグ：統計

posted at 15:25:01

#統計「同様のプロット」については以下のリンク先を参照。ただし、縦軸と横軸が入れ替わっている。

Poisson分布×4だけではなく、四項分布、二項分布×2でサンプルを生成した場合も同様である。Fisherの正確検定でP値が0.05以下になる確率は0.05よりずっと小さくなる。

twitter.com/genkuroki/stat...

タグ：統計

posted at 15:19:01

#統計文献紹介

PPT www.statgenet.med.kyoto-u.ac.jp/StatGenet/lect...
P値から考えるゲノム疫学解析 GWAS2014
山田亮

Rmdのhtml化 www.statgenet.med.kyoto-u.ac.jp/StatGenet/lect...
遺伝子多型のためのp値の話
山田亮

添付画像はこれらより。引用【正確検定ならいつもよい、というわけではない】

同様のプロットは私も行った。 pic.twitter.com/XIpsqcjn7M

タグ：統計

posted at 15:16:21

春にゃ @_ry3s

TypeScript の話をちらほら聞いている限り，Pythonに型が付いても地獄しかなさそうなのでね...スクリプト言語で完全に新しく，緩めの静的型付け言語がほしい．ただ，新しい言語が普及するのには時間がかかるし，Pythonが使われている一部の分野ではJuliaが取って代わるだろうから現実は難しいですね

タグ：

posted at 14:56:17

遠方から参加する方に関しては、旅費・宿泊費を出すこともできます。また、参加には事前に審査があるため、参加資格のところを読んでから以下のフォームでエントリーをお願いします。締め切りは、2020年1月31日です。
docs.google.com/forms/d/e/1FAI...

タグ：

posted at 14:43:55

[拡散希望] 生命科学で利用されるデータベースやデータ解析手法をR,Julia,PythonのパッケージにするBio"Pack"athonというハッカソンを企画しました。これまでは仲間内で小規模にやっていたのですが、来年から参加希望者を募ることにしました。興味がある方は、是非参加登録を！sites.google.com/view/biopackat...

タグ：

posted at 14:43:38

芍薬 @aznayuko

「寄付金がもらえるのなら、その分、政府の支援は減らすべきだ」という意見が自民党などから出ていることに対しては、「寄付金があるから支援を減らすというのは、寄付をしてくれた人に対しての『冷や水』になるので、これだけは絶対やめてほしい」と訴えた。 headlines.yahoo.co.jp/article?a=2019...

タグ：

posted at 12:42:13

残り16件のツイートを見る

KTYD @KTYDRCB

とくにgr()の方のcontourはlevelsを大きい数(40とか)にするとなんかうまく表示されてないような？？
一方pyplot()はlevels=100 でもめちゃくちゃきれいになってる。

タグ：

posted at 12:29:58

KTYD @KTYDRCB

加藤公一, 가토우 기미카즈（はむかず） @hamukazu

juliaのPlots.jlにおける、gr()とpyplot()でcontourしてみたけど、grの方はラインが消えなくて困るな。pyplotのほうがきれいだ。光強度分布プロットなんかによくcontour使うんだけど、これからはpyplotにしよう。。。
#julia言語

タグ： julia言語

posted at 12:26:38

運営元がコミュニティマネージメントにちゃんとコストをかけてるってことなでしょうけど、具体的になにをしているのか謎ですし、うまく回っているのが本当に不思議なんですよね。 twitter.com/taketo1024/sta...

タグ：

posted at 12:02:47

さのたけと @taketo1024

加藤公一, 가토우 기미카즈（はむかず） @hamukazu

逆に StackOverflow や MathOverflow では（僕の知る限り）こういう事態になっていないことから、いかに上手くサービスが設計されてるかを伺い知ることができる🙂 twitter.com/hamukazu/statu...

タグ：

posted at 11:58:45

StackOverflow（英語版）だと、コメント欄に「わかってないなら黙ってろ」と書かれることがあって、あの文化いいなと思った。問題は非専門家には誰がわかってないのかわからないことだが。

タグ：

posted at 11:47:42

optical_frog @optical_frog

ミラーせんせいのやつを少し進めた．(Google Document) docs.google.com/document/d/1xA...

タグ：

posted at 11:39:56

某氏 @bohshi

講談社学術文庫『執権』、軽妙殺伐クレイジーやがて悲しきという感じで大変に面白かったが、一番笑ったのはこのページだろうか。どんなチート知識をもらっても鎌倉にだけは転生してはいけない。 pic.twitter.com/1QZdMGFCdC

タグ：

posted at 10:55:08

ʇɥƃıluooɯ ǝıʇɐs @tsatie

えっ... えっと... (￣◇￣;)... 辛過ぎる... おらの時は倍々ゲームの時やった... 先輩と倍違った... 親子揃って辛いタイミングでまぁなんと言ってよいやら... twitter.com/kou_1970/statu...

タグ：

posted at 10:52:12

あんちもん2 @antimon2

天むす名古屋 Temmus @temmusu_n

Released #hashids for #julialang github.com/antimon2/Hashi...

タグ： hashids julialang

posted at 09:53:10

ごまふあざらし(GomahuAzaras @MathSorcerer

『日本教育新聞』2019年11月4日の紙上Q&Aで【大きなけがが起きていることを知りながら、なぜ組み体操は続けられているのでしょうか。】という質問が。横浜市立川井小学校のある教諭が解答。その一部に【「安全に指導できない」という教師の指導力不足を突き付けられることにもなりかねません。】と。

タグ：

posted at 08:28:07

ごまふあざらし(GomahuAzaras @MathSorcerer

そういうことかーーー pic.twitter.com/D3EYIesZ4E

タグ：

posted at 08:15:42

天むす名古屋 Temmus @temmusu_n

ぁ． pic.twitter.com/PcxofadA0t

タグ：

posted at 08:05:57

ピラミッド組み体操、今年も骨折事故多発　タワー崩れ・着地失敗も | 京都新聞 www.kyoto-np.co.jp/articles/-/70943
2019年度は、京都府内で組み体操による骨折は6件。

タグ：

posted at 07:48:56

毒かえるちゃん @aminah2500

(｢・ω・)｢ｶﾞｵｰ @bicycle1885

『動物のお医者さん』は1990年代初めの北大をモデルにしてたけど、その国立大じだいにすでに予算がなくて機器の修理も消耗品の予算もないので使い捨て酒カップの廃物利用とかしていた。あれはマジだしその時にすでに運営予算足りなかった。今はもっとひどい。日本の学術は終わり。

タグ：

posted at 02:50:44

JuliaのGitHub Actions対応方法調べな

タグ：

posted at 02:10:52

高梨陣平 @jingbay