黒木玄 Gen Kuroki(@genkuroki)/2022年07月10日

黒木玄 Gen Kuroki

@genkuroki

いいね数 389,756/311,170
フォロー 995　フォロワー 14,556　ツイート 293,980
現在地 (^-^)/
Web https://genkuroki.github.io/documents/
自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。

Favolog ホーム » @genkuroki » 2022年07月10日

« 次の日| 前の日 »

並び順 : 新→古 | 古→新

2022年07月10日(日)

非公開

タグ：

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計比率の違いの取り扱いは、違いの大きさの指標となるパラメータをオッズ比に取った場合が数学的には扱い易く、その次が比率の比で、比率の差の場合が最も難しいと思う。

良い性質の比率の差の検定や信頼区間を作るのは難しい。Fishetのz変換を使う方法は超シンプルでよい。

タグ：統計

posted at 23:15:38

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計 WAIC, LOOCV, WBIC, ...と違って、P値の類似物は階層モデルでも数値積分を使わずに計算できる。
↓ twitter.com/genkuroki/stat...

タグ：統計

posted at 23:11:11

黒木玄 Gen Kuroki @genkuroki

22年7月10日

相互リンク twitter.com/genkuroki/stat...

タグ：

posted at 23:06:22

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計このスレッドの話題は、「差はゼロである」という特殊な仮説の検定をできるだけでは不十分で、「差は○○である」という無数の仮説達の検定もできるようにしておくべきだという以下のリンク先の話題に繋がっている。 twitter.com/genkuroki/stat...

タグ：統計

posted at 23:05:56

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計比率の差のWaldの信頼区間とZou-Donner 2004での比率の差の信頼区間(およびそれらに対応するP値函数)の実装例
↓
github.com/genkuroki/publ... twitter.com/genkuroki/stat... pic.twitter.com/QkF7zTZZiD

タグ：統計

posted at 23:02:58

鈴木香里武 @KaribuSuzuki

22年7月10日

どなたか、教えてください‼️
フォロワーさんからこのような動画が届きました。「沼津の海で拾ったのですが、これは何でしょう？」と。
サッパリわかりませぬ💦でも、めちゃくちゃおもしろいですね、これ😆
僕には中国の花巻にしか見えないのですが…硬いそうです。わかる方、いらっしゃいますか？ pic.twitter.com/JZayDtaRbR

タグ：

posted at 22:59:17

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計

ZDは比率の差のZou-Donnet 2004の信頼区間に対応するP値
Waldは比率の差のWald検定のP値
chisqはオッズ比のスコア検定のP値

の第一種の過誤の確率。

github.com/genkuroki/publ...

以下の典型的な場合を見ると、ZDの方がWaldより45度線に近い。ZDの側を使うべき。 pic.twitter.com/ofysHTor0M

タグ：統計

posted at 22:58:28

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計

 scholar.google.co.jp/scholar?cluste...
Zou-Donner 2004

で提案された比率の差の信頼区間に対応するP値函数を実装して、第一種の過誤のモデル内確率を計算してみました。45度線に近い方が好ましいです。

github.com/genkuroki/publ...

典型的な場合
↓ pic.twitter.com/ujIGYtBOC6

タグ：統計

posted at 22:58:26

abap34 @abap34

22年7月10日

大学着ていくからJulia Tシャツ欲しい

タグ：

posted at 21:36:22

黒木玄 Gen Kuroki @genkuroki

22年7月10日

@nouhuhoumei 分析のための公式の問題ではないです。
必要なデータがないと当確予想を出すのは無理。

問題：インターネットで手に入る公開情報だけでどれだけ速く正確に当確予想を出せるか？
↑
これは興味ある問題。

タグ：

posted at 21:34:06

Atsushi Sakai @Atsushi_twi

22年7月10日

Juliaのアンケート答えた。日本語もあって前より答えやすかった。Tシャツ欲しい。 twitter.com/juliacomputing...

タグ：

posted at 21:33:36

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計

⭕️点推定だけではなく、区間推定もしましょう。

と同じように、

⭕️「差はゼロ」の型の特殊な仮説のP値のみを求めるのではなく、「差は○○である」の型の無数の仮説達のP値達も求めましょう。

ということにすればよいのではないか？
↓
journals.sagepub.com/doi/10.1177/02...

タグ：統計

posted at 21:25:13

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計「点推定だけをせずに、区間推定もしましょう」は既に統計学入門の講義でも共通了解事項になっていると思いますが、「差はゼロ」のような特殊な仮説のP値を計算したり検定したりすることも今後は点推定と同じような感じで否定的な扱いをして行くべきではないか？

タグ：統計

posted at 21:19:33

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計論文 journals.sagepub.com/doi/10.1177/02... で提案されていることはシンプルで、

モデル+パラメータ値とデータの数値の
整合性の指標の値全体を
すべて使うようにした方が良い

です。私はこれは非常に自然な考え方だと思います。

タグ：統計

posted at 20:51:25

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計信頼区間であれば、点推定と「差はゼロ」の型の特殊な仮説の検定の問題をある程度避けられますが、モデル+パラメータ値とデータの値の整合性の指標全体が持っている情報を、1つの信頼区間に要約すると多くの情報が失われます。

タグ：統計

posted at 20:49:12

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計点推定では、データの数値との整合性の指標を最大化するパラメータ値を求めているだけ。

「差はゼロ」の型の仮説の検定では、差を意味するパラメータ値0とデータの数値の整合性の指標の1つ(P値)を求めただけ。

データの数値とのパラメータ値の整合性の指標のほんの一部分しか使っていない。

タグ：統計

posted at 20:44:37

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計「差はゼロ」の型の帰無仮説のP値(データの数値との整合性の指標の1つ)のみを計算して「統計的に有意である」「統計的に有意でない」と言うことがある。

そのような結果だけを用いて重要な決定を下すことも、点推定の場合と同じように危険行為です。続く

タグ：統計

posted at 20:40:32

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計点推定は、通常、データの数値との整合性の指標が最大になるパラメータ値を計算することによって行われます。

点推定自体には、データの数値を取り直したときに別の値になることへの配慮がないので、点推定の結果だけを使って重要な決定を下すことは危険行為です。続く

タグ：統計

posted at 20:40:31

ごまふあざらし(GomahuAzaras @MathSorcerer

22年7月10日

私も書きました✏️
皆さんの素直な意見が今後の Julia の発展に寄与することができます． twitter.com/MathSorcerer/s...

タグ：

posted at 20:23:16

TaKu @takusansu

22年7月10日

twitter.com/kayoka_yo/stat...
#超算数教育実習で分数の足し算が怪しくても問題無いと主張する小学校教諭。
小学校教諭に学力を期待するのは絶望的なのか。 pic.twitter.com/LPWFOIp5lN

タグ：超算数

posted at 20:17:05

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計論文 journals.sagepub.com/doi/10.1177/02... は、P値を使った検定はどこでまずいことになっているかについて非常に良い解説になっています。

熟慮にかけた破壊的な批判になっておらず、非常に建設的な提案をしており、教育的にも害のないP値の説明法を提案しています。

タグ：統計

posted at 19:40:36

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計論文

journals.sagepub.com/doi/10.1177/02...

の意味での、compatibilityの日本語訳をどうするべきか悩んでいる。consistencyに近いニュアンスで使われている。

この場合に「互換性」と訳すのはまずいと思う。

「適合性」だと、fitと紛らわしい。

「両立性」または「整合性」が現在の候補。

タグ：統計

posted at 19:33:26

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計最近繰り返し紹介している論文

journals.sagepub.com/doi/10.1177/02...

では

信頼できるかどうかではなく
単に整合性を見ているだけ

という点を分かり易くするために、

❌信頼区間(confidence interval)

ではなく、

⭕️整合区間(試訳、compatibility interval)

という言い方を提案している。

タグ：統計

posted at 19:26:55

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計訂正版再掲

「95%信頼領域」のような言い方に権威を感じてしまう心の持ち方は、非科学的な頭の使い方なので要注意。

やっていることが、非常に大雑把などんぶり勘定であることを見抜かないとまずい。

しかし、現実において、大雑把などんぶり勘定の様子さえ知らずにテキトーにやるのは危険。

タグ：統計

posted at 19:22:59

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計ひどい！これはひどい！訂正します。意味が逆になっている。

❌「95%信頼領域」のような言い方に権威を感じてしまう心の持ち方を潰すことは、非科学的な頭の使い方なので要注意。

⭕️「95%信頼領域」のような言い方に権威を感じてしまう心の持ち方は、非科学的な頭の使い方なので要注意。 twitter.com/genkuroki/stat...

タグ：統計

posted at 19:22:02

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計 P値が最大になる点は単にP値という人為的な基準で測ったデータの数値との整合性が最大になる点に過ぎない。

尤度についても同様のことを言える。

タグ：統計

posted at 19:18:58

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計(w, r)=(4816, 801)でP値函数は極大になっている。

github.com/genkuroki/publ... pic.twitter.com/o8TyaZimJo

タグ：統計

posted at 19:15:21

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計続き。しかし、私がテキトーに定義したP値は真ん中あたりで膨らんでいる。

github.com/genkuroki/publ... pic.twitter.com/bFF8DZQt96

タグ：統計

posted at 19:13:46

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計尤度が真ん中あたりで膨らんでいるかをチェックするために、直線 5000-x : 1000-y = 24 : 26 の上の尤度をプロット。

添付画像を見れば分かるように、真ん中あたりで膨らんでいない。

しかし～続く

github.com/genkuroki/publ... twitter.com/takotakot/stat... pic.twitter.com/qO3WzbtuOF

タグ：統計

posted at 19:12:37

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計統計学はすっきりしない話にすっきりしないが有益な情報を与えてくれる道具。

たとえすっきりしない話でも、繰り返し検証され続ければ、手堅い定説扱いできるようになる。

タグ：統計

posted at 18:39:30

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計統計学によっては、原理的に、科学的御墨付きは得られない。

「統計的に有意」「統計的に有意でない」と言われたときに、「科学的にお墨付きが得られた」と解釈すると非科学的で社会的に有害な人になる危険性がある。

タグ：統計

posted at 18:37:56

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計「95%信頼領域」のような言い方に権威を感じてしまう心の持ち方を潰すことは、非科学的な頭の使い方なので要注意。

やっていることが、非常に大雑把などんぶり勘定であることを見抜かないとまずい。

しかし、現実において、大雑把などんぶり勘定の様子さえ知らずにテキトーにやるのは危険。

タグ：統計

posted at 18:35:38

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計 P値が5%以上の領域を95%信頼領域と呼ぶ。95%信頼領域はこんな感じ。

github.com/genkuroki/publ... pic.twitter.com/p402ZcYgvD

タグ：統計

posted at 18:32:48

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計 P値と尤度のヒートマップを並べてみた。 pic.twitter.com/ef8qiTF5Zd

タグ：統計

posted at 18:30:55

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計 P値が黒くない部分と尤度が黒くない部分が似た領域になっていることが分かる。

P値も尤度も、モデル+パラメータ値(w,r)とデータの数値の整合性の指標とみなされる。

この場合はどちらでも判断してもそう変わらない。 pic.twitter.com/Xz9a6Vm9hX

タグ：統計

posted at 18:28:16

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計これはP値のプロット。

モデルは超幾何分布×超幾何分布で、P値は各々の超幾何分布のClopper-Pearson型P値の積で定義。

github.com/genkuroki/publ... pic.twitter.com/wLRHVKH1eo

タグ：統計

posted at 18:25:28

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計元の話題に戻る。

Aの箱の中に入れた白ビーズをw個、赤ビーズをr個としたときの尤度のグラフ。右上の端の尤度が高過ぎるので頭をちょんぎってヒートマップにしています。

github.com/genkuroki/publ... twitter.com/genkuroki/stat... pic.twitter.com/Nq1N1q4zWv

タグ：統計

posted at 18:21:54

PurPurPurkinje @tak_yamm

22年7月10日

GLMM, Juliaでやる場合はMixedModels.jlを使えばいいんですね．Pythonのライブラリは未だに知らない…
juliastats.org/MixedModels.jl...

タグ：

posted at 17:48:19

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計点推定の結果だけを報告することは非常識で、最悪でも区間推定の結果と合わせて報告する必要がある。

パラメータ値にモデル+パラメータ値とデータの数値の整合性の指標の値を対応させる函数全体のグラフがあれば非常によい。

タグ：統計

posted at 16:52:45

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計モデル+パラメータ値とデータの数値の整合性の指標を作って利用するという立場では、点推定は単に整合性の指標が最大になるパラメータ値を選ぶだけの話になる。

最大にならないパラメータ値も捨てない区間推定の極限の特殊で信頼性の低い方法になる。

タグ：統計

posted at 16:50:28

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計推定については、点推定について自信過剰にならないように説明しないとまずい。

タグ：統計

posted at 16:49:12

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計モデル+パラメータ値とデータの数値の整合性の指標の作る方と使い方をマスターできれば、検定や区間推定は単に整合性の指標に閾値を設けるだけのことに過ぎないということを理解できます。

検定と区間推定の両方を一挙に理解できる。

タグ：統計

posted at 16:46:01

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計私は個人的に「統計的有意」という言い方を可能な限りしないように気をつけています。

「統計的有意」と言われたら、「帰無仮説+背景モデルとデータの数値の整合性がなさすぎると判断しようとしている」と翻訳して対応します。

タグ：統計

posted at 16:43:03

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計 P値をデータとモデルの整合性(compatibility)の指標と見る話については、最近の論文

twitter.com/genkuroki/stat...

が非常に分かり易い。この論文及びこの論文で仕掛けた論争の相手との間で、「統計的有意」という言い方をすることは全面的に止めるべきだという点では意見が一致している。 twitter.com/genkuroki/stat...

タグ：統計

posted at 16:40:40

非公開

タグ：

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計

パラメータ付きの確率分布として記述される統計モデル+パラメータ値

と

データの数値

の整合性の指標には少なくとも、

* P値
* 尤度
* 事後分布の密度函数または質量関数の値

がある。事後分布は定数倍の違いを除いて尤度函数×事前分布に等しいので尤度函数の様子をまずは見ておきたい。

タグ：統計

posted at 16:35:08

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#数楽

これは当然あるべき疑問。極端な位置でない所で尤度函数はどういう様子をしているか？

別の自然な疑問に尤度ではなくP値を見たらどうなるかとかもある。

なにはともあれ計算してみれば答えが分かる。😁

気軽に計算できる道具の使い方をマスターしていると人生の楽しみ😊が増えると思う。 twitter.com/takotakot/stat...

タグ：数楽

posted at 16:15:29

takotakot @takotakot

22年7月10日

もう少し極端「じゃない」値にしていたら、真ん中あたりが極大として膨らむことはあるのかなぁ…

タグ：

posted at 12:52:32

takotakot @takotakot

22年7月10日

よっこらせ…
A, B の中身がそれぞれ 43:7, 24:26 に近い値のときが、生成確率が最も高いかと予想していたんだが、違った。極大でもなかった。
一応 A 4798 ,781, B 202, 219 が近いはずと計算していたのだが…
B が 24, 26 のとき、B から当事象が観測できる確率が1なので、それがかなり強いようだ twitter.com/genkuroki/stat...

タグ：

posted at 12:49:24

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計パラメータ値θ₀に対して、仮説θ=θ₀のP値(背景モデルの下でパラメータ値θ₀とデータの数値の整合性の指標の1つ)を対応させる函数をP値函数と呼びます。

タグ：統計

posted at 11:37:22

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計通常のP値とそのベイズ的類似物の値がよく一致している場合の例
↓ twitter.com/genkuroki/stat...

タグ：統計

posted at 11:34:12

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計しかし、以上の意味での仮説θ=θ₀のP値のベイズ的類似物をすべてのθ₀について見ることは、パラメータθの事後分布全体を見ることと本質的に同じです。

そこを理解できれば、P値の類似物を計算するまでもなく、θの事後分布全体をプロットした方が早い、と思うかもしれません。😊

タグ：統計

posted at 11:30:37

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計続き。最初にやっておくべきことは、通常のP値が定義されている場合での、通常のP値と対応するベイズ版のP値の類似物の値の比較です。

モデルがシンプルで、事前分布がおとなしめで、データサイズが十分大きいならば、通常のP値とそのベイズ的類似物の値は結構近くなることが分かるはずです。

タグ：統計

posted at 11:30:37

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計続き

MCMC法で事後分布のサイズLのサンプル

(θ(1), η(1), …), …, (θ(L), η(L), …)

が得られているならば、大数の法則より、

事後分布においてθ≤θ₀となる確率 ≈ θ(i)≤θ₀となるiの個数/L

となることなどを使って、P値の類似物を簡単に計算できます。続く

タグ：統計

posted at 11:30:36

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#統計モデルのパラメータθに関する仮説θ=θ₀の(両側検定の)通常のP値のベイズ統計での類似物として、

min(1, 事後分布においてθ≤θ₀となる確率の2倍, 事後分布においてθ≥θ₀となる確率の2倍)

が取れます(別の変種もある)。

MCMC法で事後分布のサンプルが得られているならば、～続く twitter.com/cakkby2/status...

タグ：統計

posted at 11:30:35

Stefan Karpinski @StefanKarpinski

22年7月10日

* got = git

タグ：

posted at 03:00:00

Stefan Karpinski @StefanKarpinski

22年7月10日

Glad that this can’t happen in #JuliaLang: packages are served by the pkg server network which persists all registered package versions and artifacts so even if the origin got repo disappears, old versions can be installed forever twitter.com/balloob/status...

タグ： JuliaLang

posted at 02:55:47

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#Julia言語アンケートに答えた。 twitter.com/juliacomputing...

タグ： Julia言語

posted at 01:39:48

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#Julia言語 Juliaであらゆる型の内容を持つデータを扱うときには工夫が必要で、そういう工夫はDataFrames.jlなどで行われています。

タグ： Julia言語

posted at 01:24:48

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#Julia言語内容の型の組み合わせが固定されていないタプルを引数とする函数を多彩なタプルについて実行すると、コンパイルの回数が増えることが原因で(型安定でも)激遅になることがあります。

激遅にするための必要最小限のコードを公開すればきっと誰かが解決してくれる。コードの公開重要。

タグ： Julia言語

posted at 01:21:21

黒木玄 Gen Kuroki @genkuroki

22年7月10日

#Julia言語

配列やタプルの配列であるという理由で激遅になることはないです。

型不安定(型の伝搬がうまく行っていない状態)になると激遅になることがあります。

内容の型や長さが固定されていないタプルは要注意。

@ code_warntype や @ code_typed などで繰り返し確認することが重要。 twitter.com/stunniita/stat...

タグ： Julia言語

posted at 01:18:24