Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2022年04月28日
並び順 : 新→古 | 古→新

2022年04月28日(木)

Hiroshi Shinaoka @HShinaoka

22年4月28日

@MathSorcerer Julia普及のハッカソン(初心者歓迎、対面)を開催すれば面白いかなと思ったり

タグ:

posted at 21:29:07

ごまふあざらし(GomahuAzaras @MathSorcerer

22年4月28日

@HShinaoka ですです.(居住地的な意味でも分野的な意味でも)

タグ:

posted at 21:10:35

Hiroshi Shinaoka @HShinaoka

22年4月28日

@MathSorcerer 離散とはバラバラに活動しているという意味でしょうか?

タグ:

posted at 21:04:00

ごまふあざらし(GomahuAzaras @MathSorcerer

22年4月28日

#Julia言語 面白いんだけれど国内にユーザーが文字通り離散してる

タグ: Julia言語

posted at 20:40:17

黒木玄 Gen Kuroki @genkuroki

22年4月28日

@0kkus0 #統計 しかし、P値と信頼区間の組み合わせを整合性がないものにしてしまうと、P値による検定で棄却されたパラメータ値が信頼区間に含まれてしまうというようなことが起こり、P値と信頼区間の両方を報告しようとした人はばつが悪い思いをすることになる。

どうしてそういうスタイルを採用するのか????

タグ: 統計

posted at 19:05:00

黒木玄 Gen Kuroki @genkuroki

22年4月28日

@0kkus0 #統計 で、既出の

sphweb.bumc.bu.edu/otlt/mph-modul...

で採用している信頼区間は、私なら使いたくないと思うP値函数に対応する信頼区間なのですが、性質が悪いという欠点はありますが、シンプルな式で計算できるというメリット(これも結構重要)があります。

いつでもこの手のトレードオフがある。

タグ: 統計

posted at 19:01:10

黒木玄 Gen Kuroki @genkuroki

22年4月28日

@0kkus0 #統計 個人的な意見では、nが小さい場合には、以上の2つのP値函数の中では、pval_waldではなく、pval_socreの方を使うべき。その理由は、前者ではpが与えられたときに正確な値がわかっているSEをわざわざデータから推定しているから。色々計算して実験してみると性質がかなり悪い感じでした。

タグ: 統計

posted at 18:57:17

黒木玄 Gen Kuroki @genkuroki

22年4月28日

@0kkus0 #統計 2つのP値函数のアニメーション n=100 の場合

nを大きくするとP値の定義の多彩さが気にならなくなります。(全部ほぼ一致するようになる。)

github.com/genkuroki/publ... #Julia言語 pic.twitter.com/TrR36RJdHa

タグ: Julia言語 統計

posted at 18:53:09

黒木玄 Gen Kuroki @genkuroki

22年4月28日

@0kkus0 #統計 ああ、なるほど。

sphweb.bumc.bu.edu/otlt/mph-modul...



P値と信頼区間の表裏一体性を完全に無視した解説

の典型例になっていますね。

その解説でのP値と信頼区間の整合的にするとどうなるかについては

github.com/genkuroki/publ...

を参照。 #Julia言語 による実装付き。

twitter.com/0kkus0/status/... pic.twitter.com/va5lTWkcEw

タグ: Julia言語 統計

posted at 18:50:15

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 #R言語 のexact2x2パッケージのexact2x2やexactciパッケージのbinom.exactは、plot=TRUEをつけて使うとRothmanさん達の超有名な疫学の教科書がすすめているP値函数をプロットしてくれます。

P値や信頼区間を表示するあらゆる統計ソフトにP値函数のプロット機能があってほしいと思います。 twitter.com/genkuroki/stat... pic.twitter.com/yLN3CTXmiX

タグ: R言語 統計

posted at 16:22:13

まるまる @EZX2FOFxVpvStIK

22年4月28日

信頼区間の話でこんがらがってきた時にはこの動画をみてる

youtu.be/vz9cZnB1d1c
45:44~ twitter.com/genkuroki/stat...

タグ:

posted at 16:19:12

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 #R言語 のbinom.testが表示するP値と信頼区間の組み合わせも不整合です。検定法と信頼区間の表裏一体性をこの手の超有名な基本統計ソフトも無視していたりする。

binom.testのその問題はexactciパッケージのbinom.exactを使えば解決します。 twitter.com/genkuroki/stat...

タグ: R言語 統計

posted at 16:16:39

Tomoki@UCLA Biostati @0kkus0

22年4月28日

@genkuroki ご返事ありがとうございます。説明不足申し訳ありません。お聞きしたかったのは以下のリンクにある母比率の推定・検定の場合のことです。sphweb.bumc.bu.edu/otlt/mph-modul...
ただご指摘の通り、一つの検定法と一つの信頼区間の構成法を比較していたのが誤りだということが分かりました。もっと勉強します。

タグ:

posted at 16:15:24

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 どうも、検定法と信頼区間の表裏一体性を無視するという慣習が昔からあるようで、例えば、#R言語 のfisher.testが表示するP値と信頼区間は対応していない組み合わせになっていて、不整合です。その問題を解決するためにexact2x2パッケージが開発された。詳しくは→ academic.oup.com/biostatistics/...

タグ: R言語 統計

posted at 16:12:31

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 入門的教科書や解説の中には、

* ある特定の信頼区間の計算の仕方を単に説明する。
* ある特定のP値の計算の仕方を単に説明する。

になっている場合があって、その特定の計算の仕方しか見えなくなってしまうと、検定法と信頼区間の自明な双対性は見えなくなります。続く

タグ: 統計

posted at 16:06:54

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 分岐

検定と信頼区間が表裏一体で実は完全に同じものだということについて納得できていない場合には、以下のリンク先スレッドのリンク先を見て下さい。

おっそろしく自明な話です。

鉄板で自明な話なのに、どうして入門的教科書に書かれていないかが不思議なくらいです。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 16:02:23

黒木玄 Gen Kuroki @genkuroki

22年4月28日

@0kkus0 #統計 任意に95%信頼区間の計算法が与えられたとき、検定法を「パラメータ値θ₀が信頼区間に含まれていなければ仮説θ=θ₀を棄却し、そうでなければ棄却しない」で定めることができます。

逆向きも可能。

こうなっているので、検定法と信頼区間は完全に同じだと自明に言えてしまいます。 twitter.com/genkuroki/stat... pic.twitter.com/iEG91ww0Q6

タグ: 統計

posted at 15:57:32

黒木玄 Gen Kuroki @genkuroki

22年4月28日

@0kkus0 #統計 検定と信頼区間が自明に表裏一体であることに関する有名教科書群での解説については以下のリンク先の引用を見て下さい。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 15:45:22

黒木玄 Gen Kuroki @genkuroki

22年4月28日

@0kkus0 #統計 いいえ。何を言っているか理解できないのですが、原理的に「いいえ」です。

同一の統計モデルと同一の仮説θ=θ₀について、検定法と信頼区間の構成法はただ一つではなく、沢山あります。

検定での棄却領域を与えることと、すべての信頼区間を与えることが、自明に一対一対応しています。続く twitter.com/genkuroki/stat...

タグ: 統計

posted at 15:43:55

@kankichi57301 @kankichi57301

22年4月28日

そのタイトルは教師が自分の無脳さを吐露してるだけ。
>「教師は模範解答だけ見て合ってるかどうかで採点してるんだから。」 togetter.com/li/1878862#c10...

「「教師は模範解答だけ見て合ってるかどうかで採点してるんだから。」」togetter.com/li/1878862 にコメントしました。

タグ:

posted at 10:21:40

積分定数 @sekibunnteisuu

22年4月28日

記事自体は他愛もない内容だが、冒頭部分から、筆者は、ハジキで教わり、それが世間一般でも当たり前のもの、と思っていることが分かり興味深い

母驚愕! 小学生姉妹の通学時間がリアル“算数の問題”状態に 「あれが現実になるとは…」(Hint-Pot)
#Yahooニュース
news.yahoo.co.jp/articles/5f63c...

タグ: Yahooニュース

posted at 08:16:54

HAYASHI Tomohiro @SokoranoKumasan

22年4月28日

ありがとうございます。マスメディアも「風評被害が問題だ」といいつつ、自分達が積極的に風評を解消しようとはしていない。
むしろ過去の公害病被害者団体を持ち出したり、偏った意見の住民や団体ばかり取材してきた。

書籍ではこうした欺瞞に対し、ファクトを突きつけて告発しなければと考えました twitter.com/Led_OriduruP/s...

タグ:

posted at 07:59:29

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 仮説θ=θ₀のP値は、統計モデル+パラメータ値θ₀の与えられたデータとの整合性の指標の1つです。

多くの場合に、統計モデル+そのパラメータ値ごとにデータとの整合性がどれだけあるかを知りたいものだと思います。それならP値函数をプロットすればよい。

タグ: 統計

posted at 07:45:56

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 信頼区間の本質は、統計モデルのパラメータに関するθ=θ₀型の仮説すべてについてP値を計算することなので、だったら、1つの区間だけに情報量を落とさずに、パラメータ値ごとにすべてのP値をグラフに描いてしまった方がすっきりする、というのがP値函数プロットの基本アイデアだと思います。

タグ: 統計

posted at 07:42:21

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 通常の検定では、統計モデルのパラメータについてθ=0やθ=1のような単独の仮説を扱いますが、信頼区間の場合にはθ=θ₀型のすべての仮説すべてについて一挙に検定行い、棄却されなかったθ₀全体の集合を信頼区間と呼んでいる。

信頼区間の解釈は検定での「棄却されない」の解釈に帰着します。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 07:38:38

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 原論文ではベイズ統計での事後分布をプロットしていて(添付画像②)、私は対応する場合の通常の信頼区間を与えるP値函数もプロットしてみました(添付画像①)。

これらを比較すれば、P値函数と事後分布がほぼ同じような情報を持っていることが分かります。 pic.twitter.com/3F5TSQB2T8

タグ: 統計

posted at 06:19:43

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 余談

添付画像①は論文 www.nejm.org/doi/full/10.10... での事後分布のプロット(添付画像②)の私による再現。

github.com/genkuroki/publ...

私の再現の側では右側のグラフの線が原論文の図よりもなめらかになっています。モンテカルロ法をやめて数値積分で処理した。こういう遊びをたまにやっている。 twitter.com/genkuroki/stat... pic.twitter.com/t4VBwZsh7n

タグ: 統計

posted at 06:16:33

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 Rothmanさんたちの疫学の教科書にあるP値函数のグラフの例 twitter.com/genkuroki/stat...

タグ: 統計

posted at 06:01:26

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 私がプロットしたP値函数のグラフの例 twitter.com/genkuroki/stat... pic.twitter.com/cHTYVI0VNT

タグ: 統計

posted at 05:59:03

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 P値函数のプロットを見慣れるようになれば、P値函数はベイズ統計での事後分布に対応するものなので、P値についてよく理解できたがゆえに、ベイズ統計の道具も抵抗なく使えるようになるようにも思えます。

ここは個人的に結構攻めた発言をしているつもり。実現すれば大変気持ちが良い。

タグ: 統計

posted at 05:56:39

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 Rothmanさんたちの超有名な疫学の教科書では、パラメータごとにP値をプロットしたP値函数のグラフを見れば、統計モデルとパラメータ値の組がどれだけ観測データと整合的かを一挙に知ることができるので、閾値に頼る推論もやめちゃって良いのではないかというような話も書いてあります。

タグ: 統計

posted at 05:52:55

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 P値は

統計モデル+そのパラメータ値



現実世界から得たデータ

の整合性(もしくは適合性)の指標の1つです。

整合性の指標であるP値がある閾値以下か否かを問うのが検定の手続き。(その閾値を有意水準と呼ぶ)

タグ: 統計

posted at 05:49:49

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 P値経由で理解しておけば、信頼区間を計算するときに使ったデータxは固定された数値であっても困りません。

何度もデータを取り直して信頼区間を計算し直すという説明は無用になります。

固定されたデータxと整合性が無さ過ぎると判定されなかったパラメータ値θ₀の全体が信頼区間になる。

タグ: 統計

posted at 05:47:04

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 統計モデルにおける帰無仮説に対応するパラメータ値θ₀を動かして、すべてのθ₀についてデータxによる検定を行なって棄却されなかったθ₀全体の集合が信頼区間になります。

信頼区間はP値で理解すると解釈をし易くなり、実践的にも使い易くなります。

タグ: 統計

posted at 05:42:55

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 補足。データxに関するパラメータθを持つ統計モデルにおける信頼係数1-αの信頼区間(信頼領域)は、その統計モデルのもとでのデータxに関するP値がα以上になるパラメータ値θ₀全体の集合になります。

タグ: 統計

posted at 05:42:55

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 統計学の道具の使用の是非について、All or Nothing 的に考えるのではなく、「モデルが現実にぴったり一致するはずはないので確実に誤差が出る。その誤差を小さく抑えることができれば大丈夫」のように考えるように持って行く必要があると思います。

曖昧で複雑な状況を受け入れる必要がある。

タグ: 統計

posted at 05:35:49

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 正規母集団の仮定抜きであっても、条件が揃えば、正規分布モデルを使用可能になる場合があります。そのときのリスクは誤差が大きくなる可能性があること。

モデルと現実の乖離は分析の誤差増大の原因になるのですが、適当な条件があれば誤差が十分小さくなる場合も出て来る。

タグ: 統計

posted at 05:31:58

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 正規分布モデルを使用可能なことと現実の母集団について「正規母集団の仮定」が必要なことは全然違うことが教えられていない理由は、何度も繰り返して申し訳ないのですが、モデルと現実の混同をしても恥じない習慣ができあがっているから。

タグ: 統計

posted at 05:29:23

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 2群のWelchのt検定やそれに付随する信頼区間は、一応は正規分布モデルから導出はされていますが、中心極限定理が十分に効いている状況なら、母集団分布が正規分布から離れていても使用できます。あの非整数自由度のt分布による補正はnが十分大きければ微小な調節にしかなっていません。

タグ: 統計

posted at 05:26:06

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 一方、以下のリンク先のリンク先資料にもある正規分布モデルを使った分散の区間推定は、現実の母集団分布が正規分布から離れていると全く信用できないものになります。

学部生向けの教科書では同列に並べられている平均と分散の信頼区間では頑健さが全く違う。 twitter.com/umaruyama/stat...

タグ: 統計

posted at 05:21:04

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 例えば、「正規母集団の仮定」を排除して、正規分布モデルを使った統計分析(検定や信頼区間でよい)について教える必要があると思う。

教え方の例:現実の母集団の分布が正規分布から離れていても、正規分布モデルを使った平均についての推定や推論は中心極限定理のお陰でうまく行く場合が多い。

タグ: 統計

posted at 05:16:20

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 以上で述べた学部生向けの統計学入門の世界が非科学的になっているという問題の原因は、「P値を使っているから」のような技術的細部に関することではなく、モデルと現実を完全に切り離して教えていないことが原因だと思います。

タグ: 統計

posted at 05:13:18

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 そういう学部生向けの教科書の非科学的な世界と、複雑な現実に立ち向かうために統計学を有効に活用している人達の世界の間には巨大なギャップがあるように思える。

学部生向けの統計学入門についてはもっと色々試行錯誤があって然るべきだと私は思います。

タグ: 統計

posted at 05:09:26

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 典型的なのは「正規母集団の仮定」です。

実践的な応用の場面でそれを仮定しちゃうとまずそうな超絶強い仮定をして良いかのような解説をしても恥じない習慣ができてしまっている。

そこで、たがが外れているので、幾らでも非科学的な解説をできてしまう。

これはかなり大問題だと思います。

タグ: 統計

posted at 05:06:46

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 統計モデルのパラメータ値のθ₀と現実の母集団における未知の真の値の混同は典型的に非科学的であるにもかかわらず、多くの解説者が非科学的な解説を平気で行う理由は、「現実の母集団の分布が統計モデルに一致する」という都合の良い仮定をして恥じない習慣があるからだと思います。

タグ: 統計

posted at 05:03:58

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計

パラメータ値がθ₀の統計モデルの標本分布で生成した標本から作られる95%信頼区間にθ₀が含まれる確率が95%になります(有意水準と信頼区間の定義からただちに得られる自明な結果)。

そのθ₀を「真の値」と呼ぶ場合には、現実の母集団における真の値とは異なることを強調しないとまずいです。

タグ: 統計

posted at 05:00:19

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 なぜならば、その人は、数学的フィクションである統計モデル内での標本分布に関する話と、現実世界における母集団からの無作為抽出の繰り返しの話を混同しているからです。

現実とモデルの混同については、典型的に非科学的であると言って良いと私は思います。

現実と想像の混同は酷すぎ。

タグ: 統計

posted at 04:52:41

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 もしかしたら、95%信頼区間の95%の説明で標本を繰り返し取り直したい人は、現実の母集団からの無作為抽出を繰り返す様子を想像しているのかもしれませんが、そのように想定して「真の値」という用語を使っているとしたら、論外なレベルで非科学的な考え方をしています。続く

タグ: 統計

posted at 04:49:44

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 まず、95%は数学的フィクションである統計モデル内部で計算される確率です。有意水準5%の5%は確率で、その5%を100%から引いて得られる95%も確率です。

たったそれだけのこと。

数学的フィクション内部での確率なので、標本を取り直さなくても95%という値は出て来ます。続き

タグ: 統計

posted at 04:47:04

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 そのおかしな説明とは

❌95%信頼区間の95%は確率ではなく、割合である。その95%は、標本を何度も取り直して区間を計算し直したとき、真の値を含む区間の割合が95%になることを意味する

の類です。

これが余りにもひどい説明になっている。(しかし普及しまくっている) 続く

タグ: 統計

posted at 04:44:58

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 あと、学部生向けの教科書にある信頼区間に関するおかしな説明をサポートするようなデモンストレーションにならないように気をつける必要もあると思います。続く

タグ: 統計

posted at 04:41:19

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 続き。そういう自明な話を何か非自明で面白いことであるかのように見せることに効果的なデモンストレーションが、沢山の信頼区間を同時プロットすることだと思います。

最終的な着地点が「実はトートロジーでした」であれば説明の途中でそういうデモを行うのも教育的だと思いますが。

タグ: 統計

posted at 04:38:07

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 続き。有意水準が5%だということは、有意水準の定義から、第一種の過誤が起こる確率が5%になる(実際には近似的に5%になる)ということですから、、第一種の過誤が起こらない確率が95%になることは定義から自明なトートロジーにすぎません。続く

タグ: 統計

posted at 04:34:55

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 まず、

帰無仮説のパラメータ値θ₀を持つ統計モデルの分布で標本を大量生成

95%信頼区間も大量計算

θ₀を含む区間の割合を計算

約95%なことを確認



有意水準5%で第一種の過誤が起こらない確率

を求めたことに等しいです。信頼区間側でやると無駄に計算が面倒になるだけ。続く

タグ: 統計

posted at 04:30:50

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 以前は私も以下のリンク先で紹介されているように、サンプルを大量発生させて、信頼区間をサンプルを生成した分布のパラメータ値が含まれる確率=割合を計算したり、沢山の信頼区間を同時プロットして見せることには、何の批判もなかったのですが、現在では少し注意を要すると思っています。続く twitter.com/umaruyama/stat...

タグ: 統計

posted at 04:26:05

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 学部生向けの教科書に典型パターンは、

* 点推定・区間推定の解説が検定の解説の前にあるので、信頼区間の最初の解説でP値や検定との関係に触れることは不可能。

* 検定の解説後も信頼区間の解説に戻ったりしない。

タグ: 統計

posted at 04:21:28

黒木玄 Gen Kuroki @genkuroki

22年4月28日

#統計 これ、全くその通りで、竹村さんの超有名な教科書に限らず「数理統計」と題された教科書には書いてあることなのに、学部生向けの教科書を見ると、P値や検定と全く無関係であるかのような信頼区間の解説が載っている。信頼区間の解釈で悩む人が多いことの主原因の1つかもしれないと思います。 twitter.com/umaruyama/stat...

タグ: 統計

posted at 04:18:40

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました