黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2022年06月07日(火)
#統計 その期待二乗誤差最小化において、データは(事前分布を含む)モデル内の確率分布によってランダムに生成されていると考えます。
つまり、データを生成している真の確率分布はモデル内事前分布とパラメータ付き確率分布だとしている。
添付画像は渡辺澄夫さんの watanabe-www.math.dis.titech.ac.jp/users/swatanab... より。 pic.twitter.com/v6PhQBLkQg
タグ: 統計
posted at 07:05:30
#統計 ベイズ的な決定論では、パラメータの推定を事後分布の期待値で行うことが期待二乗誤差最小化の意味で最適になるのですが、それは「小さな世界」での結論に過ぎません。
続く twitter.com/genkuroki/stat...
タグ: 統計
posted at 07:46:22
#統計 添付画像は
watanabe-www.math.dis.titech.ac.jp/users/swatanab...
小さな世界と大きな世界
渡辺澄夫
より。この裏には、主義思想イデオロギーと無関係に、コンピュータで数値的に確認できる面白い話題が多数隠れていると思いながら読むと、楽しみが増えると思われます。 pic.twitter.com/kJnYBqXNcZ
タグ: 統計
posted at 08:01:38
@tchaikovsky1026 渡辺澄夫『ベイズ統計の理論と方法』には、推定用のモデル p(x|θ) で実現不可能な確率分布 q(x) でテストデータを生成したときの最尤法がデータサイズを大きくしたときにどのように振る舞うかについても書かれています。
推定用のモデルp(x|θ)とテストデータ生成用のモデル q(x) は無関係でよいです。
タグ:
posted at 08:06:40
@tchaikovsky1026 質問の意味が全く理解できないので、もっと正確に説明してくれれば回答可能になるかも、
適当な条件の元で、p(x|θ)がKullback-Leibler情報量の意味でq(x)を最良近似するパラメータ値をθ₀と書くと、q(x)のサイズnの標本から決まる最尤推定量θ̂の分布は、n→∞でθ₀に集中して行きます。
タグ:
posted at 08:24:52
@tchaikovsky1026 例えば、p(x|θ), θ=(μ,σ)が正規分布モデルなら、任意の分布q(x)のサイズnのサンプルから決まる最尤推定量は、n→∞でq(x)の平均と標準偏差(よく「真の値」と呼ぶ)に収束します。
正規分布モデルの最尤法は正規分布と全く無関係の「真の分布」q(x)に対してもn→∞では有効。
タグ:
posted at 08:31:50
@tchaikovsky1026 同様のことは、指数型分布モデルについて普遍的に言えます。その内容は本質的に大数の法則の話でしかないです。
大数の法則から、推定用のモデルと「真の分布」が無関係の場合にも最尤法が有効になる場合があるという結果が容易に導かれるという注意はちょっと面白いかもしれません・
タグ:
posted at 08:35:53
@tchaikovsky1026 指数型分布族モデルは例外的に色々なことがうまく行き過ぎるので、指数型分布族モデルを統計モデルの典型例だと思ってしまうと、複雑なモデルを扱うことになったときに危ない。
しかし、学部レベルでの教育では指数型分布族モデルは基本として大事だと思います。
タグ:
posted at 08:54:57
#統計 関連スレッド
一般に指数型分布族モデルの尤度函数が持っている情報はこのスレッドトップで紹介したDatasaurusのケースに類似していて、データの特徴の本の一部分を抜き出して要約すると感じになりがち。
しかし、ほんの少しの特徴の抜き出しも役に立つ場合は多いので、そういう意味では大事。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 09:00:16
@tchaikovsky1026 渡辺さんの本の設定では、テストデータを生成する分布q(x)は固定されておらず、q(x)は適当な緩い条件を満たす任意の分布になります。
任意の分布q(x)でテストデータを生成してもで悪いことが起こり難い統計的推論法は何かという問題が、渡辺さんの本では扱われています。
タグ:
posted at 09:16:20
@tchaikovsky1026 だから、その任意の分布q(x)の中に、現実の母集団分布が含まれていれば、渡辺さんの本で相対的に安全なことがわかっている統計的推論法をその現実の母集団から得たデータに適用しても相対的に安全なわけです。
渡辺さんの結論は「モデルが複雑な場合にはベイズ法が相対的に安全」です。
タグ:
posted at 09:19:39
@tchaikovsky1026 コンピュータでテストデータを生成して、モデルと推論法の組み合わせの挙動を見るときには、テストデータの生成の仕方を固定するのですが、渡辺さんの本では任意の「真の分布」q(x)を扱っているので固定していません。
渡辺さんの本を読んじゃえば誤解はなくなると思います。
タグ:
posted at 09:24:45
#統計 解説
「十分統計量」という用語が聞きなれない人は、
尤度函数を定数倍の違いを除いて一意に決定する統計量
を十分統計量と呼ぶと考えてよいです(そうしてよい理由がFisherの因子分解定理、そのときの「定数倍」の定数はパラメータに関する定数で、データxに依存していてもよい)。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 10:34:34
#統計
リンク先の動画中の「Xの標本平均」「Yの標本平均」「Xの標本標準偏差」「Yの標本標準偏差」「X,Yの相関係数」の組み合わせは、2変量正規分布の標本分布モデルの十分統計量になっています。
データが激しく動いても、十分統計量が変化しない例になっている。尤度函数も変化していない。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 10:52:02
#統計 #Julia言語
私による二項分布モデルでのumpu testの実装が
nbviewer.org/github/genkuro...
にあります。添付画像はumpu検定と正規分布での近似を使った検定の検出力の比較。n=100では性能は似たようなもの。
誰か、Fisherの非心超幾何分布モデルでのumpu testの実装と視覚化を見せて下さい。 pic.twitter.com/x3SADebur9
posted at 11:48:38
#統計 この指数型分布族でのUMVUEは「地元で最強」な話の極端な典型例。
Lehmann-Scheffeの定理は「地元のヤンキー俺一人」な定理(笑)。
そもそも、UMVUEのU=不偏性は、統計モデル内で生成された標本のみに通用する不偏性で、データの生成法則がモデルからずれていると不偏でなくなる。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:32:41
統計で行う検定は統計的検定
統計の能力を計る資格は統計検定
ってことなのかな。紛らわしいけど仕方ないね……
漢検が漢字能力検定と分かりやすい名前になってるのは素晴らしいなと改めて twitter.com/toukei_kentei/...
タグ:
posted at 16:40:31
@physics303 @hidekikawahara 通常plan_fftは最初に一回だけ実行しかしません。それで設定されたFFTを繰り返し計算するときには、plan_fftの実行時間は無視できます。
タグ:
posted at 17:39:37
非公開
タグ:
posted at xx:xx:xx
もともと「統計検定」の商標登録したこと自体は、出願が2019年12月になってるので、たぶん2019夏のpython商標事件を受けての防衛処置なんだろうけど。 twitter.com/toukei_kentei/...
タグ:
posted at 18:24:35
@physics303 @hidekikawahara FFTWの仕組みについては以下の動画に作者自身による解説があります。30分くらいのところから。すぐに答えを知りたいなら、38分くらいから聴くとよいです。
youtu.be/mSgXWpvQEHE
タグ:
posted at 19:49:27
#統計 #Julia言語
正規分布のサンプルによる標準偏差の不偏推定量を、正規分布以外の分布のサンプルに適用すると不偏でなくなることの確認。
github.com/genkuroki/publ... pic.twitter.com/xBkVEG6rZW
posted at 19:57:47
この実験はすごい。ペットボトルで細菌が増える条件を調べている。ポジコン、ネガコンをきちんととって検証している。細菌は麦茶で増え、緑茶で増えないことや気温の変化で増え方を検証している。素晴らしい中学生だ。
www.ncsm.city.nagoya.jp/visit/visitors... pic.twitter.com/muQKMYKtgr
タグ:
posted at 22:31:36