Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2022年06月07日
並び順 : 新→古 | 古→新

2022年06月07日(火)

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@bampaku おお、それは素晴らしいです!

数学に限らず、「この先を(自分の力で)覗いてみよう」という気分になれた方が、人生が楽しくなるような気がします。

ここ数年、中高の教科書をたまに確認しているのですが、パターンが見える直前でやめちゃっている場合が実に多い。多分、大人の事情でそうなっている。

タグ:

posted at 05:48:09

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 その辺の事情を正直に説明せずに、「小さな世界」「地元で最強」の話になることを強調せずに、統計モデル(ベイズでは事前分布を含む)がデータの生成法則を正しく記述できていることを前提にして、統計的推論によって科学的お墨付きが得られるかのように説明する。

これは非常にまずい。

タグ: 統計

posted at 06:24:19

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 賭け事を設定してS氏に賭けさせて、S氏の主観確率を確定させて、それをS氏が正しいと信じているモデルの事前分布とし、統計分析の目的をリスク函数として設定して、得られたデータの数値から、事前分布を含むそのモデル内での期待リスクを最小化するように統計的推論を行ったとしましょう。続く

タグ: 統計

posted at 06:49:44

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 得られた結果をS氏によるベストの統計的推論だとみなすことについては問題ないと思います。

しかし、当たり前のことですが、その統計的推論の結果がS氏の主観を離れた現実においてどれだけ妥当であるかは別の問題になります。

その問題には、1つ前のツイートの枠組みでは何も対処できない。

タグ: 統計

posted at 06:49:45

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 S氏は正直にこう言わなければいけません。

「自分が主観的にベストな選択をしたモデルがデータの生成法則を正しく記述している場合に限って、自分の統計的推論の結果は妥当である」と。

これが「小さな世界」(←正確な定義はない)の前提です。

タグ: 統計

posted at 06:49:46

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 優秀だと評判のS氏を悪の組織が拉致して、S氏にベストの統計的推論をさせるために、賭け事を設定してS氏に賭けさせることによって、S氏個人の真の主観のもとでの統計的推論を実行させる、というような設定ならば、3つ前のツイートで説明した「決定論」の枠組みは適切だと思います。

タグ: 統計

posted at 06:49:46

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 事前分布を含むモデル内での期待リスク最小化の例として教科書でよく説明されているのは、事前分布でランダムに生成されるパラメータ値の推定法で期待二乗誤差を最小化するものは「事後分布の期待値をパラメータの推定量とすること」です。続く

続く

タグ: 統計

posted at 07:05:28

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 その期待二乗誤差最小化において、データは(事前分布を含む)モデル内の確率分布によってランダムに生成されていると考えます。

つまり、データを生成している真の確率分布はモデル内事前分布とパラメータ付き確率分布だとしている。

添付画像は渡辺澄夫さんの watanabe-www.math.dis.titech.ac.jp/users/swatanab... より。 pic.twitter.com/v6PhQBLkQg

タグ: 統計

posted at 07:05:30

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 注意:「真の分布」は「現実におけるデータの生成のされ方」を意味しない。

統計的推論用のモデルがデータの生成のされ方からずれているときにどうなるかを分析するために(これも不良設定問題)、データがモデルと異なる確率分布で生成されているときどうなるかを見るための設定が「真の分布」。

タグ: 統計

posted at 07:14:26

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 「あらゆるモデルは正しくない」ので、統計的推論用のモデルも正しくないことは当然の前提になります。

正しくないモデルでデータを用いた統計的推論を行ったときに何が起こるかを調べたい。

この不良設定問題にどう対処すればよいでしょうか?続く

タグ: 統計

posted at 07:19:01

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 誰もが思い付く方法は、

 モデルと無関係に確率分布を用意して、
 その確率分布でテストデータをランダムに生成し、
 そのテストデータをモデルに食わせて、
 統計的推論の結果がどうなるかを見る。

このときテストデータを生成した確率分布を「真の分布」と呼ぶ習慣になっています。

タグ: 統計

posted at 07:21:44

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 テストデータで悪いことが起こることが判明した統計的推論の方法は、現実での適用でも要注意だと考えなければいけません。

モデルと統計的推論の方法の組み合わせが現実で妥当であるかは超絶難しい問題なのですが、テストデータを生成して部分的にどういう感じになっているかは確認できる。続く

タグ: 統計

posted at 07:24:53

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 渡辺澄夫さんの『ベイズ統計の理論と方法』では、統計的推論用のモデルと無関係に設定されるテストデータ生成用の確率分布をq(x)と書いて、適当な緩い条件が課された任意の確率分布とされている。

モデルが正しいという前提が使えない人は、テストデータを利用する方法の習得が必須でしょう。

タグ: 統計

posted at 07:28:26

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 統計的推論用のモデルと無関係に設定されるテストデータ生成用の確率分布をq(x)と書いて「真の分布」と呼んでいるわけです。

この習慣は、初学者が躓き易い所だと思うのですが、「真の分布」と書いてあったら、「テストデータ生成用の分布」と読み替えると誤解がなくなると思います。

タグ: 統計

posted at 07:30:54

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 「真の分布」を「テストデータ生成用の確率分布」と読み替えることの利点は誤解がなくなること以上にある。

そのように読み替え続けた人は

 自分で「真の分布」を設定して、
 テストデータをコンピュータに生成させ、
 自分が使う予定のモデル+推論法の挙動を調べてみる

となるでしょう!

タグ: 統計

posted at 07:34:09

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 実際、渡辺澄夫『ベイズ統計の理論と方法』に書いてある結果はどれも、コンピュータを使ってテストデータを(大量に)生成して計算すれば数値的に確認できるものになっています。

数学的証明をフォローするという読み方しかしていない人は、自分に欠けていたことがあることを認識する必要がある。

タグ: 統計

posted at 07:38:28

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 ベイズ的な決定論では、パラメータの推定を事後分布の期待値で行うことが期待二乗誤差最小化の意味で最適になるのですが、それは「小さな世界」での結論に過ぎません。

続く twitter.com/genkuroki/stat...

タグ: 統計

posted at 07:46:22

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 渡辺澄夫さんの本に書いてあるモデルと無関係にテストデータを生成して挙動を確認するという枠組みでは、事後分布の期待値をパラメータの推定値として採用してモデルを使った予測を行うと非常に悪い結果になるリスクがあることが判明します。(『ベイズ統計の理論と方法』p.125, 4.6.1)

タグ: 統計

posted at 07:46:23

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 つまり、S氏が自分の主観内でベストな結果を出す統計的推論法を採用すると、S氏の主観と無関係にデータが生成されている現実世界では酷い目に合うリスクが増えてしまうかもしれないのです。

「小さな世界」で最適な統計的推論法を現実で使うのは結構危険なことのようです。

タグ: 統計

posted at 07:49:43

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 「すべてのモデルは正しくない」ので、モデルと無関係の確率分布でテストデータを生成してモデルと統計的推論法の組み合わせの挙動を確認してみよう、という常識的かつシンプルな話なのに、「真の分布」という用語を独自の主義思想イデオロギーで解釈して奇妙なことを言う人達は恥を知るべき。

タグ: 統計

posted at 07:53:42

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 添付画像は

watanabe-www.math.dis.titech.ac.jp/users/swatanab...
小さな世界と大きな世界
渡辺澄夫

より。この裏には、主義思想イデオロギーと無関係に、コンピュータで数値的に確認できる面白い話題が多数隠れていると思いながら読むと、楽しみが増えると思われます。 pic.twitter.com/kJnYBqXNcZ

タグ: 統計

posted at 08:01:38

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@tchaikovsky1026 渡辺澄夫『ベイズ統計の理論と方法』には、推定用のモデル p(x|θ) で実現不可能な確率分布 q(x) でテストデータを生成したときの最尤法がデータサイズを大きくしたときにどのように振る舞うかについても書かれています。

推定用のモデルp(x|θ)とテストデータ生成用のモデル q(x) は無関係でよいです。

タグ:

posted at 08:06:40

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@tchaikovsky1026 質問の意味が全く理解できないので、もっと正確に説明してくれれば回答可能になるかも、

適当な条件の元で、p(x|θ)がKullback-Leibler情報量の意味でq(x)を最良近似するパラメータ値をθ₀と書くと、q(x)のサイズnの標本から決まる最尤推定量θ̂の分布は、n→∞でθ₀に集中して行きます。

タグ:

posted at 08:24:52

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@tchaikovsky1026 例えば、p(x|θ), θ=(μ,σ)が正規分布モデルなら、任意の分布q(x)のサイズnのサンプルから決まる最尤推定量は、n→∞でq(x)の平均と標準偏差(よく「真の値」と呼ぶ)に収束します。

正規分布モデルの最尤法は正規分布と全く無関係の「真の分布」q(x)に対してもn→∞では有効。

タグ:

posted at 08:31:50

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@tchaikovsky1026 同様のことは、指数型分布モデルについて普遍的に言えます。その内容は本質的に大数の法則の話でしかないです。

大数の法則から、推定用のモデルと「真の分布」が無関係の場合にも最尤法が有効になる場合があるという結果が容易に導かれるという注意はちょっと面白いかもしれません・

タグ:

posted at 08:35:53

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@tchaikovsky1026 指数型分布族モデルは例外的に色々なことがうまく行き過ぎるので、指数型分布族モデルを統計モデルの典型例だと思ってしまうと、複雑なモデルを扱うことになったときに危ない。

しかし、学部レベルでの教育では指数型分布族モデルは基本として大事だと思います。

タグ:

posted at 08:54:57

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 関連スレッド

一般に指数型分布族モデルの尤度函数が持っている情報はこのスレッドトップで紹介したDatasaurusのケースに類似していて、データの特徴の本の一部分を抜き出して要約すると感じになりがち。

しかし、ほんの少しの特徴の抜き出しも役に立つ場合は多いので、そういう意味では大事。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 09:00:16

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 まとめ

統計モデルMによる統計分析内に限れば、データから決まる統計モデルMの尤度函数は「豊富な情報」を持っていると言える。しかし、これは「小さな世界」「地元で最強」の場合の話。

現実の統計分析では、データを尤度函数に要約すると多くの情報を捨て去ってしまうことへの注意が必須。

タグ: 統計

posted at 09:06:11

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@tchaikovsky1026 渡辺さんの本の設定では、テストデータを生成する分布q(x)は固定されておらず、q(x)は適当な緩い条件を満たす任意の分布になります。

任意の分布q(x)でテストデータを生成してもで悪いことが起こり難い統計的推論法は何かという問題が、渡辺さんの本では扱われています。

タグ:

posted at 09:16:20

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@tchaikovsky1026 だから、その任意の分布q(x)の中に、現実の母集団分布が含まれていれば、渡辺さんの本で相対的に安全なことがわかっている統計的推論法をその現実の母集団から得たデータに適用しても相対的に安全なわけです。

渡辺さんの結論は「モデルが複雑な場合にはベイズ法が相対的に安全」です。

タグ:

posted at 09:19:39

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@tchaikovsky1026 コンピュータでテストデータを生成して、モデルと推論法の組み合わせの挙動を見るときには、テストデータの生成の仕方を固定するのですが、渡辺さんの本では任意の「真の分布」q(x)を扱っているので固定していません。

渡辺さんの本を読んじゃえば誤解はなくなると思います。

タグ:

posted at 09:24:45

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 解説

「十分統計量」という用語が聞きなれない人は、

 尤度函数を定数倍の違いを除いて一意に決定する統計量

を十分統計量と呼ぶと考えてよいです(そうしてよい理由がFisherの因子分解定理、そのときの「定数倍」の定数はパラメータに関する定数で、データxに依存していてもよい)。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 10:34:34

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 Fisherの因子分解定理:データxの生成のされ方のモデル化になっているパラメータθを持つ確率密度函数p(x|θ)が、

p(x|θ) = a(x)b(t(x)|θ)

と書けることと、t(x)が十分統計であることは同値である。

十分統計量の定義を知らない人はこの定理の条件を十分統計量の定義だと思ってよい。

タグ: 統計

posted at 10:34:36

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 t(x)が十分統計量で、データの数値xが具体的に与えられたとき、t = t(x) とおくと、尤度函数は

θ ↦ p(x|θ) = a(x)b(t|θ)

と書けます。xは具体的数値なのでa(x)の部分は具体的な数値の定数になり、この尤度函数は定数倍の違いを除いて、

θ ↦ b(t|θ)

に等しくなります。

タグ: 統計

posted at 10:34:36

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 十分統計量の話は、尤度函数を扱う計算をコンピュータで効率よく実装するときには必須の知識です。知らないとまずい。

多くの場合に、尤度函数については定数倍の違いは無視可能。

その場合には内部で十分統計量の値だけを保持すれば尤度函数がらみのあらゆる計算を実行できます。

タグ: 統計

posted at 10:40:18

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 実際に自分で実装して色々なことをコンピュータにやらせると、(対数)尤度函数の実装の良し悪しの計算効率への影響はものすごく大きいです。

逆に「スピード狂」は最適化の過程で十分統計量の概念を独自に発見せざるを得ないと思われます。十分統計量はこの意味でも自然な概念です。

タグ: 統計

posted at 10:44:12

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 正規分布の標本分布モデルでは、標本平均と標本分散の組み合わせが十分統計量になります。

ベルヌイ分布の標本分布モデルでは、試行回数と成功回数の組み合わせが十分統計量になる。

よく使われるデータの要約法は、結構、あるモデルの十分統計量になっていたりします。

タグ: 統計

posted at 10:47:52

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計

リンク先の動画中の「Xの標本平均」「Yの標本平均」「Xの標本標準偏差」「Yの標本標準偏差」「X,Yの相関係数」の組み合わせは、2変量正規分布の標本分布モデルの十分統計量になっています。

データが激しく動いても、十分統計量が変化しない例になっている。尤度函数も変化していない。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 10:52:02

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 以上のように、十分統計量がどういうものであるかの理解はそう難しくないと思うのですが、条件付き確率分布を使った抽象的な定義が壁になって多くの初学者が困惑している様子が見られる。

自分で最尤法を実装して徹底的に最適化すれば、自動的に発見される概念なのにそうなってしまった。

タグ: 統計

posted at 10:55:46

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 十分統計量が【自分で最尤法を実装して徹底的に最適化すれば、自動的に発見される概念】であることは、Fisherの時代でもそうであったと思われます。

コンピュータが使えない時代では計算の簡略化は現代以上に重要なので、十分統計量の概念も当然発見されるだろう、と思います。

タグ: 統計

posted at 11:15:27

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 そこから先の(特に指数型分布族モデルの場合の)完備十分統計量の話を一様最小分散不偏推定(UMVUE)に繋げる話は実践的にはあまり重要でないと思います。

一様最強力不偏検定(UMPU test)も実践的には大して重要ではないと思う。

どちらも「小さな世界」「地元で最強」な話になっている感じ。

タグ: 統計

posted at 11:26:38

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 実践的には絶対に使いそうがないとしても、離散分布モデルでのumpu testの実装はそこそこ非自明で結果の視覚化も(理論通りとはいえ)結構面白かったので、興味がある人には挑戦して欲しいところ。

二項分布や超幾何分布のumpu testの実装+視覚化をやった人がいたら是非とも見せて欲しいです。

タグ: 統計

posted at 11:30:09

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 #Julia言語

私による二項分布モデルでのumpu testの実装が

nbviewer.org/github/genkuro...

にあります。添付画像はumpu検定と正規分布での近似を使った検定の検出力の比較。n=100では性能は似たようなもの。

誰か、Fisherの非心超幾何分布モデルでのumpu testの実装と視覚化を見せて下さい。 pic.twitter.com/x3SADebur9

タグ: Julia言語 統計

posted at 11:48:38

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 この指数型分布族でのUMVUEは「地元で最強」な話の極端な典型例。

Lehmann-Scheffeの定理は「地元のヤンキー俺一人」な定理(笑)。

そもそも、UMVUEのU=不偏性は、統計モデル内で生成された標本のみに通用する不偏性で、データの生成法則がモデルからずれていると不偏でなくなる。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 12:32:41

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 「地元では」(統計モデル内では)不偏な推定量が、「地元から離れる」と不偏でなくなる例が欲しければ、正規分布モデル内での標準偏差の不偏推定量が、正規でない分布の標本について不偏でなくなることを数値的に確認すれば十分です。

コンピュータを使えば作業時間10分くらいで確認できます。

タグ: 統計

posted at 12:34:52

黒木玄 Gen Kuroki @genkuroki

22年6月7日

関連(地元で敵なし♪地元のヤンキー俺一人♫)
twitter.com/genkuroki/stat...

タグ:

posted at 12:39:05

Haruhiko Okumura @h_okumura

22年6月7日

「ゆっくり茶番劇」事件をまねて炎上しようとしているんだと思う twitter.com/toukei_kentei/...

タグ:

posted at 15:12:56

ケレス @1369942

22年6月7日

統計で行う検定は統計的検定
統計の能力を計る資格は統計検定
ってことなのかな。紛らわしいけど仕方ないね……
漢検が漢字能力検定と分かりやすい名前になってるのは素晴らしいなと改めて twitter.com/toukei_kentei/...

タグ:

posted at 16:40:31

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@physics303 @hidekikawahara 通常plan_fftは最初に一回だけ実行しかしません。それで設定されたFFTを繰り返し計算するときには、plan_fftの実行時間は無視できます。

タグ:

posted at 17:39:37

非公開

タグ:

posted at xx:xx:xx

踊るインド人 @ganesha_invest

22年6月7日

統計検定は登録商標ですって twitter.com/toukei_kentei/...

タグ:

posted at 18:18:07

@nan_bayesstat

22年6月7日

「統計検定」の使用が禁じられた近未来の日本、そこではベイジアンのみが栄え頻度論者は弾圧されていた……

タグ:

posted at 18:19:39

Wataru Inoue @Wataru__Inoue

22年6月7日

もともと「統計検定」の商標登録したこと自体は、出願が2019年12月になってるので、たぶん2019夏のpython商標事件を受けての防衛処置なんだろうけど。 twitter.com/toukei_kentei/...

タグ:

posted at 18:24:35

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@physics303 @hidekikawahara FFTWの仕組みについては以下の動画に作者自身による解説があります。30分くらいのところから。すぐに答えを知りたいなら、38分くらいから聴くとよいです。

youtu.be/mSgXWpvQEHE

タグ:

posted at 19:49:27

黒木玄 Gen Kuroki @genkuroki

22年6月7日

#統計 #Julia言語

正規分布のサンプルによる標準偏差の不偏推定量を、正規分布以外の分布のサンプルに適用すると不偏でなくなることの確認。

github.com/genkuroki/publ... pic.twitter.com/xBkVEG6rZW

タグ: Julia言語 統計

posted at 19:57:47

黒木玄 Gen Kuroki @genkuroki

22年6月7日

@mhiro216 「N-1で割るのは不自然なので以降は使いません」と書いてある心理統計の本の著者とタイトルを教えて頂ければうれしいです。

タグ:

posted at 20:13:59

まるまる @EZX2FOFxVpvStIK

22年6月7日

このスレッドのなかで自分的にはこのツイートが一番しっくり来た twitter.com/genkuroki/stat...

タグ:

posted at 20:17:32

yudai.jl @physics303

22年6月7日

@genkuroki @hidekikawahara ありがとうございます!見てみます!

タグ:

posted at 22:08:40

Dr. Tad @tak53381102

22年6月7日

この実験はすごい。ペットボトルで細菌が増える条件を調べている。ポジコン、ネガコンをきちんととって検証している。細菌は麦茶で増え、緑茶で増えないことや気温の変化で増え方を検証している。素晴らしい中学生だ。

www.ncsm.city.nagoya.jp/visit/visitors... pic.twitter.com/muQKMYKtgr

タグ:

posted at 22:31:36

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました