Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2020年11月01日
並び順 : 新→古 | 古→新

2020年11月01日(日)

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 数学が苦手な人は、確率空間を与えることは、「確率とは何か」という問題を避けて、単に確率の数値の表(もしくはその連続版の確率密度函数)を与えることに過ぎない、と了解しておけば、変な誤解を防げると思います。

あと、上でのサイコロの例のように具体例を必ず考えておくことも大事。続く

タグ: 統計

posted at 00:01:52

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 現実に得られるデータが何らかの確率法則で生成されていると想定することを、確率空間の概念を用いて定式化することは、確率法則を生み出す仕組みには一歳触れずに、「確率の数値の表」(もしくは同類のものの一般化)のみによって定式化することだと思っておけばよいと思います。

タグ: 統計

posted at 00:12:47

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 確率空間(単なる「確率の数値の表」の一般化)を考えることと、データの背後にデータを生成した未知の法則を想定することは全然違う話なので、その辺を明瞭に区別するように読者は注意するべきだと思います。

特に数学が得意じゃない人はその点に気をつけるべきです。

タグ: 統計

posted at 00:12:49

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以上において、重要なポイントは「データを生成した未知の法則」という言い方の「未知の」の部分です。

「データを生成した未知の確率法則」を「確率の数値の表」で定式化する場合には、「その数値の表は未知である」と想定する必要があります。

この点もこの本を読むときには要注意な点です。

タグ: 統計

posted at 00:16:58

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以上、長くなってしまいましたが、ツイッターでは繰り返し述べていることを、ここでも繰り返しただけです。

「また、あの話かよ!」と思った人には、ごめんなさい。

他人が書いた本にコメントするふりをして、自分が言いたいことを言うスタイル(笑)

タグ: 統計

posted at 00:19:50

黒木玄 Gen Kuroki @genkuroki

20年11月1日

全然先に進まない。

このスレッドの長さは数百オーダーになる予感。

タグ:

posted at 00:24:18

春 @sunbluesome

20年11月1日

Juliaの練習を細々続けてる。
最適化もクソもないコードでもとりあえず動くのが良い。

色が逆転してしまったが...
左:Kernel KMeans
右:Spectral Clustering
Spectral Clusteringは分け方で結果変わるからなんとも言えないけど、うまく分れたなー。 pic.twitter.com/szyj6X21I1

タグ:

posted at 00:37:43

春 @sunbluesome

20年11月1日

Juliaの勉強というより、カーネル法の勉強にJuliaを使ってる。
手段と目的が入れ替わった言い方をしてしまった。

タグ:

posted at 00:39:11

きゅーしす @Queue_sys

20年11月1日

Juliaでgifを作ってみた pic.twitter.com/Cs5LPQRal1

タグ:

posted at 00:45:17

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 記号の使い方についての注意

p.27以降ではX,Yをそれぞれ身長と年齢を表す確率変数としています。

一方、p.14では、n人の学生の身長と年齢の標本共分散を Cov(X, Y) と書いています。

読者は、確率変数X,Yの共分散とp.14での標本共分散を混同しないように注意が必要です。続き

タグ: 統計

posted at 00:46:58

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 統計学の初学者の多くは

①確率変数達の平均や分散や共分散



②標本における平均や分散や共分散

を混同します。

確率空間の定義に「標本空間」という用語が出て来ることもこの混乱を増幅していると思う。

そして何よりも解説している側が十分に慎重になり切れていないことが問題。続く

タグ: 統計

posted at 00:46:59

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 「その辺についても分かり易い教科書をお前が書け!」とか言われたりするのは結構悪夢かも(笑)

統計学は色々ややこしいので、致命的にひどい説明をせずにすべてを切り抜けることができると想定することは私には不可能。

タグ: 統計

posted at 00:49:18

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 例えば、S市の中学1年生男子の身長について統計分析したいとします。

想定①

S市の中学1年生男子達の身長はすべて確定した数値であると想定し、n人の無作為抽出で身長のデータを得る、という設定を考えるときには、S市の中学1年生男子達全員分の身長の数値は確定しているが未知であり~続く

タグ: 統計

posted at 01:10:00

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 続き~、無作為抽出の段階で確率的な選択が導入され、未知の確率法則の定式化として、数値が未知の身長全体の数表から、ランダムにn人分の数値が抽出されたという設定を使えます。

続く

タグ: 統計

posted at 01:10:01

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計

想定②

S市の中学1年生男子各々の身長が何らかの未知の確率法則によってランダムに決まっていると考えることもできます。この場合には、連続的な未知の確率分布を数学的に想定して、S市の中学1年生男子全員分の身長の数値はその確率分布のサイズNのサンプルになっているのように考える。

タグ: 統計

posted at 01:10:04

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以上の想定①と②では、未知の確率法則の数学的定式化が違っています。さらに別の想定を考えることもできます。(そして、以上の説明で曖昧にすませた部分のギャップを埋めることもできる(笑))

データが未知の確率法則で生成されているという想定自体に無数の可能性がある点にも気をつけるべき。

タグ: 統計

posted at 01:10:05

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 p.31にも非常にまずそうな説明の仕方を発見!

さすがに【確率変数が持つ分布を特徴付ける値を、その期待値~という】という言い方は非常にまずい。

確率変数Xの分布はその函数の期待値𝔼(f(X))の全体で特徴付けられる、なら意味が通っていた。

続く pic.twitter.com/VCbB3AOYQ7

タグ: 統計

posted at 01:30:18

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 続き。一般に、母平均μ=𝔼(X)や母分散𝔼((X-μ)²)のような有限個の値で確率変数Xの分布は一意に特徴付けられないという点も徹底的に強調するべき重要なポイントです。

なぜならば統計学入門の教科書におけるパラメトリック統計の説明がその点に無頓着である場合が多いからです。

タグ: 統計

posted at 01:33:24

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 p.31での期待値に関する非常にまずい説明の仕方の直後のp.31の終わりに2行からその次のページ(添付画像)にかけて、上で私も説明した重要なことが説明されています。

データを生成した未知の確率法則を想定するときの確率法則は未知であるという当たり前の話がやっとここで説明されている。 pic.twitter.com/1Ik0VRiC7C

タグ: 統計

posted at 01:42:03

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 この本は説明のまずい点のギャップを埋めずにまともに理解することは不可能な本だと私は思いました。自分で訂正してギャップを埋めて読む人向けの本でしょう。(そういう本は数学の本では結構あります。)

タグ: 統計

posted at 01:48:50

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 説明の仕方にまずいところはあっても、この本の著者と私の間では「統計学入門の教科書の解説がひどい」という意見では一致する可能性もあるのではないかと、以上で紹介した部分を見て思いました。

「主観確率」の「ベイズ主義」でベイズ統計について語っている部分が残念です。

タグ: 統計

posted at 01:51:45

U_M_V_U_E @U_M_V_U_E

20年11月1日

母平均が確率分布の中心を与える…?

「特徴付ける値」は母数ですね。

色々と、、誰向けの本? twitter.com/genkuroki/stat...

タグ:

posted at 01:52:39

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 2-2-3節では「データの生成のされ方を未知の分布に従うの独立同分布確率変数列で定式化する」という数学的な扱いが易しくなる設定について説明している。

実践的な統計分析ではそれですまない場合が多いので、私なら「簡単のため」の仮定だと言ってしまいます。続く

タグ: 統計

posted at 02:01:36

黒木玄 Gen Kuroki @genkuroki

20年11月1日

続き。脱線。

「簡単のために」という言い方を「我々」はよくするのですが、多くの人がその言い方に違和感を感じて文句を言っている、という面白い話があります。検索すると結構楽しめると思います。

脱線終わり。続く

タグ:

posted at 02:01:37

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 本当は、【ヒュームが「自然の斉一性」と呼んだもの】の具体的な内容を独立同分布確率変数列(私は大文字で書くのは嫌いでi.i.d.と略す)のような狭い枠組みに押し込めることが、正しい考え方であるかどうかは、議論があって然るべき点です。

だから私は「簡単のために」と言いたくなる(笑)。

タグ: 統計

posted at 02:05:46

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 pp.33-35の2-2-4のポイントは(適当なゆるい条件を満たす)未知の分布に従う長さnの独立同分布確率変数列X_1,…,X_nについては、分布が未知のままであっても、標本平均(←これも確率変数になる)の分布のn→∞での様子について普遍的な数学的法則があることです。

タグ: 統計

posted at 02:23:17

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 未知の確率法則を未知だとみなしたままであっても使える普遍的な数学的定理があることが重要。

そういう数学的定理のお陰で、未知の確率法則でデータが生成されているという想定のもとでの、統計的推論・推測・推定が可能になる。

この部分は哲学用語の味付け無しに理解しておくべき部分です。

タグ: 統計

posted at 02:30:07

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 もちろん、数学的想定から数学的議論で何が可能であるかをクリアに理解した後に、それを哲学的な味付けのもとで合理的に解釈する自由はあります。

しかし、最初は身もふたもないほどクリアな議論で理解しておくべき重要な事柄。

タグ: 統計

posted at 02:30:10

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 私も引用した『統計学を哲学する』のp.31を見て、ちょっと辛い気持ちになりました。

この本は非常に売れているようなので、そういう点については害が生じることを我々は覚悟する必要があるかもしれません。 twitter.com/u_m_v_u_e/stat...

タグ: 統計

posted at 02:33:46

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 pp.35-37での「統計モデル」の説明にコメントする前に、私が繰り返し述べて来た事柄について説明します。続く

(pp.35-37の意味での「統計モデル」はみんなが「統計モデリング」と言う場合の統計モデルとほぼ同じ意味だと思って構いません。この点は「確率モデル」という用語法のまずさとは違う)

タグ: 統計

posted at 02:55:55

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 簡単のために(笑)、データは未知の分布q(x)(←確率密度函数)に従う長さnの独立同分布確率変数列として生成されていると想定している場合を考える。

そのときデータ(=長さnの独立同分布確率変数列)の確率密度函数は

q(x_1)…q(x_n)

になり、これがデータの未知の生成法則の定式化になる。続く

タグ: 統計

posted at 03:11:02

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 我々は、そのデータの未知の生成法則を推測したい。

その目的のために、分析用のモデルとして既知の確率分布を使って書けるパラメータw付きの確率分布

p(x_1,…,x_n|w)

を用意して使う方法がよく使われています。続く

タグ: 統計

posted at 03:11:04

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 想定しているデータの未知の生成法則の確率密度函数は

q(x_1)…q(x_n)

の形(i.i.d.を与える)だが、分析用のモデルの確率密度函数をそれよりも一般的な

p(x_1,…,x_n|w)

の形にしたことは、ベイズ統計の理解では決定的に重要!続く

タグ: 統計

posted at 03:12:04

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 続き。なぜならば、ベイズ統計では、パラメータw付きの確率密度函数p(x|w)とパラメータwの確率密度函数φ(w)を具体的に与えて、分析用のモデルの確率密度函数を

p(x_1,…,x_n) = ∫p(x_1|w)…p(x_w)φ(w)dw

の形で与えることが多いからです(簡単のためハイパーパラメータ無しの場合にしてある)。

タグ: 統計

posted at 03:16:41

totoro @haniosu_puyo

20年11月1日

若干時間かかる系の分野でもあるし普通にpythonでやってもつまらないのでjuliaでやってみようかなみたいな気分になってきた

タグ:

posted at 03:18:14

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 分析用のモデル

p(x_1,…,x_n) = ∫p(x_1|w)…p(x_w)φ(w)dw

はもはや、想定していたデータの未知の生成法則

q(x_1)…q(x_n)

とは違って、i.i.d.の確率密度函数にはなっていません。

それにも関わらず数学的に良い性質のお陰でベイズ統計は役に立つことが知られているわけです。続く

タグ: 統計

posted at 03:19:22

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ベイズ統計をまともに理解するためには、想定しているデータの未知の生成法則とは異なる型のモデルを用いることにも数学的合理性があることを数学的に理解する必要があります。

その点を「主観確率」や「ベイズ主義」と言った用語の使用で何とかしようとするとシンプルにアウトになります。続く

タグ: 統計

posted at 03:22:22

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ベイズ統計における分析用のモデル内における仮想的なデータ生成法則の密度函数

p(x_1,…,x_n) = ∫p(x_1|w)…p(x_w)φ(w)dw

におけるパラメータwの確率分布φ(w)はよく事前分布(prior)と呼ばれているものです。役に立てば何でもよくて、主観の表現だと解釈する必要は全くない。続く

タグ: 統計

posted at 03:25:24

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 q(x)やp(x|w), φ(w)という記号法は、渡辺澄夫著『ベイズ統計の理論と方法』の記号法をそのまま流用しています。

現時点では、i.i.d.の想定でのベイズ統計の設定について、最もクリアに書かれている教科書なので、是非とも参照して欲しいと思います。

タグ: 統計

posted at 03:28:34

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 添付画像に「統計モデル」に関するp.36の説明を引用しておきます。

この部分の説明は結構良いと思いました。

しかし、統計モデルを「確率モデルにさらなる仮定を加え」たものだと説明しているのは、2つの意味で誤解を招きかねないと思いました。続く pic.twitter.com/5f67VXwQfy

タグ: 統計

posted at 03:36:01

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 1つ目は「確率モデル」という用語法が悪過ぎて、読者が誤解する可能性が高いように思えることです。「確率モデル」と「統計モデル」を区別させるのは苦しい。

略してサボらずに、「データを生成していると想定している未知の確率法則の数学的定式化」のように長くしつこく言えば良いと思う。

タグ: 統計

posted at 03:36:04

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 2つ目。「確率モデル」=「データを生成している未知の確率法則に関する想定」にさらに仮定を加えたものを「統計モデル」と呼ぶ方針だと、データを生成している未知の確率法則に関する想定における密度函数

q(x_1)…q(x_n)

と統計モデル内におけるデータ生成法則の密度函数が同じ形で~続く

タグ: 統計

posted at 03:43:56

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 続き~、

p(x_1|w)…p(x_n|w)

の形をしていなければいけないかのようになってしまいます。ここでq(x)は未知の確率密度函数で、p(x|w)はパラメータwを持つ既知の確率密度函数です。

このように制限するとベイズ統計の方法が排除されてしまいます。

タグ: 統計

posted at 03:43:59

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 想定しているデータの生成法則(未知)には、原理的に決して一致することがないモデル(既知の確率分布で記述)を統計分析用に用いるというアイデアは非常に重要です。

タグ: 統計

posted at 03:50:44

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 事前分布の使用はそのアイデアの特殊な場合だし、ベイズ統計の技術を使って、

実際には値が確定していたが値の記録が残らなかったと想定している数値が分析用のモデル内部では確率分布していると考える

という方針もアイデアの特別な場合とみなせます。

タグ: 統計

posted at 03:50:47

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 現実に使われている統計学の技術について、クリアな解説を書きたければ、役に立つ統計分析用のモデルは、データを生成していると想定している未知の確率法則にさらに仮定を付け加えてできるものだけではない、と最初から強調しておく必要があります。

タグ: 統計

posted at 03:54:55

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 pp.231-236の参考文献には、

* 渡辺澄夫著『ベイズ統計の理論と方法』(2012)



* 浜田宏他著『社会科学のためのベイズ統計モデリング』(2019)

のどちらも含まれていない。

タグ: 統計

posted at 04:04:25

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 p.30には、確率と確率密度の使い分けにあまり拘らずに

【両者をともに「確率」と統一的に呼ぶことにし、P(X=x)はXが離散の場合は値xの確率、連続の場合はその確率密度を表すことにする】

と書いてあるが、そういう手抜きは読者のためには、やめた方がよかった。pp.38-41を見てそう思った。

タグ: 統計

posted at 04:12:24

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 pp.41−42より

データを生成していると想定している未知の分布(本の中では「確率モデル」)における相関係数は母相関係数と呼ぶが、それとは完全に区別するべき統計モデルにおける相関係数はパラメータと呼ぶ方針ではなかったのか?

ここはちょっとひどすぎるかも。 pic.twitter.com/rTdulaA2ot

タグ: 統計

posted at 04:34:12

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 もう疲れ切ったので、pp.43-49はとばしてしまおう。

コメントするべき部分があると主張したい人は私が見える場所でコメントしてくれると助かります。

とばすことにすれば、次は【第2章 ベイズ統計】です😊

タグ: 統計

posted at 04:37:33

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 このスレッドに書いていることは、私がいつもしている話そのものなので、過去の発言をツイログで検索すれば、このスレッド内での説明不足の部分を補える可能性があります。

twilog.org/genkuroki

タグ: 統計

posted at 04:40:57

Tom Kwong @tomkwong

20年11月1日

Which do you prefer for returning nothing from a Julia function? #JuliaLang

タグ: JuliaLang

posted at 04:41:39

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 もしかして、私はp.36の説明を好意的に読み過ぎている? twitter.com/genkuroki/stat...

タグ: 統計

posted at 04:44:06

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 p.36の説明は非常の重要だと思ったので、以下のリンク先で引用しました。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 04:45:11

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 この本をいち早く購入してすでにツイッターに読んだ感想のスレッドを書いている人がいるが、その感想に理解は伴っているのだろうかと思いました。

このスレッドで紹介した部分の説明が雑なことは明らかで、そういう説明でどれだけの読者が正確に理解できたのだろうか?私には理解不能だった。

タグ: 統計

posted at 04:48:32

非公開

タグ:

posted at xx:xx:xx

Ben Bond-Lamberty @BenBondLamberty

20年11月1日

@AditiSG No. I keep reading about it, though, and am tempted! Cousin-wow cool 😎

タグ:

posted at 05:44:24

ceptree @ceptree

20年11月1日

おーすごい

【回路×Python】線形回路解析パッケージLcapyを使えるようにする方法
qiita.com/akikazu/items/... pic.twitter.com/fnE1BiDVAp

タグ:

posted at 06:10:55

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 多くに学生が統計学入門の教科書を読んで感じる疑問は、

データを取得した母集団の分布は不明のはずなのに、母集団分布が正規分布になっていると仮定してよいのか?

です。正解はダメに決まっているです。続く

タグ: 統計

posted at 06:16:22

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 続き。データを取得した母集団の分布は不明のままとした上で、分析用のモデルとして正規分布モデルを採用すると考えなければいけない。続く

タグ: 統計

posted at 06:16:23

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 続き

①データを生成した未知の法則に関する想定



②統計分析用に用いるモデル内の想定

は厳密に区別しないとダメです。

①の想定に新たな仮定を加えたものを②の想定だと考えてしまうと、①と②の区別が曖昧になり、非科学的な考え方になってしまいます。

タグ: 統計

posted at 06:19:22

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 事前にデータを生成している法則についてよく分かっている場合は違いますが、そうではない一般的な状況においては「データを生成した確率法則は正規分布になっている」とすることには根拠がなさすぎになります。続く

タグ: 統計

posted at 06:34:55

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 それに対して、正規分布モデルの妥当性について根拠がないことを知りながら、試しに正規分布モデルを使った推測結果を計算してみるという行為には合理性があります。

推測結果を発表するときにも、正規分布モデルが妥当だという根拠はないと正直に言わなければいけない。続く

タグ: 統計

posted at 06:34:55

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 続き。さらに、想定している未知の法則が正規分布からずれていても、分布の近似に関する数学的な根拠によって、正規分布モデルによる推測の誤差が実用的に十分な範囲内に収まる可能性が高いならば、そういうこともしっかり説明しておくべきでしょう。

タグ: 統計

posted at 06:34:56

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 続き。実際にコンピュータで数値実験してみると、中心極限定理が効けば誤差が小さくなるような仕組みの推定においては、推定先の未知の分布が正規分布から大きく離れていなければ誤差は小さくなります。

タグ: 統計

posted at 06:34:57

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 しかし、推定先の未知の分布が、左右対称形でないせいで、正規分布から大きく離れている場合には、中心極限定理が来にくくなって誤差が許容範囲を超えてしまうことになります。

タグ: 統計

posted at 06:34:58

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 各分野の専門家であれば、分野固有の専門知識と以上で述べたような数学の知識を使えば、正規分布モデルを用いた分析の誤差がどういう感じになりそうか大体分かる場合もあると思われます。

誤差が小さくなる公算が高ければ正規分布モデルの使用は科学的に十分合理的だと分かるわけです。

タグ: 統計

posted at 06:34:59

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以上のストーリーでは、「データを生成したと想定している未知の分布が正規分布からずれていたときに、正規分布モデルによる統計分析の結果の誤差がどうなるか?」と考えることができたので、科学的な合理性を保つことができました。

タグ: 統計

posted at 06:37:06

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 しかし、正規分布の統計モデルを考えることが「データを生成していると想定している未知の分布は正規分布になっていると仮定すること」ならば、以上のストーリーは最初から起こり得ず、科学的に真っ当な分析への道は閉ざされてしまうことになります。

タグ: 統計

posted at 06:39:18

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以前にも述べたように、以上で述べたような事柄について統計学入門における正規分布の仮定はお寒いものになっています。(具体例として東京大学教養学部統計学教室編『統計学入門』を取り上げた。)

タグ: 統計

posted at 06:43:04

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 上のストーリーを一般化を、渡辺澄夫著『ベイズ統計の理論と方法』の記号と用語を使って説明すると、勝手に真の分布q(x)がモデルp(x|w)によってぴったりq(x)=p(x|w₀)の形で書ける(実現可能)と仮定してはいけない、ということ。モデルで真の分布がぴったり実現可能でない場合も考慮するべき。

タグ: 統計

posted at 07:01:11

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 一般読者のための資料

データ(サイズnのサンプル)を生成した分布が分析用のモデルで実現できない場合のフィッティングの様子

ソースコード↓
nbviewer.jupyter.org/github/genkuro...

データはガンマ分布で生成
正規分布モデルでフィッティング pic.twitter.com/PJXmgKKpgQ

タグ: 統計

posted at 07:28:26

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計

正規分布モデルによるフィッティングは標本平均と標本分散の計算と実質的に同じ。

Laplace分布モデルによるフィッティングは標本の中央値の計算を含む。

標本の代表値の計算は統計モデルと関係有り。

nbviewer.jupyter.org/github/genkuro...

データはガンマ分布で生成
Laplace分布モデルでフィッティング pic.twitter.com/vnYK9vos49

タグ: 統計

posted at 07:28:30

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計

動画の右半分は尤度函数のヒートマップです。

nbviewer.jupyter.org/github/genkuro...

データは2つ山の混合ガンマ分布で生成
単なるガンマ分布モデルでフィッティング pic.twitter.com/M6f49rSOTS

タグ: 統計

posted at 07:28:33

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以上で用いた統計モデルは指数型分布族なので、特に常に正則モデルになります。サンプルサイズnを大きくしていくと、尤度函数の形は多変量正規分布に近付き、尤度函数の台もどんどん小さくなって行く。

こういうことは正則モデルでは普遍的に起こる。
これが最尤法の数学的基礎です。

タグ: 統計

posted at 07:28:34

Masa Yamamoto予測誤差が大き @mshero_y

20年11月1日

基本中の基本であり忘れてはいけない前提。
ところが最近気づいたのは、深層学習では実現可能なんです、と語る人たちがかなり多くいること。
いわゆるコンサルや評論の方々の中にはかなりの数の人たちが'実現可能'というか深層学習は実現していると考えているよう。
話が合わない理由の一つ twitter.com/genkuroki/stat...

タグ:

posted at 08:58:03

Masa Yamamoto予測誤差が大き @mshero_y

20年11月1日

最近はベイズという名がついた書物、章を読むのが怖い… twitter.com/genkuroki/stat...

タグ:

posted at 09:22:30

Masa Yamamoto予測誤差が大き @mshero_y

20年11月1日

たぶん、この部分が当たり前だと頭に入ってくる人と、それは数学的な前提であって数学はよくわからんからと屁理屈でソッポを向く人とがいるんだなと最近理解が深まっている twitter.com/genkuroki/stat...

タグ:

posted at 09:40:59

(「・ω・)「ガオー @bicycle1885

20年11月1日

急に警察官が訪問してきて心臓飛び出た。

タグ:

posted at 11:02:59

(「・ω・)「ガオー @bicycle1885

20年11月1日

「巡回連絡カード」なるものを持ってきた。なんだこれ?
www.keishicho.metro.tokyo.jp/about_mpd/shok...

タグ:

posted at 11:06:19

(「・ω・)「ガオー @bicycle1885

20年11月1日

@drmaruyama ついにあの件が…それともあの件か…

タグ:

posted at 11:07:13

(「・ω・)「ガオー @bicycle1885

20年11月1日

年貢の納め時が来たかと思った。

タグ:

posted at 11:07:41

テラモナギ @teramonagi

20年11月1日

@bicycle1885 Juliaは違法ですからねぇ

タグ:

posted at 11:08:58

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 より実践的な例。添付画像は論文

pubmed.ncbi.nlm.nih.gov/32046819/

での新型コロナの潜伏期間の推定を同じ方法で行なってプロットした予測分布。論文にはないグラフ。

3種類のモデルを試している。私がWAICを計算したら値に大きな違いはなく、優劣は付けられなかった。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/O5qzStYcgV

タグ: 統計

posted at 12:18:06

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 実践的な統計分析では、データを生成していると想定している法則をモデルがほぼぴったり実現しているとは仮定できそうもない場合が多い。

分析用のモデルを複数種類試してみるなどの方法で、推測結果がモデルの詳細に大きく依存し過ぎないことやどのモデルがもっともらしいかの確認が必要。

タグ: 統計

posted at 12:19:20

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計

東京大学教養学部統計学教室編『統計学入門』
【事前に母集団分布が××分布という形で与えられており、いくつかの定数がわかれば、母集団分布についてすべてを知ることができる場合、それをパラメトリックの場合と呼ぶ】

この説明の仕方は非常にまずい。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 12:21:14

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 現実の統計分析は「真実は闇の中」になることが多いと思う。

複数のモデルの比較は情報量規準などで一応可能だが、データを生成していると想定している法則がモデルでどの程度近似できているかはよくわからず、分野固有の知識を持っている専門家による精査がないと怖くて使えない感じ。

タグ: 統計

posted at 12:26:12

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 上で紹介した論文の新型コロナの潜伏期間の推定の再現を #Julia言語 のTuring.jlを使って行った結果をツイッターで紹介するときには緊張する。

なぜならば、私は完全など素人であり、責任を持てるような専門知識が皆無だからだ。私が再現した潜伏期間の推定が大外ししている可能性が怖い。

タグ: Julia言語 統計

posted at 12:30:39

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 解説:グラフはモデル内での潜伏期間の分布の密度函数のプロットです。

原論文と同様にベイズ統計を使っていますが、「主観確率」の「ベイズ主義」に基くベイズ統計は使っていません(笑)。信念がベイズ更新されたりもしていない(笑)。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 12:39:52

Yuki Nagai @cometscome_phys

20年11月1日

x^(n/m)やx^(-n/m)をα0+Σ_i αi/(x+βi)と近似する係数を求めるソフトウェアAlgRemezをBinaryBuilder.jlを用いてJuliaから呼び出せるものを作った。add AlgRemez_jllで入れられる。
using AlgRemez_jll
algremez() do exe
run(`$exe 1 2 5 5 0.0004 64 40`)
end
しかしMacでだけGMP関連で落ちる。なぜ?

タグ:

posted at 12:41:02

Yuki Nagai @cometscome_phys

20年11月1日

1 2 5 5 0.0004 64 40はx^(1/2)を5個のαiと5個のβiを用いてx=0.0004から64までフィットした近似関数、という意味

タグ:

posted at 12:42:21

Yuki Nagai @cometscome_phys

20年11月1日

Macでだけ、
Reason: Incompatible library version: algremez requires version 15.0.0 or later, but libgmp.10.dylib provides version 14.0.0
というエラーが出る

タグ:

posted at 12:43:01

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以下のリンク先の発言もこのスレッドに収録しておく。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 12:43:24

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 『統計学を哲学する』のp.31の引用の再掲

私はまだp.42までとp.91にしか目を通していないのだが、その中ではこのページが最もひどい。

この本の著者は「期待値」の標準的な意味を理解していない。 pic.twitter.com/1GOfy209IQ

タグ: 統計

posted at 12:54:16

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 真っ当な人がレビューしていてくれれば、p.31のような非常識な説明が生き残る可能性はなかったはず。さすがに

【確率変数が持つ分布を特徴付ける値を、その期待値~という】

という説明はまずすぎる。

せめて「期待値」の標準的な定義を理解してから本を書くべきであった。 pic.twitter.com/deAP22cll6

タグ: 統計

posted at 12:58:48

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 この本は大人気のようだが、他人にこの本を勧めるときには、この本に【確率変数が持つ分布を特徴付ける値を、その期待値~という】(p.31)と書いてあることを注意するくらいの親切心があった方がよいと思う。

期待値の普通の定義くらいみんな知っているだろうから、容易に指摘できるはず。

タグ: 統計

posted at 13:05:26

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 雑談:分布を特徴付ける数値の組は普通パラメータと呼ばれる。

指数型分布族(←例: 正規分布、ガンマ分布、Poisson分布、二項分布など)のパラメータが分布に従う確率変数の具体的な函数の期待値で表されることは面白い話です。

続く

タグ: 統計

posted at 13:11:14

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 統計モデリングでビルディングブロックの役目を果たすことが多い指数型分布族の確率分布は統計力学の意味でのカノニカル分布として自然に現れ、カノニカル分布の一般化の仕組みを理解していれば、逆温度の一般化である指数型分布族のパラメータが期待値で特徴付けられることも自然に理解可能。

タグ: 統計

posted at 13:11:15

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 i.i.d.の場合のカノニカル分布の理論については、私のノートで結構詳しく解説されています↓

genkuroki.github.io/documents/2016...
Kullback-Leibler 情報量と Sanov の定理

* 大数の法則
* 中心極限定理
* Sanovの定理

は統計学における確率論の「三種の神器」。Sanovの定理は通常解説されていない。

タグ: 統計

posted at 13:15:40

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 具体例はコンピュータでかなり容易に作れます。

nbviewer.jupyter.org/gist/genkuroki...
統計力学におけるカノニカル分布の最も簡単な場合 (#Julia言語)

添付動画は X と √X の期待値で特徴付けられる一般化されたカノニカル分布をMCMC法で作る様子の動画。 twitter.com/genkuroki/stat... pic.twitter.com/AUQ38a6RtC

タグ: 統計

posted at 13:24:55

Yuki Nagai @cometscome_phys

20年11月1日

これ不思議で、入ったバイナリを直接実行する場合は問題ない。しかしJuliaから使おうとすると落ちる。BinaryBuilder.jlでコンパイルしたときに新しすぎるGMPだったんだろうか

タグ:

posted at 13:28:31

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 正値の確率変数Xについて、Xと√Xの期待値で特徴付けられる一般化されたカノニカルの台はx>0で密度函数は

定数×exp(-ax+b√x)

の形で、ガンマ分布などに似た形の分布になります。パラメータのaとbが逆温度の一般化になっている。

こういう話は非常に面白いです。 pic.twitter.com/sou8TcimdD

タグ: 統計

posted at 13:31:05

OokuboTact 大久保中二病中年 @OokuboTact

20年11月1日

算数教育の専門書を熟読中。
「長方形と正方形の面積」の教え方について読んでいたら、積分が出て来てので少し驚いた。

タグ:

posted at 13:33:09

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 この本には【確率変数が持つ分布を特徴付ける値を、その期待値~という】(p.31)などと書かれていると指摘しても、本を購入していない人にとってはどうでもよいくだらない話にしか聞こえないだろうと予想して、くだらなくない真に面白い話を雑談として紹介しているつもり。

タグ: 統計

posted at 13:37:47

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 添付動画は一般化されたカノニカル分布としてのガンマ分布の実現の様子です。正値確率変数Xに関するXとlog(X)の期待値でガンマ分布は特徴付けられます。

ガンマ分布のパラメータの推定値はサンプルの相加平均と相乗平均から得られます。続く

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/GnQ6oFxUqU

タグ: 統計

posted at 13:54:25

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 サンプルX_1,…,X_nの相加平均は通常の標本平均で、相乗平均の対数は

log(X_1…X_n)^{1/n} = (log(X_1)+…+log(X_n))/n

とサンプルの対数平均になります。これのn→∞での極限は大数の法則よりlog(X)の期待値なる。

相加・相乗平均が出て来ることはガンマ分布の基本的な特徴です。続く

タグ: 統計

posted at 13:58:42

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ガンマ分布の台はx>0で密度函数は

定数×exp(-ax+b log(x))

の形で、a,bが逆温度の一般化のパラメータで、xとlog(x)の期待値でパラメータが特徴付けられます。

ガンマ分布におけるlog(x)の期待値は本質的にディガンマ函数で、コンピュータで容易に計算できる基本特殊函数の1つになっています。

タグ: 統計

posted at 14:02:19

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 正規分布の密度函数は

定数×exp(-ax²+bx)

の形でX²とXの期待値でパラメータa,bが特徴付けられます。

一般に一般化されたカノニカル分布=指数型分布族の密度函数は

定数×exp(-Σ_i a_i f_i(x))q(x)

の形でパラメータa_i達は𝔼[f_i(X)]達で特徴付けられる。

タグ: 統計

posted at 14:06:06

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以上を読めば、たとえすぐに詳細を理解できなくても、統計モデリングのビルディングブロックとして使われる指数型分布族の確率分布のパラメータの特徴づけの基本パターンと、統計力学におけるカノニカル分布の関係を理解することが、結構基本的であることを想像できると思います。

タグ: 統計

posted at 14:08:48

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以上で述べた一連の「雑談」の内容は、コンピュータを使った最も優しいMCMC法の演習としても価値があります。

数学的一般論によって収束先の分布がどうなるかを知っていても、コンピュータで再現できると理解が進みます。

添付動画は収束先が正規分布の場合。 pic.twitter.com/AuHhAwEtNv

タグ: 統計

posted at 14:18:57

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 注意

* これは中心極限定理の動画では__ない__。

* 正規分布の密度函数の定数倍を使ったMCMC法の動画でも__ない__。

* カノニカル分布としての正規分布を分布のランダムウォークで実現する動画で__ある__。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/dOroacspzL

タグ: 統計

posted at 14:24:00

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 一般に分布q(x)に付随する一般化されたカノニカル分布(=指数型分布族)

定数×exp(-Σ_i a_i f_i(x))q(x)

は期待値達𝔼[f_i(X)]の値が与えられたときの「もっともありがちな分布」として特徴付けられます。

これは統計モデリングで適切そうな指数型分布族の選択でヒントになりえる情報だと思う。

タグ: 統計

posted at 14:29:03

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 適当に動ける範囲に制限を付けて分布をランダムウォークさせたときの収束先の分布は、その制限の範囲に含まれる分布の中でもっともありがちな分布であるということになります。

ランダムウォークで適当に制限された範囲で最もありがちな分賦を探索している様子の動画↓ pic.twitter.com/cuJySqu6MC

タグ: 統計

posted at 14:33:05

Yuki Nagai @cometscome_phys

20年11月1日

わからないのでissueを立ててみた

タグ:

posted at 14:35:08

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ソースコード nbviewer.jupyter.org/gist/genkuroki... も全公開しているので、自分で以上のような計算をコンピュータにやらせたい人はいつでも「答えのコード」を閲覧することができます。

この手の計算に #Julia言語 は非常に向いています。

タグ: Julia言語 統計

posted at 14:36:12

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 件の本のp.47の図1.4のように

www.math.wm.edu/~leemis/2008am...

から添付画像の部分を引用しても、各種の分布の理解に役に立つことはありません。

統計モデリングでのビルディングブロックになるような確率分布の理解はそういうものではありません。

私がしている雑談に近い試行錯誤が重要です。 pic.twitter.com/rRw0ThqzFt

タグ: 統計

posted at 14:42:16

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 p.49の読書案内によれば、私ならば読者の理解という観点からふざけた態度だと判定するp.47の図1.4への1つ前のツイートの添付画像の部分の引用は【三中本からの孫引き】らしい。

一般にまるで曼荼羅に見える複雑な図を引用したがる人は要注意だと私は思います。自分で作った図でさえない。

タグ: 統計

posted at 14:48:25

黒木玄 Gen Kuroki @genkuroki

20年11月1日

Re: RTs いとこに #Julia言語 を使えと言われ続けているという話が良さすぎる😊

タグ: Julia言語

posted at 15:12:06

黒木玄 Gen Kuroki @genkuroki

20年11月1日

他人が作った曼荼羅っぽい図を引用したりせずに、自分の試行錯誤の結果を図にまとめないとダメ。

そして真に意味のある試行錯誤をしていれば、網羅的な曼荼羅図が出来上がることは決してないと思う。

タグ:

posted at 15:19:22

Ninja DAO | CryptoNi @CryptoNlnjaNFT

20年11月1日

こういうのは学会でもよくあって、役員は「好きでこんなのやってるんじゃないよ」と思っている一方で、実態としてはだからこそ逆に「互いに頼みやすい」一部の人々による寡占化が進む。「やらされている」と思っているからこそ、批判者への対応が雑になり、時にひどく「上から目線」になる。

タグ:

posted at 15:28:01

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 豊田『瀕死本』について、図5.2, 5.3のphcのグラフがある種のP値とほぼぴったり一致していることを確認すればそのダメ具合が分かると思います。

P値にほぼ一致のphcを使ってP値の使用を批判するというわけの分からないことをやっている(笑)

nbviewer.jupyter.org/gist/genkuroki...

twitter.com/aokikenichi/st... pic.twitter.com/sGNWswZvPY

タグ: 統計

posted at 15:53:07

メロンメロンメロン @m_ero_n

20年11月1日

@genkuroki この辺ですかね?

www.amazon.co.jp/%E5%A4%A7%E8%A...

歴史書として過去のことを紹介してるだけなのか、あくまで頻度vsベイズしかり客観確率vs主観確率を第一原理的に扱ってるのかビミョーな書き方ですが、かなり話題作にはなってました

タグ:

posted at 16:00:46

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 数学的にAとBの値が実践的に無視できる程度の違いしかないことが分かっている場合には、Bを使うべきだという理由でAの使用を否定することは不可能になるという当たり前の話。

定義が全然違う量の値が中心極限定理のような漸近論によってほぼ一致することを示せる場合がある。

タグ: 統計

posted at 16:05:56

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 統計学における計算は実用的にはコンピュータが必須のややこしい計算が多いので、定義が全然違うどの量とどの量がほぼ一致してしまうかについては、それなりに数学的修練を積まないと直観的に処理できない。

多分、豊田さんはその手のことをずっとサボっている。

タグ: 統計

posted at 16:08:37

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 豊田『瀕死本』のphcが対応するP値にほぼ等しいという事実からわかることは、豊田さんのphc推しの主張が、例えば「帰無仮説p=0.5の両側検定」という緩めのゴールを「帰無仮説p≧0.7の片側検定」という厳しめのゴールにずらすこと(めちゃくちゃ陳腐!)とほぼ等価になっているということです。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 17:01:28

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 緩めのゴールを厳しめのゴールに置き換えるというような陳腐なアイデアを出しても誰も感心してくれないが、豊田さんのようにphcのようなものを持ち出してあたかもすごいことをやっているかのように見せると、だまされる人が大量発生するという仕組みになっている。

タグ: 統計

posted at 17:03:46

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 騙される人が大量発生することを心配する側の立場の人は、複雑な計算に負けずにどのような量が漸近的に一致するかを見抜いて、地道にプログラムを書いてコンピュータで計算するだけではなく、見易い視覚化を工夫する手間を取らされてしまう。

批判する側に求められる修練と手間が尋常じゃない。

タグ: 統計

posted at 17:07:29

amaryllis @bylloop

20年11月1日

分かり易い... というか何故普通にこう書いてくれんのやろか... twitter.com/genkuroki/stat...

タグ:

posted at 20:04:56

クロメル @halfsheep

20年11月1日

@fmathsecond ええ、面白そうです。
僕の思ってた、リー群はこれです。

twitter.com/genkuroki/stat...

タグ:

posted at 20:19:57

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 事前分布については、以下に引用するように考えておけばよい。

gamp.ameblo.jp/yusaku-ohkubo/...
【・事前分布はRIdge回帰やLASSO回帰のように推定値を安定化させるための道具であり、主観的な事前の信念を反映させるものではない
・事前分布は、事後予測分布などを通じて客観的に評価可能である】

タグ: 統計

posted at 20:26:51

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 事前分布を単なる数学的道具とみなせるだけの知識がないせいで、事前分布を「事前の主観的な確信の度合い」のように解釈するのは無知すぎます。

事前分布の適切な利用によって平均予測誤差を小さくしたりできるから、事前分布はデータサイエンスで重要な道具の1つになっています。

タグ: 統計

posted at 20:30:39

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 前もってどの事前分布を利用するべきであるか分からない場合であっても、情報量規準や交差検証などによって、どの事前分布が相対的に優れている可能性が高いかを見積もることもできる。

事前分布を主観確率で解釈している人達はどんだけ知識をアップデートしていないのやら。

タグ: 統計

posted at 20:32:54

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 このスレッドで話題にしている『統計学を哲学する』の「第2章 ベイズ統計」はストレートに太古の時代の「主観確率」の「ベイズ主義」の話が書いてありました。

渡辺澄夫著『ベイズ統計の理論と方法』のような現在では定番の教科書さえ目を通していないのだと思いました。

タグ: 統計

posted at 20:37:02

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 この本には【確率変数が持つ分布を特徴付ける値を、その期待値~という】(p.31)と本当に書いてあります‼️

そういう著者に渡辺澄夫著『ベイズ統計の理論と方法』のような本を勧めるのは無茶かもしれませんが、数式ではなく、言葉で説明してある部分だけでも理解できれば全然違っていたと思う。

タグ: 統計

posted at 20:44:55

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ベイズ統計の技術を使えば、今までオーバーフィッティングが原因で不可能だった推定が可能になりだろう的な話は40年前の赤池弘次さんの論説にも書いてあります。

ismrepo.ism.ac.jp/index.php?acti...
統計的推論のパラダイムの変遷について(1980)
の第6節を参照

タグ: 統計

posted at 20:49:37

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 赤池さんは正しかった。

渡辺澄夫著『ベイズ統計の理論と方法』では、最尤法が有効でない場合であっても、ベイズ統計ならば良い性質を持つことが示されています。

そういう数学的な良い性質に触れずに、「主観確率」の「ベイズ主義」にベイズ統計を落とし込むのは無知丸出しでまずすぎます。

タグ: 統計

posted at 20:54:51

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 統計学に限らず、多くの技術は時代とともに進歩して行きます。そういう技術について「哲学」を語るときには、可能な限りその時代の技術水準に追いついて、おかしなことを言わないように気をつけるべきです。

この本の第2章はそういう意味では完全に失格。

タグ: 統計

posted at 20:57:07

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 多くの誤解もしくは時代遅れに考え方が広く普及してしまっている現代では、ベイズ統計に関する解説では真っ先に「主観確率のベイズ主義は現代のベイズ統計においては無用のものになっている」と説明するべきです。

タグ: 統計

posted at 21:05:05

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 そして、データサイエンスにも関係している話をしたければ、リッジ正則化やLASSO正則化の話に触れて、そこから事前分布の使用が平均予測誤差を下げるために役に立ちそうな道具であることに触れて、事前分布を事前の主観の表現とみなす考え方が本当に無用になっていることを説明するべき。

タグ: 統計

posted at 21:08:13

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 そしてできれば、21世紀の研究である渡辺澄夫さんの仕事に触れて、ベイズ統計ならば特異モデルになる可能性がある構造を持った複雑なモデルであっても(最尤法と違って)良い性質を持つことが示されていることにも言及した方がよいと思う。

タグ: 統計

posted at 21:10:49

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 そして、一般の場合の(i.i.d.を仮定しない場合の)ベイズ統計の性質はまだ十分に分かっていないというようなことにも触れた方がよいと思う。

我々はすでに何でも知っているわけではないという認識は非常に重要だと思います。

タグ: 統計

posted at 21:14:25

舞田敏彦 @tmaita77

20年11月1日

傾向が出ますな。 pic.twitter.com/RQQspjZge4

タグ:

posted at 21:30:43

数学とか語学とか楽しいよね @sasaburo

20年11月1日

1次元移流方程式をLax-Wendroff法で解いています。リミターを入れないとLax-Wendroff法は不連続部分で振動します。非常に基礎的なスキームですが、ちゃんと勉強し直そうと思い実装しました。網羅的にやりたいです。コードはJuliaで書いています。 pic.twitter.com/DUCsQvzbdF

タグ:

posted at 21:42:08

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ベイズ統計入門

未知の確率分布を持つサイコロXの出目の確率を「確率分布は添付画像のサイコロA,B,Cのどれかである」というモデルを使って推定してみよう。

サイコロAは1,2が、Bは3,4が、Cは5,6が出易いイカサマのサイコロのモデル化である。続く pic.twitter.com/cOKPG3xtFI

タグ: 統計

posted at 22:22:39

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ケース1

事前分布として、サイコロA,B,Cの確率はどれも1/3を設定し、サイコロXを何度も振って出た目を使ってベイズ更新を行う。

添付動画はそのベイズ更新の様子である。出目の割合を表す赤のドットの動きを見ると、サイコロXの確率分布はモデルのサイコロA,B,Cのどれとも違うっぽい。続く pic.twitter.com/VTy84Fi5vL

タグ: 統計

posted at 22:22:44

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ケース1つ続き

実はこのケース1でのサイコロXはイカサマでないすべての目がどう確率で出るサイコロである。

この場合にはサンプルサイズ→∞でベイズ更新は収束せず、推定結果は決して真実に到達しない。 pic.twitter.com/rrJFRQs1rI

タグ: 統計

posted at 22:22:50

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ケース2

このケース2のサイコロXはケース1のそれとは異なる。

ケース2におけるベイズ更新の結果はモデルのサイコロBに収束している。

しかし、出目の割合の赤のドットを見ると、このケース2のサイコロXはベイズ 更新の収束先のサイコロBとは違うっぽい。 pic.twitter.com/2xdOuWr6Z2

タグ: 統計

posted at 22:29:25

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ケース2続き

実はこのケース2におけるサイコロXでは3の目だけが他の目よりも出る確率が少しだけ高い。

この場合には、ベイズ更新はモデルの範囲内で真実を最もよく近似する分布(サイコロB)に収束するが、決して真実にはたどりつかない。 pic.twitter.com/vykKQcJinU

タグ: 統計

posted at 22:29:31

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ケース2のように、ベイズ更新の結果がモデルの範囲内で真実を最もよく近位する分布に収束することは、非常に一般的にかなり緩い仮定のもとで示せます。

サンプルサイズ→∞で、モデルの限界まで推測の精度は上がりますが、それを超えて精度が上がることはない。

タグ: 統計

posted at 22:32:40

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 ところが『統計学を哲学する』p.83(添付画像)には、まるでモデルの分布族で実際のデータ生成プロセスを全然表現できない場合であっても【ベイズ流の更新のプロセスは最終的に真理に到達しうる】と書いてある‼️

これなに?

ベイズ統計を全然わかっていないように私には見えた。 pic.twitter.com/p6wng64MpO

タグ: 統計

posted at 22:37:32

abap34 @abap34

20年11月1日

A: タイピングの速さを見せつけろ
B: Juliaってsum(A:B)がO(1)なんですよね
C: 直線がy軸と並行な場合を忘れていました2ペナ
D: n % 100が8の倍数なら良いので、同じ数字が3個以上ある場合はそれを捨てて構築する
ちなみに私は普通にWAを出した後にコピペミスを3回しました。対戦よろしくお願いします

タグ:

posted at 22:40:03

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 分析用の統計モデルが実際のデータ生成プロセスを全然表現できないのに、そのモデルを使って真理に到達できるはずがない。そういう魔法のようなことがベイズ 統計なら原理的に可能だと本気で信じているとしたら、相当にどうかしていると思いました。

タグ: 統計

posted at 22:40:51

B787 @NH_JA801A

20年11月1日

大阪都構想2回目の否決!!!!!!
#大阪都構想 pic.twitter.com/sOQ6bKMXT8

タグ: 大阪都構想

posted at 22:43:18

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 この本の著者は「期待値」について【確率変数が持つ分布を特徴付ける値を、その期待値~という】(p.31)と説明してしまうくらいなので、数学的な技術的な事柄に関する説明は全く信用できず、引用している文献を参照する手間をかける気には全くなれない。

タグ: 統計

posted at 22:43:52

じゃんけん王ケンジ @goripara_kenji

20年11月1日

【開票速報 】

『大阪都構想』住民投票は反対多数が確実!!

#大阪都構想
#大阪住民投票 pic.twitter.com/PypLZlWt5X

タグ: 大阪住民投票 大阪都構想

posted at 22:44:02

NHKニュース @nhk_news

20年11月1日

【速報 JUST IN 】「大阪都構想」住民投票 反対多数が確実 #nhk_news www3.nhk.or.jp/news/html/2020...

タグ: nhk_news

posted at 22:46:01

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 正直な感想として、ページをめくるたびに次々に襲いかかってくるいかにもまずそうな説明が苦痛な本だと思いました。

さらに先を読めばどこかに価値あることが書いてあるのでしょうか?

めちゃくちゃ辛い。

タグ: 統計

posted at 22:46:15

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 以下のリンク先(このスレッドのちょっと上)にある動画を作るためのソースコードは

nbviewer.jupyter.org/gist/genkuroki...

においてあります。このスレッドで使っていない動画もそこで閲覧できます。ベイズ更新の様子を直観的に理解するために有用だと思います。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 22:49:34

グエ エ @2kill22death

20年11月1日

@abap34 >B: Juliaってsum(A:B)がO(1)なんですよね
maji

タグ:

posted at 22:56:49

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 厳しい言い方をしていますが、純粋に「つらい気持ち」を表現しているだけで、他意はないです。

この長大なスレッドでは、より真っ当な理解に至るために必要な資料(私自身が作った動画を含む)を可能な限り紹介するように努力しました。そういう方向の努力が実れば一番うれしいです。

タグ: 統計

posted at 22:59:51

abap34 @abap34

20年11月1日

@2kill22death これの1055行目のとこですね
github.com/JuliaLang/juli...

タグ:

posted at 23:01:50

木登りヤギ@ 我らの耳はちくわ、目は節穴 @kinoboriyagi

20年11月1日

この動画、めちゃくちゃ興味深い。鳥や爬虫類が卵から出るのに卵歯が必要なことは知っていたのに、古い殻にどうやって裂け目を作るのか考えたことがなかった。色んな昆虫の脱皮の始まりを見てみたい。
twitter.com/toyotahotarum/...

タグ:

posted at 23:18:22

Ninja DAO | CryptoNi @CryptoNlnjaNFT

20年11月1日

しかし、これでよくNHK「反対多数確実」出せたな。

タグ:

posted at 23:20:54

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 くっそ!しまった!

ぎりぎり勝負の投票の速報はものすごく好きな話題だったのに乗り逃してしまった!

タグ: 統計

posted at 23:22:24

非公開

タグ:

posted at xx:xx:xx

bra-ketくん @mac_wac

20年11月1日

JuliaはメソッドなくてもOOPできるって、まあそりゃそうなのだけど、でも
corge(qux(baz(bar(foo(x),2)),42))
って書くよりは
x. foo. bar(2). baz. quz(42). corge
って書くほうがストレスフリーなんじゃ!ってわざわざthenまで使ってメソッドチェーン化してるRubyistとしては思うわけである。

タグ:

posted at 23:24:32

黒木玄 Gen Kuroki @genkuroki

20年11月1日

#統計 数値的には反対側が小さいのに「多数確実」と出た点がおもろい。 pic.twitter.com/lSnRzvJi2V

タグ: 統計

posted at 23:32:34

うぉむ太郎 @xitsune

20年11月1日

@mac_wac パイプ演算子|>と無名関数で
foo(x) |> x -> bar(x, 2) |> qux |> x -> corge(x, 42)
としてみては?やっぱり微妙に見にくいけど。

タグ:

posted at 23:47:40

bra-ketくん @mac_wac

20年11月1日

@xitsune とりあえず、using Underscoresで
@ _ x |> foo |> bar(__,2) |> baz |> qux(__,42) |> corge
ってやってしのいでる。。

タグ:

posted at 23:59:17

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました