Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2020年11月02日
並び順 : 新→古 | 古→新

2020年11月02日(月)

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#Julia言語 非常に丁寧に易しく説明する方針↓

Data Science With Julia | My attempt to explain data science to myself. data-science-with-julia.gitlab.io

タグ: Julia言語

posted at 23:56:14

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 そして、各分野の専門家が持っている固有の知識が決定的に重要そうなことにも気付きます。

タグ: 統計

posted at 23:48:24

三塚ハル @mtkharu3

20年11月2日

@genkuroki @temmusu_n @OokuboTact え、大学の教員養成に使われている教科書を読めば「日本の教育学は19世紀の内容から基本的に進歩していない」というのは誰でも気づくことだと思いますよ。だから1980年代以降学校がどんどん批判されるようになって収拾のつかない現在があるわけです。

タグ:

posted at 23:48:18

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 あと、他人がMCMCを回して得た結果を自分でも再現できるかどうかを試してみるのは結構ためになります。

ぴったり再現できる場合は稀で、ちょっとした条件の違いで結果がどう変わるかが見える(笑)

実は他人による再現の試みを見るだけでも相当にためになる。

タグ: 統計

posted at 23:46:54

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 実践的には「階層モデルの正しい情報量基準や1個抜き出し交差検証の計算の仕方」の知識は役に立ちます。

結構多くの研究者が既存のライブラリの安易な適用で済ませているせいで、間違った使い方をしている疑いを私は持っています。

深刻な問題ですが、調査が大変なので手を出していない。

タグ: 統計

posted at 23:41:36

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 このスレッドでも幾つか実践的な事例を紹介していますが、「主観確率」やら「ベイズ主義」とやらは実践的なベイズ統計の応用例を理解するためには何も役に立たず、わたしには完全に無用なものに見える。

誰ならば、Stanを使って(笑)、信念をベイズ更新しているとみなさないと困るのやら。

タグ: 統計

posted at 23:36:25

OokuboTact 大久保中二病中年 @OokuboTact

20年11月2日

(続き) 

#超算数   #図形 #心理学

その前の頁。
算数教育をよく知らない数学教師が見たら卒倒するんじゃないの? pic.twitter.com/W8ShuRJkMT

タグ: 図形 心理学 超算数

posted at 23:34:14

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 あと、議論では必ず例を使って説明することが大事。現代ではStanなどの道具を使っている様子を公開している人達を比較的容易に発見できます。

「主観確率」「ベイズ主義」とか言いたい人はそこで使われているベイズ統計をそれらの用語を使って解釈して見せることが必要。

タグ: 統計

posted at 23:32:17

OokuboTact 大久保中二病中年 @OokuboTact

20年11月2日

#超算数   #図形 #心理学

算数教育の偉い人達が書いた本には驚くべきことが書いてある。 pic.twitter.com/kDxf7Jc2q1

タグ: 図形 心理学 超算数

posted at 23:29:56

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 「頻度主義vs.ベイズ主義」の対立を煽っていなくても、21世紀現在数学的に分かっていることを使った整理を十分にすることなく、「主観確率」だの「ベイズ主義」だのがベイズ統計の理解に必須であるかのように語ること自体が有害。

必須ではないことを最初に明瞭に認めるくらいのことは必要。

タグ: 統計

posted at 23:26:52

TaKu @takusansu

20年11月2日

@OokuboTact @temmusu_n #超算数
「○○と考えなければいけない」
「小学生は論理的に考えられる筈がない」→マニュアル化すると「考えてはいけない」になる
のコンボ技ですよね。

タグ: 超算数

posted at 23:12:30

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 例1: 1,2,3の目がそれぞれ確率0.2, 0.3, 0.5で出るルーレットの中央値全体の集合は2以上3以下の実数になる。

例2: 1,2,3の目がそれぞれ確率0.21, 0.3, 0.49で出るルーレットの中央値は2だけになる。

タグ: 統計

posted at 23:09:43

OokuboTact 大久保中二病中年 @OokuboTact

20年11月2日

@temmusu_n > 算数と数学の違いを強調するほど、算数の内容を貧弱な者にするという効果がある気がします。

発達心理学の「段階」と同じで、チョー算数独自ルールの根拠に使われそうですね。

タグ:

posted at 23:08:32

天むす名古屋 Temmus @temmusu_n

20年11月2日

@OokuboTact #超算数 算数と数学の違いを強調するほど、算数の内容を貧弱な者にするという効果がある気がします。

タグ: 超算数

posted at 23:03:49

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 基本的なことを知らなかったこと

こういうことはおおっぴらに述べた方がよいと思ったので報告

中央値の定義を実はずっと知らなかった。😅

定義:確率変数Xについてa₀がXが従う分布の中央値であるとは確率P(X≧a₀), P(X≦a₀)の両方が1/2以上になることである。

タグ: 統計

posted at 23:03:12

天むす名古屋 Temmus @temmusu_n

20年11月2日

@OokuboTact 算数科においては論理には立ち入らず,直観的認識に基づいて図形の考察を進めていくようにする。】とかいって、算数と数学のちがいに重要性を認めています。
脱線ついでに89頁で【これらの除法の違いを意識させるために】と、包含除等分除の区別を子供に矯正すべきだと意見を述べていました。#超算数 pic.twitter.com/pmFE8AykP3

タグ: 超算数

posted at 23:01:17

OokuboTact 大久保中二病中年 @OokuboTact

20年11月2日

@temmusu_n 岡崎市の算数教育を見ると、「算数教育の正しい方法が1つしかない」と信じているように思えるのです。
「暗記教育の弊害で生徒が算数(数学)の本質がわかっていない」という雰囲気が強い。

#超算数

タグ: 超算数

posted at 23:00:37

天むす名古屋 Temmus @temmusu_n

20年11月2日

@OokuboTact #超算数 類似の内容をもつ資料がネットで公開されていました。
今崎浩『新小学校学習指導要領の授業: 算数科指導法』広島、広島文教女子大学、2017年。harp.lib.hiroshima-u.ac.jp/h-bunkyo/metad...
面積とはちょっと違うのですが、114頁に【その後,次第に属性間の論理的なつながりが把握されるようになるが, pic.twitter.com/oPuNTwnNrM

タグ: 超算数

posted at 22:55:18

黒木玄 Gen Kuroki @genkuroki

20年11月2日

個人的には次世代の学生に被害が及ばないか心配。

金銭および知識の両面で。

『統計学を哲学する』を他人に勧めた人達が本当にこの本の内容を理解して読んだとはとても思えない。

目を通してキーワードを拾っただけの印象で他人に勧めたんじゃないか?

タグ:

posted at 22:49:16

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 『統計学を哲学する』は間違い探しで楽しむ本になることを覚悟して購入した方がよい。

この本の著者は「色々わかっていない」という印象がどんどん強くなって来る。

【「Major axes」と表示されているのが回帰直線。】(p.17, 図1.1)

見逃していたので追加。色々ずさん。 pic.twitter.com/tHPqlVoslg

タグ: 統計

posted at 22:44:56

Haruhiko Okumura @h_okumura

20年11月2日

話題の『統計学を哲学する』入手。「「Major axes」と表示されているのが回帰直線」えっうそー pic.twitter.com/2alHCXWNBX

タグ:

posted at 22:09:14

黒木玄 Gen Kuroki @genkuroki

20年11月2日

@OokuboTact @temmusu_n #超算数 conditional equationとidentityについて引きずっているのは日本語圏に限らない感じがしました。

タグ: 超算数

posted at 21:58:45

黒木玄 Gen Kuroki @genkuroki

20年11月2日

@OokuboTact @temmusu_n #超算数 恐ろしいことに21世紀になっても、算数や中等教育の数学が「19世紀を引きずっている」ということは私もかなりあると思っています。

以前、方程式と恒等式に等式を分類する悪しき慣習について調べたら、19世紀のconditional equationとidentityの区別に対応していることに気付いた。続く twitter.com/temmusu_n/stat...

タグ: 超算数

posted at 21:57:30

OokuboTact 大久保中二病中年 @OokuboTact

20年11月2日

@temmusu_n #超算数

今回、私がツイートしようと思った理由は、岡崎市の小学校が出している分厚い算数教育研究本を読んだからです pic.twitter.com/zqIbwFmNBh

タグ: 超算数

posted at 20:52:11

OokuboTact 大久保中二病中年 @OokuboTact

20年11月2日

@temmusu_n 「日本の小学校の長方形の面積の公式」の歴史については

こちらの論文が参考になりますね

gair.media.gunma-u.ac.jp/dspace/bitstre...

タグ:

posted at 20:36:22

ど @nekoningen1

20年11月2日

julia,PyCall,NetworkX,GraphVizとJupyter Notebookで「実行できるシステム図」が作れるんじゃないか
ノード間のデータのやり取りがリアルタイムで見れたり、PCにつないだデバイスを制御できたりしたら面白そう

タグ:

posted at 20:24:26

yusei @yusei08180418

20年11月2日

Juliaって新しいプログラミング言語出てきたのか、とりあえずジュリアたんとかって呼べば親近感湧くかな

タグ:

posted at 20:21:15

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#Julia言語 正直、Juliaのバグねた、おもろい。

バグは知らずにふむとビビるが、既知のバグでぼーんすることのデモンストレーションは結構楽しい。

タグ: Julia言語

posted at 20:09:41

じりおん @zillione

20年11月2日

Zenn、まだ全然Juliaの記事少ないから今がチャンス

タグ:

posted at 19:59:37

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 最悪なのは、未知の母集団分布だったはずのものを、勝手に既知の確率分布族のパラメータが特別な場合、例えば正規分布の特別な場合で置き換えて、母集団分布の平均や分散をパラメータと呼び、パラメータの意味を曖昧にしてしまうこと。

これをやらかすと一挙に非科学的なスタイルになる。

タグ: 統計

posted at 19:58:01

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 確率分布族のパラメータ達はその族に入れた座標系なのですが、指数型分布族の場合にはパラメータ達をその分布に従う確率変数の函数の期待値達で与えることができます。これは指数型分布族についての基本の1つ。

パラメータと期待値の関係について語りたければこういう話をクリアにすればよい。

タグ: 統計

posted at 19:54:14

ろりば @Lolitta_river

20年11月2日

Julia用のlistingsスタイル定義作ったのでgistに置いときますね
gist.github.com/Loliver1224/38...

タグ:

posted at 19:50:57

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 その辺を誤解し難いように整理するためには

* 母集団分布の平均や分散を決してパラメータとは呼ばない。

* 「母数」という言い方も使わない。

* 確率分布族をパラメトライズしている変数はパラメータと呼ぶ。

とするとよいと思う。

あと、「母数=期待値」などと決して書かない(笑) pic.twitter.com/COOMSZENWU

タグ: 統計

posted at 19:50:03

ごまふあざらし(GomahuAzaras @MathSorcerer

20年11月2日

補助関数を定義すれば JSXGraph.jl から直接作ることも可能です.JSXGraph.jlはWIPなのでPRは大歓迎とのことです.

gist.github.com/terasakisatosh...

#Julia言語 pic.twitter.com/yYkNg7ifMm

タグ: Julia言語

posted at 19:48:14

ごまふあざらし(GomahuAzaras @MathSorcerer

20年11月2日

JSXGraph というグラフ描画をする JavaScript ライブラリを例に

Juliaのコードを JSExpr.jl で JavaScript に変換し Jupyter Notebook 上で表示する例を作りました.

#Julia言語

gist.github.com/terasakisatosh... pic.twitter.com/aKKzq0oHSh

タグ: Julia言語

posted at 19:46:37

ITmedia NEWS @itmedia_news

20年11月2日

ラズパイ一体型キーボード「Raspberry Pi 400」登場 国内では2021年以降に発売
www.itmedia.co.jp/news/articles/... pic.twitter.com/yDnq4NADgm

タグ:

posted at 19:45:05

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 個人的には(おそらく私以外の多くの数学ユーザーは)、パラメータ付き確率分布のパラメータのみをパラメータと呼び、パラメータ付きではない確定した母集団分布の平均や分散をパラメータ(母数)とは呼びたくない。

母集団分布の平均や分散は母集団分布をパラメトライズしたりしていない!続く

タグ: 統計

posted at 19:39:17

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 統計学における母数という用語の使い方は混乱している場合がある。

データが未知の母集団分布からの無作為抽出で得られていると想定しているときに、その母集団分布は平均や分散といった量でパラメトライズされているわけではないのに、母平均や母分散を母数(パラメータ)と呼ぶことがある。続く

タグ: 統計

posted at 19:39:16

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 添付画像はすでに引用済みのp.36の脚注部分。そこでは

    【母数=期待値】

という書き方がされていた‼️

確率分布の平均や分散は期待値で表せるが、中央値はそうではない(一意に決まらない場合もある)。

集団の様子を要約するための数値は必ずしも期待値の形になっているとは限らない。 pic.twitter.com/z3BHWKNo02

タグ: 統計

posted at 19:29:42

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 繰り返しになるが、【確率変数が持つ分布を特徴付ける値を、その期待値~という】(p.31)という説明の仕方はひどすぎる。

統計学の文脈では「確率分布を特徴づけるパラメータ」という言い方が頻出なのでめちゃくちゃまずい。

確率分布を特徴づけるパラメータを検索↓
www.google.com/search?sxsrf=A... pic.twitter.com/DVFnRr69UY

タグ: 統計

posted at 14:31:00

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 このスレッドで指摘している『統計学を哲学する』の杜撰な説明の仕方を見れば、この本を統計学における考え方についての教養を身に付けるための本として他人に勧めるのは非常にまずいことが分かると思う。

すでに勧めてしまった人はそれを撤回した方がよい

タグ: 統計

posted at 14:21:25

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 最小二乗法は単なる直交射影の線形代数にしか見えないのだが(実際にはそのように見えるほど数学を理解していない人の方が多数派)、正規分布モデルの最尤法の一種になっているという認識は実践的な統計モデリングを行う場合には必須の教養のうちの1つ。

こういう点にも雑であってはいけない。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 14:12:47

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 渡辺澄夫さんが解説しているその例で起こっていることは、数学的に非常に一般的に起こっています。数学的に、最尤法、ベイズ統計、仮説検定は互いに密接に関係している。

ベルヌーイ分布モデルの場合については私のノート(既出)

nbviewer.jupyter.org/gist/genkuroki...

を参照。WAICやWBICも扱われている。

タグ: 統計

posted at 14:06:18

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 渡辺澄夫著『ベイズ統計の理論と方法』のpp.80-82では、分散1の正規分布モデル(パラメータは1つ)と標準正規分布モデル(パラメータ無し)に関するAIC, BIC, 尤度比検定を比較しています。

最尤法、ベイズ、仮説検定の関係の一例がそこにある。

タグ: 統計

posted at 14:00:46

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 例えば、最尤法とベイズ統計や仮説検定の関係について説明する場合には、まず、主義や思想とは独立に、それらの間に数学的に(特に解析学的に)どのような関係があるかを明確にしておく慎重さが必要である。そして、主義や思想について語る場合にはそういう数学的結果に矛盾しないようにするべき。

タグ: 統計

posted at 13:52:22

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 通常の議論では、主義や思想と無関係に決まっていること(典型例は数学的にどうなっているか)を明らかにして行くことを優先し、その過程で発見された主義や思想に依存することを別に取り上げる。

そういう慎重な手続きが欠けている本を読むときには注意が必要である。

タグ: 統計

posted at 13:48:06

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 「経験ベイズ」も「モデルをデータにフィットさせるためのパラメータ調節」に過ぎず、その使用者がどのような主義や思想を持っていても、それとは無関係に、モデルをデータにフィットさせるためのパラメータ調節一般で生じることが数学的に生じる。

タグ: 統計

posted at 13:44:49

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 「経験ベイズ」は以上で述べたようなモノに過ぎないのに、『統計学を哲学する』のpp.79-82には、初めて「経験ベイズ」という用語を知った人にとって適切とは思えない解説が書かれている。

「主観確率」の「ベイズ主義」抜きにベイズ統計について正確に考えることを知らないからそうなる。

タグ: 統計

posted at 13:39:39

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 ベイズ統計のモデル内におけるパラメータη付きの確率密度函数

p(x_1,…,x_n|η) = ∫ p(x_1|θ)…p(x_n|θ)φ(θ|η) dθ
(φ(θ|η)はパラメータη付きの事前分布)

のデータX_1,…,X_nに関する尤度

L(η)=p(X_1,…,X_n|η)

を最大化するようにパラメータηの値を調節するのが、所謂「経験ベイズ」です。

タグ: 統計

posted at 13:35:46

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 ちなみに「経験ベイズ」というのも、モデルがデータに適合するようなパラメータ調節の一種に過ぎません。

一般に「〇〇ベイズ」という用語を見たら、歴史的偶然によって広まってしまったが、別の言い方で言い直した方がよい言葉の典型例、とみなしておけばそう間違いがないと思います。

タグ: 統計

posted at 13:29:40

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 データから構造を読み取ってそれをモデルに反映させるごとに、予測精度がその分だけ__悪化__して行く数値例を自分で作って楽しむことは、複数通りの意味で極めて教育的だと思う。

コンピュータではなく、自分自身もデータから構造を読み取って予測を悪化させてしまうかもしれない!

タグ: 統計

posted at 13:07:57

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 モデルをデータに適合させるパラメータの探索では、最初のうちはモデルのデータへの適合度と予測精度が同時に上昇するが、その後は、パラメータ探索がデータの新しい構造を発見してモデルのデータへの適合度が上昇するときに予測精度の劣化が同時起こるというようなことが起こる。

タグ: 統計

posted at 13:05:10

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 私的なオーバーフィッティングの大雑把な定義:モデルのデータへの適合度の上昇と予測精度の劣化が同時に進行すること。

添付動画の右側の青線が予測誤差で赤線がデータへの適合度です。赤線下降と青線上昇が同時に起こっているときに過学習が起こっている。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/0Nee7trx1V

タグ: 統計

posted at 13:01:16

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 「データを生成していると想定される未知の確率法則がある」という設定で統計分析する場合には、データそのものではなく、未知の確率法則が推測先のターゲットになる。

モデルをデータにぴったりフィットさせることは有害な目標設定になる。

タグ: 統計

posted at 12:49:10

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 「尤度=モデル内でデータと同じ数値が生成される確率(密度)は、モデルのもっともらしさの指標ではなく、モデルのデータへの適合度の指標に過ぎない」と強調することの背景には、データにぴったりフィットさせようとすることが予測誤差を悪化させるということがある。

タグ: 統計

posted at 12:46:28

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 基本的に、データを見た後で、モデルの側を色々変えてモデルがデータにぴったり適合するようにがんばると、オーバーフィッティングさせまくることになるので注意。

データを見て適切そうなモデルを探しまくった場合には、別のデータでそのモデルを検証することが必要になる。

タグ: 統計

posted at 12:41:52

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 1つ前に述べたことは、最尤法の場合に限れば当たり前。

①パラメータを増やす。
②モデルがデータに適合するパラメータを求める。
③求めたパラメータを含むパラメータ数が少ないモデルを作る。
④上の③のモデルのAICを計算。

これ「不正行為」になります。
ベイズ統計でやっても「不正行為」

タグ: 統計

posted at 12:38:06

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 あと「パラメータを増やしてモデルがデータにフィットするように調節する」のと本質的に同じことを手動で行っても、オーバーフィッティングで予測誤差が悪化することがあるというような注意も重要だと思う。これはベイズ統計でも同じ。

タグ: 統計

posted at 12:34:18

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 少なくとも、Jeffreys priorを特異モデルの場合に使うと予測誤差(汎化誤差)が悪化するというようなことは知っておくべきことだと思う。

幾何的に定義される座標不変なJeffreys事前分布がダメな場合もある。

watanabe-www.math.dis.titech.ac.jp/users/swatanab...

タグ: 統計

posted at 12:27:35

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 関連情報

なるほど。「客観ベイズ」も否定しておくのは良いことですね。

あと、最初に試す事前分布は適切な意味で「おとなしめの事前分布」がよいと私も思っています。それでダメなら「狭い事前分布」も試してみる。 twitter.com/bluesnono/stat...

タグ: 統計

posted at 12:11:39

MATLAB'zのLIVE Editor @nonlinopt

20年11月2日

〇 vscode
✖ vcode

タグ:

posted at 11:09:33

MATLAB'zのLIVE Editor @nonlinopt

20年11月2日

#vscodeビギナーのおっさんが通る

macでは問題なくvcodeで使えたjuliaだが、Windowsではエラーが出てプロットすらできない。_| ̄|○

julia> Pkg.add("Plots")
Resolving package versions...
ERROR: IOError: mkdir: invalid argument (EINVAL)

タグ: vscodeビギナーのおっさんが通る

posted at 11:08:51

(「・ω・)「ガオー @bicycle1885

20年11月2日

つらそう…ところでここにJuliaというプログラミング言語がありましてね、MITライセンスなんですよ。

タグ:

posted at 10:43:54

MATLAB'zのLIVE Editor @nonlinopt

20年11月2日

なんだいこりゃ?

julia> Pkg.add("Plots")
Resolving package versions...
ERROR: IOError: mkdir: invalid argument (EINVAL)

タグ:

posted at 10:28:50

Tarotan @BluesNoNo

20年11月2日

(3/3) in logistic regression, and so forth.”と述べているので,弱情報事前分布を,(古典的な意味で「客観的」なのではなく)上記引用の意味において正則化を行うモデル構成要素として「客観的」な側面を持つと考えているのかな,と思いました.

タグ:

posted at 08:57:01

Tarotan @BluesNoNo

20年11月2日

(2/3) ”Keeping things unridiculous is what regularization’s all about, ….“とか,”I think weakly informative priors are, or can be, as objective as many other statistical choices, such as assumptions of additivity, linearity, and symmetry, choices of functional forms such as

タグ:

posted at 08:57:01

Tarotan @BluesNoNo

20年11月2日

RT言及>
(1/3)BDAなどを読んだ私の拙い理解では,Gelman先生は,主観ベイズ(SavageらのNeo-Bayesian)や,客観ベイズ(みんなが合意できるような事前確率を目指す)の両者を強く批判していて,モデルチェックを伴うベイズ(「反証主義的ベイズ」とでも呼ぶべきもの?)を推奨しているのだと思います.

タグ:

posted at 08:57:00

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 最小二乗法は

p(y|X,β,σ²) = (1/(2πσ²)^{n/2})exp(-||y - Xβ||²/(2σ²))

におけるパラメータβ,σ²に関する最尤法。Xは計画行列。

タグ: 統計

posted at 07:29:55

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 仮説検定、最尤法、ベイズ統計の間には、それらを断絶させる深い谷は存在せず、すべてが地続きになっており、何もかも普通に関係しているクリスタルクリアな世界が広がっている。

このような理解を目指すべき。

タグ: 統計

posted at 07:18:46

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 そういう仮説検定の状況では

* 対数尤度比 = 対数尤度の差
* AICの差 = 対数尤度の差+定数

なのでAICとももろに関係がある。

タグ: 統計

posted at 07:14:28

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 次元の低いW₀の側が帰無仮説を表している。

そういう比較をdim W₁ = d₁ > d₀ = dim W₀で行う場合のχ²検定の自由度は次元の差d₁ - d₀になる。そのことは最尤法での対数尤度比の漸近挙動に関するWilks' theoremから得られる。

タグ: 統計

posted at 07:11:32

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 多くの仮説検定は、実質的にパラメータ空間W₁を持つモデルM₁とそれを次元が下がったパラメータ部分空間W₀に制限したモデルM₀の間の比較になっている。

例えば、ベルヌーイ分布モデルでの帰無仮説p=1/2の両側検定は、W₁=[0,1]とW₀={1/2}のデータを用いた比較になっている。

タグ: 統計

posted at 07:08:29

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 仮説検定、最尤法、ベイズ法などなどに異なる思想や主義があるかのように考えてしまうのは、単にそれらの数学的関係を理解していないからだと思う。

数学的道具は個々の性質や道具感の関係を数学的に理解した上で、自分の目的に合わせて自由に使えば良い。

タグ: 統計

posted at 07:03:46

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 関連

1つ前のツイートに関連した滑稽話に以下のリンク先の件がある。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 06:54:51

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 思想や概念や定義の違いよりも、近似的に等しいという数学的な関係の方を優先して考えないと、実質的に同じモノを使っているのに、思想や概念た定義が違うという理由で異なる結論を出してしまう誤りを犯してしまいます。

タグ: 統計

posted at 06:51:33

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 そのようなことが、最尤法、ベイズ法、仮説検定の間に成立している場合があるのです。概念的に異なっていたり、定義が全然違っていたり、目的も全然違っていたりしても、ある種の状況では互いに相手を近似しあっており、そのような場合には「違いはない」と言う必要が出て来ます。

タグ: 統計

posted at 06:47:49

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 特に統計学では

* 定義が全然違っている複数のモノが、ある種の状況において、無視できる違いを除いて一致する場合があること

に注意する必要があります。そういう場合には定義が違っていて、概念的には大きく異なるモノであっても、ある種の状況では実質的に同じものとして扱う必要がある。

タグ: 統計

posted at 06:45:01

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 『統計学を哲学する』という本は読者を以下の事柄について正しく適切に考えることから遠ざけるように書かれているので読者は注意した方が良い。社会的には負の業績。

* 期待値
* ベイズ統計
* 最尤法
* 最小二乗法
* 最尤法とベイズ統計と仮設検定の関係
などなど

本当に気を付けた方が良い。

タグ: 統計

posted at 06:38:36

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 最も簡単な統計モデルであるベルヌーイ分布モデルの場合の

* 最尤法のAIC
* ベイズ統計のWAICとLOOCV(一個抜き出し交差検証)
* BICと自由エネルギー

などに関するまとめが

nbviewer.jupyter.org/gist/genkuroki...

にある。最尤法とベイズ統計の違いはこの場合には小さい。

タグ: 統計

posted at 06:34:47

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 沢山あるχ²検定と最尤法におけるAICを使ったモデル選択のあいだにも密接な関係がある。

* 仮説検定におけるχ²検定
* 最尤法とAIC
* ベイズ統計とWAIC

は相当に近い関係にあり、コンピュータでそれらの関係を数値的に確認することは良い練習問題になる。

タグ: 統計

posted at 06:31:51

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 さらに、最尤法と仮説検定の間はものすごく密接な関係がある。

沢山の種類があるχ²検定の基礎は最尤法について普遍的に成立しているWilks' theoremである。

最尤法とベイズ統計、最尤法と仮設検定の間の関係を理解していないと統計学をスムーズに使うことが難しくなってしまう。

タグ: 統計

posted at 06:27:09

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 このように、最尤法とベイズ統計は互いにライバル関係にあり、結果を比較可能な分析方法であり、ある場合にはほぼ同じ結果を与えることがわかっている。

そのようなもの達を完全に分断して別物であるかのようにせつめいするのは非常にまずい。

タグ: 統計

posted at 06:23:45

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 さらに、最尤法とベイズ統計は近似的にほぼ同じ結果を与えることが相当に沢山あり、正則モデルを使ったi.i.d.のデータを使った推測に限定すれば、サンプルサイズを十分大きくすれば、最尤法とベイズ統計はほぼ同じ結果を常に与えることも証明できる。

タグ: 統計

posted at 06:21:28

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 添付画像の青線の部分は非常によくない。

ベイズ統計では、分析用のモデル内(モデルは事前分布も含む)での仮説の正しい確率は定義できるが、そのモデル自身の正しさや適切さは別に扱う必要がある。

この点は最尤法とベイズ統計のあいだで違いはない。続く pic.twitter.com/p46lIemJoW

タグ: 統計

posted at 06:17:32

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 あと、最尤法の他にも最小二乗法があるかのように述べているが、最小二乗法は最尤法の特別な場合(残差を期待値ゼロの正規分布でモデル化した場合の最尤法)である。 pic.twitter.com/YbsYAtdMHk

タグ: 統計

posted at 06:13:35

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 「そのデータと同じ数値がモデル内で発生する確率が最大になるようなパラメータを求める」とか、「そのデータにモデルが最も適合するようなパラメータを求める」のようにより正確に書くべき。

「予測」という言葉は重要なので使うべきではなかった。 pic.twitter.com/UaLIU55goE

タグ: 統計

posted at 06:11:34

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 この本では概念的に重要な事柄について驚くほど杜撰な言葉遣いで説明されています。

既出の例の他にも、最尤法について【データを最も良く予測するようなモデルのパラメータを求める】と「予測」という言葉を使って説明していることにはあきれた。続く pic.twitter.com/yrMM8Tlh0Y

タグ: 統計

posted at 06:07:45

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 上の①と②を区別しているつもりであっても、①の確率分布を既知の確率分布に特殊化したものが②であるかのように思っているとしたら、完全にアウトです。

①の分布を未知のまま放置した上で、②の確率分布を正規分布にしたりするのが正しい考え方です。

タグ: 統計

posted at 05:45:54

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 統計学における様々な概念について語る場合には

①データを生成していると想定している未知の確率分布



②統計分析用のモデル内の確率分布

の厳密な区別が必要です。①における確率変数と②における確率変数が同時に必要な場合があるので、その辺の区別に神経質になった方がよいです。

タグ: 統計

posted at 05:42:19

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 カギカッコ付きの「中心」を使った説明もまずいです。カギカッコに「厳密にはは中心ではないのだが」というニュアンスを込めたと忖度して欲しいのかもしれませんが、そういうことはやめた方がよかった。

このページの態度は多くの読者を落胆させることでしょう。 pic.twitter.com/aSYRH2mew3

タグ: 統計

posted at 05:42:18

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 p.31への書き込みを増やした。さすがに

【確率変数が持つ分布を特徴付ける値を、その期待値~という】

という説明はさすがにアウト。

あと、確率変数が従う分布はデータを取得した母集団分布とは限らないので、その平均(=期待値)と分散を【母平均】【母分散】と呼ぶのもダメです。 pic.twitter.com/xdy0DJg6qv

タグ: 統計

posted at 05:42:16

sumim @sumim

20年11月2日

ふと、練習がてらこのVMをJuliaに移植して、LuaJITやC++との比較でその速さを体感してみるのは面白そうかなと。あとRubyのOptCarrotをSmalltalkに移植して遊ぼうかと思っていたけど、このVMをRubyとPharoとかで書いて比べる方が腑に落ちそう。よほど暇でないとやれないけど…→twitter.com/sumim/status/1...

タグ:

posted at 01:44:08

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 最尤法でもできることを、ベイズ統計でもやる、というのは分析法をちょっと変えただけで結果が致命的なほど大きく変わらないことの確認には有効だった可能性があります。

ベイズ統計を使った途端に「主観確率」の更新をやっていると思うようになるというのはちょっとあり得ません。

タグ: 統計

posted at 00:58:22

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 8割おじさん達が公開しているリポジトリは

github.com/contactmodel/C...

にあり、

github.com/contactmodel/C...

には最尤法とベイズ統計(Stan)を使っているJupyter notebooksが置いてあります。どちらのノートブックでも R_t を推定している。

タグ: 統計

posted at 00:55:50

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 訂正版

「8割おじさん」として有名になった西浦博さん達による分析のリポジトリを見ると、最尤法とベイズ統計の両方を同じように使っています。

8割おじさん達が最尤法ではなくベイズ統計を使ったときにのみ信念を更新しているとは思えません(笑)

タグ: 統計

posted at 00:53:20

bra-ketくん @mac_wac

20年11月2日

@xitsune パイプライン多用したかったら結構便利。Rと併用しようと思ったら必須でした。 github.com/c42f/Underscor...

タグ:

posted at 00:47:56

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 さらに、最尤法で分析してもよいことを知りながら、複雑なモデルを回すのが楽なベイズ統計の側を使うこともある。

ベイズ統計になった途端に「主観確率」の「ベイズ主義」が必要になるなどと考えていたら、自由に統計分析できなくなってしまいます。

タグ: 統計

posted at 00:42:20

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 実際にベイズ統計の計算を試してみると、単純なモデルなら最尤法でやってもおとなしめの任意の事前分布でベイズ統計を使っても得られる結果はほぼ同じになることも多く、そうでなくても事前分布のちょっとした違いよりもモデル全体の設定の方が結果に与える影響が大きかったります。

タグ: 統計

posted at 00:39:47

うぉむ太郎 @xitsune

20年11月2日

@mac_wac using Underscoresは知らんかった。ちょっと勉強してみます!

タグ:

posted at 00:38:54

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 ベルヌーイ分布モデルは「主観確率」でベイズ統計について説明したい人にとっては非常に都合のよい単純な統計モデルだと言えます。

「主観確率」とか言わない真っ当な人達は、階層ベイズのようなちょっと複雑なモデルを例に使うことが多いと思う。

タグ: 統計

posted at 00:35:43

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 さらに説明用のモデルが、実際に使用されているようなモデルだったりすると、実際に使用されている事前分布が「主観」「信念」「確信」の類とは全然違う規準で決められているという事実を指摘される可能性が高まるので、さらに都合がわるいでしょう。

タグ: 統計

posted at 00:33:16

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 ベイズ統計の技術が有効になりそうな数学的に複雑なモデルだと、直観が効かなくなるので、主観を事前分布に反映させる話をし難くなるのです。

それは「主観確率」でベイズ統計を説明したい人にとっては非常に不都合です。続く

タグ: 統計

posted at 00:30:56

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 続き。よく見るのは、ベルヌーイ分布モデル(コインを投げたとき表の出る確率がpである場合のモデル化)です。

「主観確率」論者にとってそういう単純なモデルで説明することには大きなメリットがあります。「表の出る確率pとして何がもっともらしいと事前に思っているか」という話をし易い!続く

タグ: 統計

posted at 00:26:56

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 『統計学を哲学する』に限らず、現在では無用になっている「主観確率」の「ベイズ主義」に基くベイズ統計の解釈を捨てられない困った人達は、ベイズ統計の説明で実践的にはベイズ統計が使われそうもない単純な統計モデルで説明しようとする傾向が強い。続く

タグ: 統計

posted at 00:22:38

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 しかし、

ameblo.jp/yusaku-ohkubo/...
【事前分布は~主観的な事前の信念を反映させるものではない】

という実践データサイエンス的には普通の考え方を受け入れておらず、「信念」という解釈を捨てていない。

「主観確率」「信念」という解釈が無用であることを理解できないようだ。

タグ: 統計

posted at 00:19:39

黒木玄 Gen Kuroki @genkuroki

20年11月2日

#統計 以下のリンク先の引用は、以下のリンク先のリンク先における

www.stat.columbia.edu/~gelman/resear...
Philosophy and the practice of Bayesian statistics Andrew Gelman and Shalizi
2012

の紹介からの孫引きです。この論文は『統計学を哲学する』でも引用されています(pp.84-87)。続く twitter.com/genkuroki/stat...

タグ: 統計

posted at 00:12:38

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました