Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
並び順 : 新→古 | 古→新

2017年11月12日(日)

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#JuliaLang 自由エネルギーを数値積分で直接計算する函数を追加した。WBICは逆温度1/log(n)での被∫函数の値で積分を近似したものである。これで正しいかについてまだ確信はない。

gist.github.com/genkuroki/1c9f...

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/LLtBtXe7wF

タグ: JuliaLang

posted at 20:17:52

ぷらぎあ @plastic_gear

17年11月12日

中華3Dプリンタ、思ってたよりはしっかりしてる
必要工具やら日本用電源全部ついてくるし動画付きの説明書だし、この梱包の綺麗さ
こんなのが二万円代とか勝ち目ないな…と思って組み立て中悲しくなった pic.twitter.com/Od2NrSZB8D

タグ:

posted at 17:59:30

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#JuliaLang まだ

nbviewer.jupyter.org/gist/genkuroki...

の方には反映されていないが、

gist.github.com/genkuroki/1c9f...

の方はもう置き換わっている。

Julia言語でNUTSでMCMC。WAIC、LOOCV、WBICの計算。MCMCの結果を初期条件として使って最尤法。AICとBICの計算。

タグ: JuliaLang

posted at 15:51:58

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#JuliaLang #統計 最尤法の計算のコードが一ヶ所バグっていたので直した。ついでにGadflyじゃなくて、自前でPyPlotを使ってプロットするように書き換えた。

nbviewer.jupyter.org/gist/genkuroki...
t-distribution linear regression by Mamba

Julia言語でNUTSでMCMC。WAIC、LOOCV、WBICの計算。

タグ: JuliaLang 統計

posted at 15:48:31

Hiroyasu Kamo @kamo_hiroyasu

17年11月12日

このあと、「はじき」や「モルグリコ」の擁護が出てきて、邪道を邪道と理解できない人が可視化されるでしょう。

タグ:

posted at 14:19:20

Hiroyasu Kamo @kamo_hiroyasu

17年11月12日

「邪道とは?」との疑問がありましたので、具体例をあげます。「はじき」とか「モルグリコ」とかです。

タグ:

posted at 14:15:49

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#JuliaLang #統計 MCMCをやってくれるパッケージには、確率モデルp(x|w)、入力のサンプルX_k、事後分布のサンプルw_lに関する

log p(X_k|w_l)

を自動的に計算してくれる機能が欲しいよな。これはあまりにも基本的な量なので、ユーザーに自前で計算させるようなものではないと思う。

タグ: JuliaLang 統計

posted at 12:04:58

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#JuliaLang #統計

nbviewer.jupyter.org/gist/genkuroki...
t-distribution linear regression by Mamba

にLOOCVの計算も追加した。WAIC, LOOCV, WBIC の簡単な計算例。計算法の解説付き。確率モデルp(x|w)、入力のサンプルX_k、事後分布のサンプルw_lに関する log p(X_k|w_l) から全部計算できる。

タグ: JuliaLang 統計

posted at 11:59:24

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#JuliaLang whichマクロが便利過ぎ。{at}which hoge(x) で実際に実行される函数 hoge(x) のソースコードのありかを教えてくれる。Julia言語ではhoge(x)の中身はxの型に依存して変わることが多いので、これ結構必須かも。

タグ: JuliaLang

posted at 11:49:22

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 実際に統計がらみの数値計算を色々やってみると、「コンピューターで計算すればいいから、ガウス積分やガンマ函数について知らなくても大丈夫だよね」とはならないと思いました。計算量を減らすために大学1年レベルの微積分の計算を使う機会は結構あるように思えた。

タグ: 統計

posted at 11:40:59

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 学部生向けの「数学を避ける方針」で書かれている教科書では、ガウス積分やらガンマ函数やらベータ函数に関する説明も当然避けているので、大学1年生のときに勉強しておかないと、後で勉強する機会が無くなってしまう危険性さえあると思う。

タグ: 統計

posted at 11:38:43

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 ガンマ分布はその特別な場合であるカイ二乗分布として、正規分布と同じくらいよく出て来る。大学新入生は、Gauss積分とガンマ函数をしっかり勉強しておくべきだと思います。しっかり勉強しておかないと、後で、統計学について勉強するときに困る。

タグ: 統計

posted at 11:37:06

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 続き~、nが大きなとき、実数直線上でのX_1,…,X_nの分布はガンマ分布でよく近似されるようになります。ただし、ψ(a)=c でパラメーターaを決める。ここで、

ψ(a) = (1/Γ(a))∫ e^{-x} x^{a-1} log x dx = (ガンマ分布での log x の平均)

です。ψ(1)=(指数分布でのlog xの平均)=-γ.

タグ: 統計

posted at 11:32:54

アップグレードカラーズ @UP_TKG

17年11月12日

みなさんタイラップって買った時に袋の上を開封して、工具箱の中で全部出ちゃってたりいちいち開封口をテープで留めたり面倒な事してません??
タイラップの袋の便利な開封方法はこうです。 これなら勝手に袋から飛び出る事なく、必要なだけ取り出せて、工具箱のなかでも散らかりません! pic.twitter.com/yWNiyhJD9j

タグ:

posted at 11:32:13

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 以下、a>1と仮定します。このとき、逆温度β=-(a-1)は負になります。負の逆温度は普通によく出て来ます。

各々が指数分布 q(x)=exp(-x) に従う独立な確率変数列(X_1,…,X_n)の確率分布を相乗平均に関する不等式

log(X_1…X_n)^{1/n} ≥ c > -γ=-0.5772…

で制限すると~続く

タグ: 統計

posted at 11:29:37

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 例(ガンマ分布) スケール1のガンマ分布の確率密度函数は

p(x|a) ∝ exp((a-1)log x) q(x), q(x) = exp(-x)

の形をしています。逆温度はβ=-(a-1)で、分配函数はガンマ函数です:

Z = ∫_0^∞ x^{a-1} e^{-x} dx = Γ(a).

ベースになる確率分布は指数分布 q(x) = exp(-x). 続く

タグ: 統計

posted at 11:21:25

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 そして、所謂「指数型分布族」は「等確率の原理を仮定しているとは限らない場合のカノニカル分布」に一致しているので、応用対象を物理に限定したくなければ、「ベースになる確率分布q(x)は何でもよい。カノニカル分布p(x)はp(x)∝exp(-βH(x))q(x)の形になる」としておいた方が便利です。

タグ: 統計

posted at 10:51:33

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 KL情報量に関するSanovの定理で処理できる場合は論理的に色々クリアになっている点もうれしいです。「等確率の原理」とか言われると「どうしてそれでいいのか?」という難しい問題を考える必要が生じますが、「ベースになる確率分布は何でもよい。相対エントロピーを考えればよい」ならば簡単。

タグ: 統計

posted at 10:47:52

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 尤度比やKullback-Leibler情報量で処理できる場合には「次元を持つ量」の対数を考える必要はなくなる。

尤度比は測度論的には Radon-Nikodym derivative なので、尤度比を実用的に使ったことがある人は全員 Radon-Nikodym derivative ユーザーであったと言えると思います。

タグ: 統計

posted at 10:44:46

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 真の分布q(x)に関する予測分布p(x)の汎化損失

G(q||p) = - ∫ q(x) log p(x) dx

は座標系xの取り方を変えると変わる。しかし、Kullback-Leibler情報量(=相対情報量=相対エントロピーの-1倍)

D(q||p) = ∫ q(x) log(q(x)/p(x)) dx

は座標系xの取り方を変えても不変である。

タグ: 統計

posted at 10:41:04

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 単位系を変えることは、座標をスケール変換することに対応しているので、単位系の取り方への依存性を見ることは、座標系の取り方への依存性を見ることの特別な場合になっている。尤度の大小関係は座標系の取り方によらないので、特に単位系の取り方によらない。

タグ: 統計

posted at 10:37:20

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 もう一度まとめておくと、

* サンプルX_1,…,X_nに関する確率密度函数p(x)の尤度p(X_1)…p(X_n)は座標系xの取り方を変えると変わる。

* 2つの確率密度函数の尤度比は座標系xの取り方によらない。

* 特に尤度の大小関係は座標系xの取り方によらない。

タグ: 統計

posted at 10:35:10

鰹節猫吉 @sunchanuiguru

17年11月12日

分かるところから手をつけて、徐々に全体像が明らかになるという経験を積むことが大事と思われる。 twitter.com/tomatoha831/st...

タグ:

posted at 10:18:37

Mara Averick @dataandme

17年11月12日

ICYMI, 🌈 Incredible animations! "Sorting Algorithms Revisualized" buff.ly/2zWsW2X #visualization pic.twitter.com/UOp9gEB0qH

タグ: visualization

posted at 04:46:05

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#JuliaLang でもScikitLearnで簡単に遊べるんですね。実際に試してみたら本当に簡単でした。一部のコードは使用パッケージの側がまだ0.6に対応してなくて、0.5.2でしか動きませんでしたが。ほとんどの例はそのまま動いた。

github.com/cstjean/Scikit...

タグ: JuliaLang

posted at 01:34:12

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 すでに書いたことですが、座標系 x を座標系 y に x=y(x), y=x(y) によって座標変換すると、確率密度函数 p(x) のサンプルX_1,…,X_nに関する尤度は座標系 y にうつると |x'(y(X_1))|…|x'(y(X_n))| 倍されることになります。尤度比ではこれは分子分母でキャンセルする。

タグ: 統計

posted at 01:31:04

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 続き。尤度や対数尤度は座標系 x に依存するのですが、尤度比や対数尤度比は座標系 x に依存しない量になります。特に、尤度や対数尤度の大小関係は座標系に依存しない関係になります。ゆえに、最尤法は座標系に依存していないこともそのことからわかる。

タグ: 統計

posted at 01:27:59

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 すでにこの発言が繋がるスレッドの中で述べたように、確率密度函数は「測度」の「次元」を持つので、確率密度函数 p(x) のサンプル X_1,…,X_n の尤度 p(X_1)…p(X_n) は座標系 x に依存します。しかし、尤度比は座標系によらない量になる。続く

twitter.com/h_okumura/stat...

タグ: 統計

posted at 01:25:14

黒木玄 Gen Kuroki @genkuroki

17年11月12日

#統計 最尤法で最も気軽に使える情報量規準はAICとBICの2つなのですが、それらのベイズ推定法版のWAICとWBICを実装したつもりの #JuliaLang Jupyter notebook が次のリンク先にあります。

nbviewer.jupyter.org/gist/genkuroki...

タグ: JuliaLang 統計

posted at 00:39:42

2017年11月11日(土)

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 サンプル (X_k,Y_k) の回帰の場合には確率モデルは p(y|x,w) の形になるのですが、以上における p(X_k|w_l) を p(Y_k|X_k,w_l) に置き換えればWAICを計算できます。(注意:X_kをY_kの対応させる函数の推定だけではなく、X_kの分布も推定する必要がある場合には修正が必要になる。)

タグ: 統計

posted at 21:04:45

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 問題は階層モデルの場合で、例えば、

y ~ p_1(x|z)
z ~ p_2(z|w)
w ~ p_3(w) 事前分布

の形のモデルなら、以上の文脈での p(x|w) は

p(x|w) = ∫ p_1(x|z) p_2(z|w) dz

になります。p(x|w)を手で計算できない場合には数値積分(これが結構重かったりする)が必要になったりします。

タグ: 統計

posted at 21:01:30

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計
(3) T = -2Σ_{k=1}^n log mean{ exp(L[k,l])=p(X_k|w_l) | l=1,…,L }
(予測分布の対数尤度の-2倍, sum log mean exp の形)

(4) V = 2Σ_{k=1}^n variance{ L[k,l] | l=1,…,L }
(sum var の形)

(5) WAIC = T + V.

L[k,l] = log p(X_k|w_l) さえ得られれば簡単に計算できます。

タグ: 統計

posted at 20:55:50

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 MCMCでベイズ推定したときのWAICの計算の仕方

(0) 確率モデルを p(x|w) と書き、サンプルをX_1,….X_nとする。
(1) MCMCの結果からパラメーターの事後分布のサンプル w_1,…,w_Lを取り出す。
(2) L[k,l] = log p(X_k|w_l) を計算する。
WAICは(実際にはWBICも)L[k,l]だけから計算可能。続く

タグ: 統計

posted at 20:48:52

やねうら王 @yaneuraou

17年11月11日

千日手打開してやねうら王がAperyに勝利して、やねうら王、決勝進出確定しました!

結局、やねうら王が負けたのは、横歩取りの定跡で負けた二局だけとなりました。この定跡変化の修正は明日までになんとかしておきます(T_T) 昨日寝れてないのでもう眠いんですけど…。

タグ:

posted at 19:44:28

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 最尤法でAICを愛用して来た人達は、ベイズ推定法ではWAICを使うのがよいです。

watanabe-www.math.dis.titech.ac.jp/users/swatanab...

を見れば計算の仕方がわかります。E_w[f(w)] は事後分布のサンプルw_1,…,w_lを用いて、(1/L)Σ_{l=1}^L f(w_l) で近似計算できます。自分で実装するのは簡単。

タグ: 統計

posted at 19:40:27

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 2つのモデルのAIC(または最大対数尤度の-2倍)がそれぞれ98765と98712と計算されたとします。「それらの差は53しかない」のように見えてしまいがちなのですが、絶対値に意味はなく、差だけに意味があるのでそのような感覚は誤りです。

タグ: 統計

posted at 19:24:13

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 続き。パラメーターの一部(k個とする)を固定した部分モデルとの比較をAICで行う場合には、AICの差は自由度kのカイ二乗分布のスケールになっています。カイ二乗分布は統計学ユーザーにとって正規分布の次に身近な分布なので、この点に注意すればAICの差に関する感覚がつかみやすいと思います。

タグ: 統計

posted at 19:20:11

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 以上のような事情で、対数尤度(の-2倍)やAIC(=最大対数尤度の-2倍+パラメーター数の2倍)の絶対値には意味がありません。差だけに意味がある。そして、そこで採用されているスケールはカイ二乗分布のスケールと同じです。続く

タグ: 統計

posted at 19:17:08

やねうら王 @yaneuraou

17年11月11日

この歴史的対局(?)、お互い千日手が読みにはいりつつある。千日手指し直しはなく0.5勝扱いなので、両者決勝に残る可能性出て来た。

タグ:

posted at 19:15:45

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 続き~座標系yでの尤度は

p(X_1)…p(X_n)×|x'(y(X_1))|…|x'(y(X_n))|

になります。×以降の因子の分だけ尤度が変わってしまいます。しかし、尤度比を考えるとその部分が分子分母でキャンセルして、座標不変になります。尤度は座標依存だが、尤度比はそうではないわけです。

タグ: 統計

posted at 19:12:15

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 尤度の「次元」の話に戻る。

サンプルX_1,…,X_nに関する確率密度函数p(x)の尤度の定義は

p(X_1)…p(X_n)

なのですが、xを座標変換すると全然違う値になります。x=x(y)をp(x)|dx|に代入すると、

p(x(y))|dx(y)| = p(x(y))|x'(y)||dy| となり、x(y)の逆函数をy(x)と書くと~続く

タグ: 統計

posted at 19:09:04

やねうら王 @yaneuraou

17年11月11日

ソルコフは分からないが、次のやねうら王 vs Apery、負けたほうが5勝3敗になり、予選落ちある。今回、評価関数が一番強くなった(ただし探索部は去年のまま)Aperyが予選落ちするのは、残念だし、私の方もこのまま番組で1分しか喋らずに予選落ちするのは嫌である。

タグ:

posted at 19:03:18

黒木玄 Gen Kuroki @genkuroki

17年11月11日

「単純計算の1億回のループ」の類を気軽に回したければ、 #JuliaLang がおすすめ。対話的に気軽に使えて速いです。

julialang.org/downloads/

Jupyter notebookとの組み合わせで使うと超高級高速電卓のできあがり。

nbviewer.jupyter.org/gist/genkuroki...

に私によるインストールの記録があります。

タグ: JuliaLang

posted at 18:51:52

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 #JuliaLang のJupyter notebook

nbviewer.jupyter.org/gist/genkuroki...
対数尤度の比較によるモデル選択の簡単な例

next.juliabox.com にアップロードして誰でも利用できます。適当に書き直して遊んでみるとよいと思います。

タグ: JuliaLang 統計

posted at 18:42:39

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 添付画像は、サンプルが標準正規分布で生成されており、H_1がパラメーター数2の正規分布モデルで、H_0が標準正規分布のときの、最大対数尤度の比の2倍の経験確率分布のグラフである。見事に自由度2のカイ二乗分布で近似されている。(カイ二乗分布の自由度はパラメーター数の差になる。) pic.twitter.com/JaAfbMRA1b

タグ: 統計

posted at 18:35:19

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 続き。この結果を利用するとH_0を帰無仮説とする仮説検定をカイ二乗分布を使って行うことができる。すなわち、H_1の最大対数尤度がH_0の最大対数尤度よりも十分に大きければ、サンプルを生成している確率分布は H_0 に含まれないと判断することができる。続く

タグ: 統計

posted at 18:32:35

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 続き。この場合には、サンプルを生成している確率分布が部分モデルH_0の方に含まれるとき、H_1の最大対数尤度とH_0の最大対数尤度の差の2倍はサンプルサイズが大きなとき漸近的にカイ二乗分布に従う(Wilksの定理)。続く

タグ: 統計

posted at 18:31:26

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 以下、最尤法が有効な状況を仮定。

モデルH_1のパラメーターをk個固定して得られる部分モデルをH_0と書く。モデルH_1はモデルH_0を含んでいるので、同一のサンプルの最大尤度は常にH_1の方がH_0より常に大きい。このケースでは単純に尤度が大きい方がよいとは言えない。続く

タグ: 統計

posted at 18:28:07

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 #JuliaLang サンプルサイズを256に増やせば、最大尤度の比較によって90%以上の確率で(正規分布モデルではなく)ガンマ分布モデルを選択できる。 pic.twitter.com/7IzpmuKueN

タグ: JuliaLang 統計

posted at 18:25:28

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 #JuliaLang

nbviewer.jupyter.org/gist/genkuroki...
対数尤度の比較によるモデル選択の簡単な例

こんなに正規分布に近いガンマ分布で生成されたサイズがたったの16のサンプルの最大尤度を比較するだけで63%の確率で(正規分布モデルではなく)ガンマ分布モデルを選択できる。 pic.twitter.com/5URwQlq9v5

タグ: JuliaLang 統計

posted at 18:23:31

みゅみゅ @miyumiyuna5

17年11月11日

OpenCVで美女になれるツール作ってみた
画像のURLを入れるとその人になれちゃうw pic.twitter.com/qtby9wVDRB

タグ:

posted at 17:29:52

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#数楽 大数の法則が有効になるだけ十分にnを大きくできない場合でも使える道具として、赤池さんは対数尤度よりも精密なAICを用意してくれた。

対数尤度がどうして有用であるかに関する数学的根拠を知らないと、AICは対数尤度の精密化なので、AICについて理解することは不可能になる。

タグ: 数楽

posted at 15:31:23

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#数楽 q(x)が未知の場合には、対数尤度比は未知のままだが、pの対数尤度はサンプルだけから計算できる。大数の法則が有効になるだけ十分にnを大きくできれば、対数尤度の大小関係を見て、予測誤差の大小関係を推定できる。これも赤池さんが繰り返し強調していること。

タグ: 数楽

posted at 15:29:00

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#数楽 対数尤度比 Σ log(q(X_i)/p(X_i)) の1/n倍は、大数の(弱)法則より、n→∞でKL情報量

D(q||p) = ∫q(x)log(q(x)/p(x))dx

に(確率)収束する。D(q||p)はpによるqの予測誤差を表わしている(Sanovの定理)。赤池弘次さんが1980年の論説で重要性を強調していたことはこういう話。

タグ: 数楽

posted at 15:26:34

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 X_1,…,X_nは各々が確率分布q(x)に従う独立な確率変数であるとすると、隔離分布p(x)の対数尤度の-1倍の定義は

- Σ log p(X_i).

p(x)は測度の「次元」を持つのでlogの中を「無次元」にするためには対数尤度比

Σ log(q(X_i)/p(X_i))

を考えればよい。続く

タグ: 統計

posted at 15:23:26

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 離散分布と連続分布の尤度比を考えると、離散分布の方から来るδ(0)=∞のせいで∞または0になってしまう。

タグ: 統計

posted at 15:13:25

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 Radon-Nikodym導函数は直観的には易しい概念だと思うのですが、そういう言葉遣いをすると論理的に厳密に説明しなければいけないような気持ちになるので、統計がらみの話をするときに私はその言葉を使わないことにしている。その代わり「δ函数はふつう」ということにしてしまう。

タグ: 統計

posted at 15:10:55

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 続き。整数値の離散確率変数に対応する確率測度は Σ p_k δ(x-k)dx の形(kは整数を走る)。サンプル K_1,…,K_n に対するその尤度は

(p_{K_1}δ(0)dx_1)…(p_{K_n}δ(0)dx_n)

になる。尤度比を考えればδ(0)dx_iが分子分布でキャンセルして無次元量になる。比を考えれば問題無し。

タグ: 統計

posted at 15:08:00

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 続き。しかし、2つの確率分布p_0とp_1の尤度比は分子分布の dx_i 達が全部キャンセルして「無次元」になる。

一般論的には、確率を測度で定式化しておいて、Radon-Nikodym導函数(スカラー函数になる)のX_iでの積が尤度比だと考える。

対数尤度比でも同様に考えることができる。

タグ: 統計

posted at 15:00:23

Norio Maeda⚧️ @nmaeda2

17年11月11日

@genkuroki ネットはこういうのが楽しいw ただ、昔は著書に自宅の住所を書くことも多かったから、郵便で読者と直接やり取りしている著者も少なくなかったとは思う。

タグ:

posted at 14:55:45

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 測度の「次元」を持つものには dx とか |dx| とかを付けておいた方が「間違い」が減るかも。例えば確率密度函数を p(x)dx とか p(x)|dx| のように書くとか。このとき、サンプル X_1,…,X_n の尤度は

p(X_1)dx_1…p(X_n)dx_n

なので、dx_i 達の取り方の分だけ定数倍の不定性が生じる。続く

タグ: 統計

posted at 14:55:35

黒木玄 Gen Kuroki @genkuroki

17年11月11日

detail.chiebukuro.yahoo.co.jp/qa/question_de...
【田崎晴明著「統計力学I」(培風館)の注釈に「対数の引数は必ず無次元になるとはいえない」とあり、これが理解できません。
何か具体例をあげて説明してもらえませんか。~

ベストアンサーに選ばれた回答~
田崎です。拙著をお読みいただき、ありがとうございます。~】(笑)

タグ:

posted at 14:48:40

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@hottaqu 統計力学はむしろ「主要項以外は無視する」のがいちばん基本にある考え方だから、そこはだいぶ違いますかね

タグ:

posted at 14:37:43

Masahiro Hotta @hottaqu

17年11月11日

@kikumaco プランクは原理的限界ですが、現実の場合は実験のセットアップで決まるのだと理解してます。

タグ:

posted at 14:36:27

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@hottaqu 量子重力なら長さの下限としてプランク長が現れるのでしょうが、身の丈サイズの量子系の測定にプランク長が出てきたらちょっとおかしいですね

タグ:

posted at 14:28:23

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@hottaqu 実験の場合には「何があろうとこれより小さい差は無意味」という下限がどこかにあるはずで、それを使ってpを「無次元関数/下限値」にするのだと思います。測定誤差は「誤差/下限値」の形にまとめられるはずです。ただ、「エントロピーの主要項が大きい」という条件が満たされないと意味ないですが

タグ:

posted at 14:26:55

Masahiro Hotta @hottaqu

17年11月11日

@kikumaco 有限次元物性系だとOKですが、量子場だとそれがどこまでOKなのかが最近問題だなと再認識しています。

タグ:

posted at 14:23:33

Masahiro Hotta @hottaqu

17年11月11日

@kikumaco @Hal_Tasaki 統計力学はそれができるから分かりやすいですね。

タグ:

posted at 14:22:21

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@hottaqu 完全に一般的な問題を考えると、病的なものを含むので、僕にはわかんないです。熱力学極限で生じる問題は多くの場合「まずは有限系で考える」で解決するように思います

タグ:

posted at 14:21:11

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@Hal_Tasaki @hottaqu 有限じゃない問題は困りますね。統計力学の問題なら「常に有限の箱に閉じ込めた系を考えてから無限大の極限を取る」で解決できるでしょうか

タグ:

posted at 14:19:27

Masahiro Hotta @hottaqu

17年11月11日

@kikumaco そうですよね。熱力学極限のエントロピーだと、そう理解できるのですよね。一般論だといろいろ難儀です。

タグ:

posted at 14:18:56

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@hottaqu 微視的尺度のない問題で、純粋に数学的な話とすると、僕にはわかりません。ただ、現実的な問題なら必ず微視的尺度は存在するのではないかという気がします

タグ:

posted at 14:17:49

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@hottaqu するため、第二項のΔEはε<<ΔE<<Eを満たしさえすれば、なんであってもエントロピーは同じです。典型的にはΔEはNに比例でしょうから、第二項はO(1)の量の対数で第一項に比べて無視できます。少なくとも統計力学については「微視的エネルギー尺度」の存在から、こうなるはずです

タグ:

posted at 14:16:27

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@hottaqu 完全に一般的な状況での数学の話としては僕にはわかりません。統計力学の問題なら、微視的なエネルギー尺度εが必ず存在して、状態密度は無次元関数ΩによりΩ(E/Nε,N)/Nεの形に書けます。エントロピーはS=logΩ(E/Nε,N)+logΔE/Nεの形になって、第一項はNに比例

タグ:

posted at 14:13:41

Masahiro Hotta @hottaqu

17年11月11日

@kikumaco 一般に次元をもった連続量xに対する確率分布p(x)に対して、情報量としてのS(Δx)=-∫dxp(x)ln(p(x)Δx)は幅Δxに依存してしまいます。シャノンをS=-∫dxp(x)lnp(x)をとすると、S(Δx)=S―ln Δxという結果になりますから。この―ln Δxを気にしてます。

タグ:

posted at 13:52:20

Hal Tasaki @Hal_Tasaki

17年11月11日

@kikumaco @hottaqu 全空間の測度が有限なら一様分布に対する KL が「正しいシャノン」ですがそうじゃない時には困りますね。

タグ:

posted at 13:51:39

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@Hal_Tasaki @hottaqu カルバック・ライブラーを使え、ということでしょうね

タグ:

posted at 13:48:56

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@hottaqu 結果がエネルギー幅に依存しないことはすぐにわかるので、その問題に関してだけなら、「適当な幅でよい」が答えだと思います

タグ:

posted at 13:42:18

Hal Tasaki @Hal_Tasaki

17年11月11日

@hottaqu @kikumaco 連続変数の場合のシャノンは単に差だけが意味を持つということでしょうね。さらに言えば(よく言われるように)シャノンよりも相対エントロピーの方がより本質的な量だということかなとも思います。

タグ:

posted at 13:40:20

io302 @io302

17年11月11日

@togetter_jp 接種者のみに全数調査をしても、ワクチンとの因果関係は確定しません。非接種者との比較をしなければいけません。

仮定の話ですが、全数調査をし、ワクチンとの因果関係が否定されたら、Seki_yoさんはそれを『受け入れる』のですよね?

twitter.com/seki_yo/status...

タグ:

posted at 13:16:28

Masahiro Hotta @hottaqu

17年11月11日

@kikumaco 実数値を取る確率変数Xの確率密度関数をp(E)とするとき、エントロピーをS=-∫p(E)lnp(E)dEで定義する場合がありますが、これはやっぱり対数の引数に次元の問題が起きてます。このせいで、Sは負になったり、またE'=f(E)という変換でSは不変でなかったりするわけで。

タグ:

posted at 13:09:10

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 現実には好きなだけサンプルサイズを増やせることは極めてまれなので、尤度を見るだけでは現実の問題に対処できません。その問題への突破口を赤池情報量規準AICもしくは "an infomation criterion" が開いたわけです。ベイズ推定法を使っている場合にはWAICがおすすめ(ABICは時代遅れ)。

タグ: 統計

posted at 13:07:36

Masahiro Hotta @hottaqu

17年11月11日

@kikumaco 離散量なら問題ないですが、連続量の場合、適当なエネルギー幅はどうするのか、いつも疑問に思います。

タグ:

posted at 13:05:56

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

全エネルギー一定の条件で状態をランダムにサンプリングするとミクロカノニカルアンサンブルが得られるけれども、条件を緩めて全エネルギーの上限が決まっているとしても同様のアンサンブルが得られる。理由は多くの場合に状態密度はエネルギーの急激な増加関数だから。これを使う計算手法は少しある

タグ:

posted at 13:04:39

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 この問題が解ければ、サンプルに対する確率分布の尤度は、その確率分布のもっともらしさの指標になっていることが納得できると思う。

ヒント:大数の法則とKullback-Leibler情報量に関するSanovの定理。既出の赤池弘次さんの論説に答えが書いてあります。Fisherさんも理解していなかったこと。

タグ: 統計

posted at 13:03:06

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 問題補足:サンプル(確率分布 q(x) に従う乱数の列) X_1,…,X_nに対する確率分布(密度函数) p(x) の尤度は p(X_1)…p(X_n) と定義されます。尤度によって確率分布を選択する場合には尤度の大きな方を選択します。

タグ: 統計

posted at 13:00:41

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

計算機の中で曲がりなりにも熱平衡を作り出せるのは、それがありふれた状態のアンサンブルだからで、「すごく珍しい状態を集めてこい」と言われると難しい。レア・イベント・サンプリングはそれをやろうとしている。そのためには、その珍しい状態が「もっともありふれたもの」になる拘束条件を探す

タグ:

posted at 12:58:17

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 問題:未知の確率分布qとほぼそれに一致している確率分布p_0とp_0よりqから離れている確率分布p_1が任意に固定されているとする。真の分布qに従って独立生成されたサンプルのサイズを十分に大きくできれば、p_0とp_1の尤度の比較によってp_0をほぼ確実に選択できる数学的理由を説明せよ。

タグ: 統計

posted at 12:55:16

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

統計力学は、与えられた拘束条件のもとでもっともありふれた状態とはどんなのか、を知る枠組み。世の中で起きることの殆どすべてはありふれている、ということ

タグ:

posted at 12:55:08

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

対数の中が無次元かどうかで引っかかる可能性があるのは、統計力学に出てくる「エントロピーは状態密度の対数」というところか。状態密度はエネルギーの逆数の次元を持つので、このままでは無次元にならない。これは適当なエネルギー幅をつけて状態数にするのがたぶん正しい解決法

タグ:

posted at 12:46:59

Haruhiko Okumura @h_okumura

17年11月11日

(データサイエンス向き)尤度関数は無次元か? もしそうでないなら対数尤度はどうなる?

タグ:

posted at 12:34:59

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

僕が対数の中も無次元にしたほうが見通しがいいんだなと気づいたのはキャレンの教科書を読んだとき

タグ:

posted at 12:19:31

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

無次元になるべきものがちゃんと無次元になっているかを確認するのは、計算間違いを見つける上では便利。僕は計算間違いが多いので

タグ:

posted at 12:16:26

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

キャレンに倣って、理想気体のエントロピーは
S=N(s0+logU/Nu0+logV/Nv0)のような書き方をします。s0,u0,v0は基準状態1モルのエントロピーとエネルギーと体積。あ、logの前の係数は省きました

タグ:

posted at 12:15:02

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@Hal_Tasaki 僕は計算間違いが多いので、間違いを減らすためのルールみたいなものです

タグ:

posted at 12:05:35

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

@Hal_Tasaki 僕はカウンターパートを持ってきて無次元にします

タグ:

posted at 12:02:55

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

たとえば、理想気体のエントロピーを logT+logV+Cように書いてしまう初等的な熱力学の教科書は多いけれども、基準状態のエントロピーを使うと対数の中はちゃんと無次元化される。僕が見た範囲ではキャレンの教科書ではそこに気を遣って、無次元にしてある

タグ:

posted at 12:02:18

Hal Tasaki @Hal_Tasaki

17年11月11日

@kikumaco たぶん、僕らは無次元にしてないですよ。統計力学の計算で log V とか普通に書きませんか?(もちろん、counterpart はある。)

タグ:

posted at 12:00:08

あ〜る菊池誠(反緊縮)公式 @kikumaco

17年11月11日

これも実は僕のunpublishedなノートには書いてあって、講義では話している。対数の中を無次元にするためのカウンターパートが必ず存在して、きちんと組み合わせると必ず無次元にできるし、無次元にする方がよい twitter.com/hal_tasaki/sta...

タグ:

posted at 11:57:21

io302 @io302

17年11月11日

@togetter_jp 問4の回答
『結核の発症を52-74%程度、重篤な髄膜炎や全身性の結核に関しては64-78%程度予防することができると報告』『効果は10-15年程度続く』
『小児に限ると米国の小児の患者の発生率を下回って』

『全年齢』の結核でなく、『小児』の結核予防に有効なのよね、BCGは

www.mhlw.go.jp/seisakunitsuit...

タグ:

posted at 11:45:28

io302 @io302

17年11月11日

@togetter_jp 『本の帯だけ、表紙だけで判断するな!』というワクチン反対する人達からお言葉頂戴したので、「はじめに」をためし読み。

いきなり結核の死亡率でBCG接種の必要性を論じている。BCGにも結核に関しても理解がない事が露呈。

books.bunshun.jp/ud/book/num/97...

タグ:

posted at 11:41:45

io302 @io302

17年11月11日

@togetter_jp 『 「不要だ!」という医者も、小児のワクチンの専門家でもないし、感染症の医師でもないし、公衆衛生の専門家でもないし、婦人科検診や腫瘍の治療をしているわけでもない内科医』

今回の近藤誠(『放射線科医』)の反ワクチン本にも通じる話。ワクチン接種も、麻疹やB型肝炎の治療に関わってもいない

タグ:

posted at 11:17:07

io302 @io302

17年11月11日

@togetter_jp 『HPVワクチンを不妊になるぞ!的脅しデマ』
『そもそも不妊の人を診察している人なのか』
『不妊の専門家でも婦人科腫瘍の専門家でもない人たちが、証拠もなく書いているだけ』

因果関係を認めたいがために『有害事象』を悪用したデマですね。

blog.goo.ne.jp/idconsult/e/23...

タグ:

posted at 11:14:31

io302 @io302

17年11月11日

@togetter_jp なので、ワクチン接種後に起きた出来事で、ワクチンによる可能性があるものは報告され、有害事象として集積されます。よくワクチンに反対する人達が『ワクチン後に問題があった事例がこんなに!』と言ってますが、『有害事象』であって『副反応』ではありません

d.hatena.ne.jp/usausa1975/201...

タグ:

posted at 11:01:32

io302 @io302

17年11月11日

@togetter_jp 『因果関係を 否定したいがため「有害事象」だ』とSeki_yoさんはおっしゃってますが、よくある有害事象の誤認識です。

『有害事象のうち、ごく一部が副反応』で、『医療行為と「因果関係のある」有害事象』が副反応です(trendy.nikkeibp.co.jp/article/column...)。

twitter.com/seki_yo/status...

タグ:

posted at 10:50:58

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 赤池さんの解説を読めば、尤度よりも対数尤度を考えることの優位性がどこにあるかが明瞭にわかるし、その結果として、どうして尤度がもっともらしさの指標に成り得るかもわかるし、どうして最尤法が有効であるかもわかるし、さらに、尤度を上げればいいってもんじゃないこともわかる。

タグ: 統計

posted at 10:24:29

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 赤池弘次さんの論説

ismrepo.ism.ac.jp/?action=pages_...
統計的推論のパラダイムの変遷について

www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度

「尤度ってどうしてもっともらしさなの?」「客観確率 vs. 主観確率という対立図式はおかしいよね?」のような疑問を持つ人達には特におすすめ。

タグ: 統計

posted at 10:04:06

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計
www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度
赤池 弘次

には他にも色々面白い部分があって、赤池さんは

AIC (an information criterion)

と書いていて、それに編集委員会が脚注を付けています(笑)。 pic.twitter.com/e6v49w9jlC

タグ: 統計

posted at 09:59:02

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 私が書いたSanovの定理(の易しい場合)に関する非常に詳しい解説が次の場所にあります。階乗のスターリングの近似公式の解説はその最初の部分にあります。

尤度の概念が「もっともらしさ」であることを納得するにはKL情報量に関するSanovの定理の理解が必須。

genkuroki.github.io/documents/2016...

タグ: 統計

posted at 09:54:47

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 モデルの確率分布 q に従うN回の独立試行で真の確率分布 p が(ほぼ)得られる確率(モデルによる予測が当たる確率)の -1/N 倍は Kullback-Leibler 情報量 D(p||q) で近似されるというのがSanovの定理です。

タグ: 統計

posted at 09:52:19

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 N_i = N p_i (の整数部分)とおいて(p_i達は固定)、スターリングの公式

N_i! = N_i^{N_i} e^{- N_i}√(2πN_i)(1 + o(1))

を多項分布の確率の式に代入すると、

log(確率) = - N D(p||q) + o(N).

ここで D(p||q) = Σ p_i log(p_i/q_i) はKullback-Leibler情報量です。
これがSanovの定理。

タグ: 統計

posted at 09:47:11

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 添付画像は赤池弘次さんによるKullback-Leibler情報量に関するSanovの定理の簡潔な解説。

www.jstage.jst.go.jp/article/butsur... より

「Sanovの定理」とか呼ぶと何か難しい結果のように誤解してしまうかもしれないが、実際には多項分布の確率の式にスターリングの公式を代入しただけの結果である。 pic.twitter.com/4AbNKDjPNC

タグ: 統計

posted at 09:39:12

2C1Pacific @2C1Pacific

17年11月11日

私が大学行政のあり方に決定的に違和感を持つようになったのは、東京23区内の大学新増設の禁止を大学設置基準という文科省告示だけで決めることができたということ。国土行政では工場等制限法という法律で決めてたことで同法は廃止されたのに、大学行政だと告示一本で決められるって何なのかと。

タグ:

posted at 07:59:27

ʇɥƃıluooɯ ǝıʇɐs @tsatie

17年11月11日

流石に工学だなぁ。的確な表現で現状の問題 #掛算 #くもわ #筆順 等に代表される数多の問題を指摘してるのだな、、多分。 twitter.com/a_saitoh/statu...

タグ: くもわ 掛算 筆順

posted at 07:52:38

積分定数 @sekibunnteisuu

17年11月11日

なんなら、教員採用試験の問題にしたらいいと思うw

答案Aを正答、答案Bを誤答 とする屁理屈
答案Aを誤答、答案Bを正答 とする屁理屈

をそれぞれ2つずつ記述せよ

このくらいのことが出来ないと、採点への抗議に太刀打ちできないからねw

タグ:

posted at 06:58:38

積分定数 @sekibunnteisuu

17年11月11日

もちろん、「7a/12 が正解  a/4+a/3 はバツ」を「正当化」する屁理屈も思いつける。

なるべく短い式にしないとならない

とか

通分がちゃんと出来るかを示すべきだ

とか

タグ:

posted at 06:55:59

積分定数 @sekibunnteisuu

17年11月11日

しかし、#超算数 案件を多数知っていると、

「7a/12 はバツ  a/4+a/3 が正しい。後者の方が往路と復路が分かれていて問題文の意味に合っているし、それぞれの所要時間が分かり易い」

という、逆の採点基準を「正当化」する屁理屈がすぐに思いつける。

タグ: 超算数

posted at 06:53:24

積分定数 @sekibunnteisuu

17年11月11日

一体何を言っているのか分からなくて、???となってしまった。模範解答を見たら、7a/12 が正解とされていた。

えっ、そこ?

タグ:

posted at 06:47:57

積分定数 @sekibunnteisuu

17年11月11日

ある中学での数学のテスト、

akmの距離を、往路は時速4kmで復路は時速3kmで往復するのにかかる時間は?

a/4+a/3 という答案にバツがついていて、「これは、分からなくて何も書かなくてバツで、そのあと直しで正解を書いたのかな?」と思ったら、そうじゃなくて「この答えでバツ」とのこと。

タグ:

posted at 06:46:39

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 次のリンク先に、赤池さんの2つの論説を読む前に私が書いた尤度の理解の仕方に関する解説があります。

mathtod.online/@genkuroki/815...

数学好きは数式を自由に使える mathrodo.online に登録しよう!(宣伝)

タグ: 統計

posted at 02:22:51

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 統計学教育的には、ベイズ統計以前の問題として、尤度について「もっともらしさ」という言葉のちからで何か説明したつもりになっているような解説が非常に多いことの方が問題かも。どうして尤度が「もっともらしさ」の指標として使えるかに関する数学的理由が重要。

タグ: 統計

posted at 02:20:11

黒木玄 Gen Kuroki @genkuroki

17年11月11日

⚡️ "WBICの計算の仕方について"

twitter.com/i/moments/9290...

タグ:

posted at 02:12:46

黒木玄 Gen Kuroki @genkuroki

17年11月11日

⚡️ "赤池弘次さんの2つの論説を読んで"

twitter.com/i/moments/9290...

タグ:

posted at 02:08:51

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 以上の話は以下のリンク先のまとめの続き

twitter.com/genkuroki/stat...

タグ: 統計

posted at 02:01:40

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 注意:私の理解では「統計的意思決定論はベイズ統計でも何でもない」という立場であれば統計的意思決定論自体に問題があるとは思えません。統計的意思決定論には、未知の確率分布を推定するベイズ統計とはまったく無関係の、独立した数学的価値があると思います。

タグ: 統計

posted at 01:55:36

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 おまけ2:数学がからむ事柄では同じ用語を使っていても違う話であることがよくあります。例えば「ナイーブベイズ」はベイズ推定法ではないし、事後分布を使っていても事後確率最大化法(所謂MAP法)もベイズ推定法ではありません。少なくとも以上の話の文脈ではそういうことになります。

タグ: 統計

posted at 01:50:19

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 おまけ:どこかで「それらの情報量規準は漸近論を前提にしているので、階層モデルでは有効ではない」というようなひどい誤解を見たような気がします。階層ベイズモデルでもWAICの類は当然有効です。

タグ: 統計

posted at 01:46:38

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 赤池情報量規準AICやそのベイズ推定法版のWAICなどの優れた情報量規準を使えば、主観や思い込みが入り込んだ複数の推定結果を客観的に比較する方法が得られます。

タグ: 統計

posted at 01:45:15

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 事前分布を変えたときの予測分布の予測精度の変化(WAICが低いほど予測分布の予測精度が高いと推定される)の実例については既出の次のリンク先を見て下さい。(WBICの実装にはまだ自信がないので要注意。)

nbviewer.jupyter.org/gist/genkuroki...

バグを見付けたら教えて下さい。直します。 #JuliaLang

タグ: JuliaLang 統計

posted at 01:40:23

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 「頻度主義 vs. ベイズ主義」という対立図式でベイズ統計に関する講義をしてしまった人が、赤池さんの論説を読んだら、顔が真っ青になるんじゃないかと思いました。

ismrepo.ism.ac.jp/?action=reposi...
統計的推論のパラダイムの変遷について

www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度

タグ: 統計

posted at 01:24:27

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 尤度の概念の理解にはKL情報量のSanovの定理が必要だとか、「頻度主義 vs. ベイズ主義」という対立図式は誤りであるとか、予測分布の予測精度を問題にすれば最尤法とベイズ推定法を統一的に理解できるとか、赤池さんが言っていたことが日本国内で常識になっていないように思えます。残念な話。

タグ: 統計

posted at 01:20:14

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 どの事前分布(先験分布)を選択するかについても、何らかの情報量規準で決めることができるわけです。情報量規準を使えば、一様事前分布やそれに近い事前分布を使うと予測精度が下がる場合があることがわかる。一様もしくはそれに近い分布で事前分布を固定すると予測精度の点で不利になります。

タグ: 統計

posted at 01:14:23

ぱりー @Woofer30

17年11月11日

この批判については、統計学者よりも経済学者の意見を聞きたいですね。特に、現代の経済学者に。 twitter.com/genkuroki/stat...

タグ:

posted at 01:10:12

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 ベイズ統計や主観確率や頻度主義などについてググると、予測分布とKL情報量結び付けることによって予測の精度という観点からすべてを統一的に理解する道を赤池さんが何十年も前に提案しているのに、それを無視して「頻度主義 vs. ベイズ主義」という図式で解説する人達がたくさん見付かる。

タグ: 統計

posted at 01:09:39

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 私は「頻度主義 vs. ベイズ主義」とか「最尤法 vs. 事前分布を使うベイズ推定法」のような対決図式を描いてベイズ統計の解説を行うことはひどいと感じており、何度もそういう発言を繰り返しているのですが、赤池さんが書いたものを読んで自信を深めました。

タグ: 統計

posted at 01:07:25

Stats for bios @StatsForBios

17年11月11日

Just a gallery of nice machine learning examples in Julia. #julialang github.com/cstjean/Scikit... pic.twitter.com/4cBylzeFIM

タグ: julialang

posted at 01:07:00

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 「エントロピーとモデルの尤度」におけるエントロピーは実質的にKL情報量であり、KL情報量はSanovの定理より、予測分布の予測精度を表わします。予測分布の予測精度(=KL情報量)を考えれば、最尤法とベイズ推定法を統一する視点が得られることもはっきり述べています。

タグ: 統計

posted at 01:06:03

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 私の持論は、統計学を学ぶための確率論における基本定理は

* 大数の法則
* KL情報量に関するSanovの定理
* 中心極限定理

の3つだということです。尤度の概念を理解するためには、大数の法則だけではなく、Sanovの定理の理解が必須だと思う。Sanovの定理は中心極限定理より易しいです。

タグ: 統計

posted at 01:02:36

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 赤池さんは、尤度の概念の統計学的有用性をKL情報量のSanovの定理を用いて説明しています。私は、尤度の概念を理解するためにはSanovの定理の理解が必須だという意見を持っていたので、その説明に私はとても喜びました。尤度の説明については赤池さんにみんな従えばよいと思いました。

タグ: 統計

posted at 01:00:45

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 赤池さんは「エントロピーとモデルの尤度」のp.610の右半分ではSanovの定理(←易しい定理なので本当は名前をつけるまでもない)の解説もしてくれています。非常に親切な解説の仕方だと思いました。B(p,q)の-1倍がKL情報量です。

タグ: 統計

posted at 00:58:30

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計
「統計的推論のパラダイムの変遷について」
ismrepo.ism.ac.jp/?action=reposi...

を読んで疑問が残った人はもう一つの

「エントロピーとモデルの尤度」
www.jstage.jst.go.jp/article/butsur...

も読むと得るところが多いと思います。そこでのエントロピーはKL情報量のことだと思って構いません。

タグ: 統計

posted at 00:56:09

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 赤池さんによれば、フィッシャーの側は尤度の「信念」(主観)としての理解にとどまっている点で不完全であり、サベジの側は主観確率の変な形での正当化にこだわった点で完全にアウト。これは「頻度主義 vs. ベイズ主義」のような図式の描き方は不適切だと言っているに等しい。

タグ: 統計

posted at 00:52:23

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 「主観確率」なる概念を変な形で正当化することによるベイズ統計の正当化に対する赤池さんの批判は

ismrepo.ism.ac.jp/?action=reposi...

の第7節にあります。そこではサベジがフルボッコにされています。

タグ: 統計

posted at 00:47:42

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 統計学において「信念」という言葉を聞くと「ベイズ統計」を思い浮かべる人は多いと思います。しかし、赤池さんは、ベイズ統計を広めた人たちが「主観確率」の概念を変な形で正当化することによってベイズ統計をも正当化したつもりになっていることを強く批判しています。

タグ: 統計

posted at 00:44:54

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 要するに、尤度とKL情報量を結び付けることができれば、尤度の概念の有用性に確率論的な基礎付けを与えることができるわけです(大偏差原理に関係がある)。ところが、赤池さんによれば、フィッシャーさんは尤度を「合理的な信念の尺度」だと言ってしまっているらしい。信念…

タグ: 統計

posted at 00:43:18

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 尤度は確率そのものではないのですが、「平均対数尤度ー定数=KL情報量」はSanovの定理によって「n回続けて予測が当たる確率の対数の-1/n倍」と漸近的に一致します。確かに尤度は確率ではないのですが、KL情報量を通して予測分布の確率的精度と結び付いています。

タグ: 統計

posted at 00:40:19

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 フィッシャーさんは最尤法を広めたことで有名なのですが、赤池さんによれば(以下は私による意訳)、フィッシャーは平均対数尤度の-1倍がKullback-Leibler情報量と定数差の違いを除いて等しいことに気付いていなかったせいで、尤度の概念を十分に理解できずに終わった。手厳しい。

タグ: 統計

posted at 00:36:20

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 11/5にGoogleのロゴが赤池弘次さんになっていたので、赤池さんが書いたものをググって読んでみました。次の2つ(どちらも1980年の論説):

ismrepo.ism.ac.jp/?action=reposi...
統計的推論のパラダイムの変遷について

www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度

タグ: 統計

posted at 00:30:50

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 - log p は「確率pで成功」の確率分布で「確率1で成功」の確率分布をシミュレートしたときの予測精度を表わすKullback-Leibler情報量(低いほど精度が高い)そのものです。1 log(1/p)+(1-1)log((1-1)/(1-p) = - log p.

この例を見れば、KL情報量が予測精度の指標である理由が少しわかる。

タグ: 統計

posted at 00:21:15

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 #Baysian 確率pで成功する独立試行をn回繰り返したとき、全部成功する確率の対数の -1/n 倍は (-1/n)log p^n = - log p であり、これのスケールがKullback-Leibler情報量のスケールに一致しています。- log pが0に近いほどたくさん成功し続ける確率が高くなる。(予測においては精度が高い。)

タグ: Baysian 統計

posted at 00:15:25

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 #Baysian 統計学を少しでもかじっていれば、カイ二乗分布のスケールは非常に身近なものだと感じられるはずなので、伝統的なAICのスケールも結構魅力的だと思います。もちろん、KL情報量のスケール(確率の対数の-1/n倍)も魅力的。個人的には両方使いたい。

タグ: Baysian 統計

posted at 00:12:48

いちご大福ー全国学校ハラスメント被害者連 @masaki_dokkili

17年11月11日

1学期、担任のセクハラを警察に相談したら、痴漢行為になる恐れがあると、警察は私の訴えを受けてくれた。6月からは警察官が授業を見に来てくれた。セクハラ行為で悩んでる人は恥ずかしがらずに警察に相談に行った方が良いです。交番じゃなくて、警察署の生活安全課です。体罰も同じ。

タグ:

posted at 00:11:32

黒木玄 Gen Kuroki @genkuroki

17年11月11日

#統計 #Baysian WAICのスケールとして、Kullback-Leibler情報量のスケールを採用することと、伝統的なAICのスケールを採用することには一長一短があって、前者はKL情報量=予測誤差のスケールと一致し、後者は対数尤度比のカイ二乗検定のスケールに一致している。

タグ: Baysian 統計

posted at 00:10:33

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました