Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
並び順 : 新→古 | 古→新

2020年11月04日(水)

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 p.144-145の毎年1000人のデータを集める話も奇妙だったが(添付画像1)、その奇妙な話を図にしたと思われるものがp.150にあった(添付画像2)。

どうも【長期的には】という但し書きは本当にそう思っていて書かれた可能性が高い。 pic.twitter.com/FY0lhmI2pC

タグ: 統計

posted at 00:05:45

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 普通の考え方を再度復習。

データY_1,Y_2,…は未知の分布q(y)のi.i.d.として生成されていると想定する。

やりたいことは、データY_1,…,Y_nが既知になったときに、そのデータから次のY_{n+1}の確率分布を推測することである。

この基本設定が分かっていれば奇妙な説明にはならないはず。続く

タグ: 統計

posted at 00:10:26

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 正則性その他の条件を満たす統計モデルp(y|θ)を使った最尤法では、尤度函数 L(θ)=p(Y_1|θ)…p(Y_n|θ)を最大化するパラメータθ*を求めて、p*(y)=p(y|θ*)をその次のY_{n+1}の分布の推測結果だとする。p*(y)=p(y|θ*)は予測分布と呼ばれる。続く

タグ: 統計

posted at 00:13:32

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 上の設定ではY_{n+1}の真の分布は未知のq(y)である。

予測分布による真の分布のシミュレーションの誤差はSanovの定理より、KL情報量

D(q||p*) = ∫q(y)log(q(y)/p*(y))dy

で測られる。これは汎化誤差

G(q||p*) = -∫q(y)log p*(y) dy

と定数差しかないので、~続く

タグ: 統計

posted at 00:16:54

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 続き~、汎化誤差を最小化すれば予測分布の真の分布に対する誤差も最小化される。

しかし、汎化誤差は未知の真の分布q(y)を使って定義されているので、実践的には計算不可能。

だから、データY_1,…,Y_nのみを使って計算できる代替物を見つけたい。続く

タグ: 統計

posted at 00:19:46

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 その代替物として有名なのがAICである。しかし、ずっと上の方のベルヌーイ分布モデルの場合のように、nを大きくすると、AICと汎化誤差は逆相関するので、AICは汎化誤差の推定値としても平均汎化誤差の推定値としても一致性を持たない。続く

タグ: 統計

posted at 00:22:50

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 しかし、上の方で紹介した例では、AICを使うと正しいモデル選択に82%程度の確率で成功し、18%の確率でひどく予測を外しまくる結果の方を選択することになる。

AICによるモデル選択の実態はこういうものである。

タグ: 統計

posted at 00:25:34

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 Bernoulli分布モデル(これより易しい例はない‼️😊)の場合のAICについてはこのスレッドの上の方の以下のリンク先の前後を参照せよ。

そこではAICに関する真実が説明されている。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 00:28:08

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 AICが間違ったモデルを選択してしまう場合が生じる理由は、運悪くサンプルが偏ってしまい、偏ったサンプルにオーバーフィットした側のモデルの方がAICが低くなってしまう場合があるから。

そうなる確率はそれなりに低いのですが、真実から大きくかけ離れた予測分布の側を選択してしまいます。

タグ: 統計

posted at 00:32:47

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 あるシンプルなケースでAICによるモデル選択が失敗する確率は十数パーセントになり、失敗したときの予測の外し方は非常に大きくなります。

我々の社会のリスクに関わる事柄を扱う場合にはマジで要注意だと思います。

他人にギャンブルを勧める人はリスクも強調しないと倫理的に問題がある。

タグ: 統計

posted at 00:35:45

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 真の予測誤差に逆相関するというAICとその仲間達の普遍的な数学的性質を知っていて、そのリスクについても正直に触れることが重要だという立場で、件の本のAICの哲学的含意の説明を読むことがどれだけ辛いことであるかを想像してみて欲しいです。

タグ: 統計

posted at 00:38:46

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 こういう感じで「売れ線の本」を酷評するようなことを私だって本当はしたくないのですが、AICなどに関する数学や数値実験の結果とソースコードを保有公開しているような人でなければ、このスレッドに書いたような警告を出すのは無理だと思う。

他に誰がいる?

タグ: 統計

posted at 00:43:44

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 実践的な統計学の応用では、真の法則がずっと不明のままであり、選択したモデルを実際に応用しまくるまで、サンプルが運悪く偏っていたせいでモデル選択にひどく失敗していたことに気付くことはないのです。

各分野固有の専門知識による防波堤を築くことは非常に重要です。

タグ: 統計

posted at 00:47:37

じりおん @zillione

20年11月4日

Julia、いまいちまだ細かい言語仕様とか標準機能とかが分かってない感がある

タグ:

posted at 00:49:47

J. Ling @l_II_llI

20年11月4日

#julialang prevents morning brain fart on election by handling unit for me ;)

seriously, why there's a hw due tmr? pic.twitter.com/dI9xcBaeoG

タグ: julialang

posted at 00:50:40

非公開

タグ:

posted at xx:xx:xx

積分定数 @sekibunnteisuu

20年11月4日

「結果の正しさではなく過程の正しさを追求している」

じゃなくて

「一意的に定まる結果じゃなくて、様々な道がある過程の中で教える側が想定する唯一の方法」

だね。 twitter.com/sleep_sheep201...

タグ:

posted at 06:52:13

たまね @togekiss1234

20年11月4日

普通に使っていますよ〜 twitter.com/genkuroki/stat...

タグ:

posted at 10:38:47

たまね @togekiss1234

20年11月4日

Debianのバージョンも今は最新だしターミナルも使いやすくなったし(まだ日本語は使えないのか…)あとは本体のスペックがクソザコな場合が多いというのだけが問題ですかね…。まあ私はコーディングにしか使わないのであまり不自由ありません。

タグ:

posted at 10:42:26

madfish @madfish19

20年11月4日

統計という超重要分野について、哲学というデタラメを用いて語るのは、医学は役に立たないという主張と同値。撤回するべき。news.yahoo.co.jp/byline/yamamot... twitter.com/genkuroki/stat...

タグ:

posted at 10:57:10

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 p.83に【分布族が対象を十全にモデル化】していなくても【ある弱い前提さえおけば、ベイズ流の更新プロセスは最終的に真理へと到達しうる】と書いてあるのですが、この部分は相当にまずい。

【Earman, 1992, pp.144-149】に何が書いてある?

ミスリーディングな要約をしているのでは?続く twitter.com/genkuroki/stat... pic.twitter.com/ibWv2o3ynI

タグ: 統計

posted at 11:08:15

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 極端な話として、パラメータを1つも持たない分布族=固定された確率分布で真の分布と違うものを採用すれば、ベイズ更新しての何も更新されず、真実とは異なる固定された確率分布がそのまま予測分布として固定されたままになります。続く

タグ: 統計

posted at 11:08:16

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 もしも仮に未知の分布q(y)の無限に長いi.i.d. Y_1, Y_2, Y_3, … が得られたならば、ベイズ統計とは無関係に、未知だった分布 q(y) が分かってしまいます。

しかし、これは理想化され過ぎた設定を採用しているので、推測統計学的には意味がないです。

タグ: 統計

posted at 11:13:36

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 データが未知の分布q(y)のi.i.d.として生成されているという想定で、統計モデルp(y|θ)を使った未知の分布q(y)の推測を行うときの限界は、分布族p(y|θ)内の分布でq(y)を最良近似するものになる。ベイズであろうがなかろうが同じ。

モデルで実現可能な分布の範囲内での最良の結果が限界になる。

タグ: 統計

posted at 11:19:19

Masa Yamamoto予測誤差が大き @mshero_y

20年11月4日

初学者が読むとかなり間違った理解を生んでしまうようで私から見ても怖い... twitter.com/genkuroki/stat...

タグ:

posted at 11:20:58

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 以下のリンク先の動画はモデルの範囲内での最良の結果にベイズ更新が収束している例になっています。

しかし、モデルが真実の分布を含まないので、べいず更新の収束先は真実から程遠いものになっている。

こういう例の視覚化はこのスレッドに他にも色々あります。

こういう例が大事。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 11:23:22

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 【分布族が対象を十全にモデル化】していなくても【ある弱い前提さえおけば、ベイズ流の更新プロセスは最終的に真理へと到達しうる】(p.83)という説をとなえるのは、さすがに非常識的過ぎる。

他人にこの本を紹介するときには、この手の事柄について警告しておかないと非常にまずいです。 pic.twitter.com/2y0V9bRfg6

タグ: 統計

posted at 11:26:36

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 【確率変数が持つ分布を特徴付ける値を、その期待値~という】(p.31)という説明の仕方もひどい。本当にそう書いてあります!

統計学では「確率分布を特徴づけるパラメータ」という言い方が頻出なので常識があればこういう説明の仕方はできなかったはず。 twitter.com/genkuroki/stat... pic.twitter.com/b4YlIuQwNL

タグ: 統計

posted at 11:36:53

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 p.17の図1.1の【「Major axis」と表示されているのが回帰直線】はひどいデタラメ。

p.139で【最尤法の他】に【最小二乗法】があるかのように書いていますが、最小二乗法による回帰は最尤法の特別な場合。

pp.142-143では

 回帰の誤差項εの平均がμ‼️

という設定を採用😭

色々非常識的過ぎ twitter.com/genkuroki/stat...

タグ: 統計

posted at 11:43:44

黒木玄 Gen Kuroki @genkuroki

20年11月4日

WASMとRustはVue.js/React.jsを打倒するのか? - JSへの侵略の歴史|koduki zenn.dev/koduki/article... #zenn

タグ: zenn

posted at 12:00:19

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 「尤度」の定義は「統計モデル内部においてデータと同じ数値が生じる確率(密度)」であり、モデルのデータへの適合度の指標。「もっともらしさ」ではない。

通常の意味でlikelihoodでないものをlikelihoodと呼び続けなければいけないのは非常に辛いことだと思われる。
twitter.com/mksupermarket/...

タグ: 統計

posted at 12:25:27

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 「統計モデル内部においてデータと同じ数値が生じる確率(密度)」というモデルのデータへの適合度の指標に過ぎないものにlikelihoodと名付けた人は自分が名付けた概念の招待をよく理解していなかったと判定できる。

不適切な名付け方のせいで多くの人が迷惑を被ることになった。

タグ: 統計

posted at 12:28:19

にゃんごろげ@○日後に北海道マラソン完走 @goronyangoroge

20年11月4日

この本気になってたけど読まない方が良さそうな予感 twitter.com/genkuroki/stat...

タグ:

posted at 12:37:46

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 【誤差項ε】について

【M₁: y = β₁ x₁ + ε, ε ~ N(μ₁, σ₁²)】(p.142)

【ただし、ε ~ N(μ, σ²) は誤差項εが平均μ、分散σ²の正規分布に従う、ということを示している】(p.143)

と書いてあることには

 ε→∞

と似た可笑しさがあると思う。🤣

「誤差項ε」なのに!😅 twitter.com/genkuroki/stat... pic.twitter.com/jFxcradSED

タグ: 統計

posted at 12:51:13

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 回帰モデル

y = β₀ + β₁ x₁ + β₂ x₂ + ε, ε~Normal(0, σ²)

におけるεは「残差」と呼ばれます。

「残差」を気楽に「誤差」と呼んでしまうこと自体は許されても、「回帰モデルの期待値と観測値の差またはそのモデル化」と「真の値と観測値の差」を混同するのは非常にまずいです。

タグ: 統計

posted at 13:11:48

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 『統計学を哲学する』p.149でのAICに関する説明はずさん過ぎてひどいので読者は注意した方がよい。

この本を素晴らしいと言っている人達は「馬脚を現した」とみなして、その人が今後統計学がらみのことを言っていても、内容のまともさを疑うようにした方がよい。 twitter.com/genkuroki/stat... pic.twitter.com/VdzYyS4mQV

タグ: 統計

posted at 14:37:03

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 『統計学を哲学する』p.149でのAICに関する説明はずさん。

モデルで記述できる法則の中に真の法則をよりよく近似するものが含まれているかどうかと、データを用いてそのようなものを実際に見付けることができるかどうか全然違う問題。

その区別を前面に出さずに説明するのはまずい。続く pic.twitter.com/MlHlGiFiJi

タグ: 統計

posted at 14:40:51

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 モデルで記述できる法則の中に真の法則をよりよく近似するものが含まれているかどうかと、そのようなものを実際に見付けることができるかどうかを区別するという当たり前の話を当たり前に聞こえるように説明するのではなく、それらを混同し易くした上でそれらの区別に関わる説明をするのは悪質。 pic.twitter.com/vOf9HbPgf0

タグ: 統計

posted at 14:43:30

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 パラメータを増やしてどんどんモデルを複雑にして行けば、その中に真の法則をよりよく近似するものが含まれる可能性は増えます。

しかし、限られたデータを使った推定では、モデルの複雑化が原因のオーバーフィッティングが起こって、大外しの推定しかできなくなる危険性が増す。続く

タグ: 統計

posted at 14:47:29

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 続き。その2つのバランスを取って、予測分布の予測誤差がより小さくなる可能性が高くなるようなモデル選択を目指すための道具の1つがAICです。

「バランスを取る」という説明がバランスの取れた誤解されない説明の仕方だと思います。

『統計学を哲学する』の説明はバイアスをかけすぎ(笑)

タグ: 統計

posted at 14:50:19

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 そして何よりもまずいのは、AICを使ったモデル選択がどのように失敗するかについて説明しようとしていないことです。

ある種の場合に、AICは小さいが無視できない確率で(私が示した例では十数%)、予測誤差が非常に大きな予測分布を与えたモデルの側を選択します。

この事実は非常に重要! twitter.com/genkuroki/stat... pic.twitter.com/k8d7p2GXe4

タグ: 統計

posted at 14:55:19

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計

* AICはバランスを取っていること

および

* AICは小さいが無視できない確率で(私が示した例では十数%)、予測誤差が非常に大きな予測分布を与えたモデルの側を選択してしまうこと

を理解していれば、『統計学を哲学する』における「AICの哲学的含意」は薄っぺらなものに見えるはずです。 pic.twitter.com/8FsBM7iUiH

タグ: 統計

posted at 14:58:37

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 AIC以前の問題として、「予測分布の汎化誤差」のような概念について著者は標準的な理解をできていない可能性については以下のリンク先を参照。

【長期的には】という謎の但し書きの問題。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 15:02:39

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 AICは「予測分布の汎化誤差(の2n倍)」または「予測分布の汎化誤差(の2n倍)の平均値」(平均は真の標本分布に関する平均)の推定値。

「汎化誤差」が低い=予測の誤差が小さいことについて、【長期的には】と但し書きをつけているのは非常に奇妙。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 15:06:59

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 以下のリンク先の話は「バイアスとヴァリアンスのトレードオフ」の話です。

"AIC" バイアス バリアンス トレードオフ をGoogleで検索↓
www.google.com/search?q=%22AI...

トレードオフなのでバランスを取るという発想になる。
AICはもろにそうです。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 15:14:49

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 ツイッターで検索すると相当にまずい部分があることには触れずに、『統計学を哲学する』がまるでよい本であるかのように評価している人達が容易に見つかります。

まずい部分を正確に指摘訂正した上で、良い部分をひろって解説してくれるのなら良いのですが。

タグ: 統計

posted at 15:19:54

tsujimotter 日曜数学者 @tsujimotter

20年11月4日

1/p(pは素数)の循環小数について考えていたら、ふとpが「安全素数(2×素数+1型の素数)」のときに必要十分条件が与えられることに気づきました。

循環小数ってまだまだいくらでも考えられそうですね! pic.twitter.com/5SVgDrp45M

タグ:

posted at 15:38:24

⛩️せつー⛩️ @yuki764

20年11月4日

@zillione 結局Julia経由でpip環境を作ってるのに変わりはないと思うので、この辺
github.com/JuliaPy/PyCall...
で解決できないかなあという感じです

でも確かにこれだと「新しく環境ができる」ので、既存環境を使うなら PYTHONHOMEとかの環境変数を適切に弄ってpip環境の場所を指定する必要があるかなと

タグ:

posted at 15:40:20

じりおん @zillione

20年11月4日

@yuki764 僕はPython環境は仮想環境使ってないのであれだけど、これはおそらくPyCall側から自前の”仮想環境”内のPythonを呼びたいときだよね。多分ENV[“PYTHON"]と同じで、これだけだとPyCallが指定した環境を使わないことがあるのよね。

タグ:

posted at 15:56:07

yamazaks @yamazaksv2

20年11月4日

@jiguraidesu 初めまして、中高で理科を教えているものです。
それは日本のルールではなく、一部の小学校の先生の間で特定の期間だけ通用するローカルルールです。
学習指導要領には書いてないことで、日本でも地域によってはどちらでも丸ですし、中学以降はむしろ弊害の方が大きいので、×でもスルーが推奨です。

タグ:

posted at 16:38:12

Daisuke KATO @Dsuke_KATO

20年11月4日

Windows環境で初めてビルドしたので何が壊れてるのか全然分からんかった(たぶんcmake....だよね)。エラーメッセージはよく見るやつなんだけど、どうもnvccに渡すオプションが狂ってる気がしてしょうがないです。 twitter.com/Dsuke_KATO/sta...

タグ:

posted at 16:41:38

Daisuke KATO @Dsuke_KATO

20年11月4日

これでビルドしたPythonモジュールはpydをロード出来なかった。たぶんdllの配置かpathに関連してるんやろうねぇ。

タグ:

posted at 16:49:36

理科教育を学びたい(理学) @rikagatari

20年11月4日

@jiguraidesu @yamazaksv2 横から失礼します。

教育大では順番通りに書かないと2年生のうちはバツにしないもいけない。という指導を受けました。交換法則を習ってからは丸でもいい。だそうです。

ちなみにその指導の根拠はありません。が、指示されたとおりにやる能力を見てる…とかいうよく分からない理由?を言われました。

タグ:

posted at 16:52:59

理科教育を学びたい(理学) @rikagatari

20年11月4日

@jiguraidesu @yamazaksv2 その人かどうか知りませんが、同じ大学の数学の教授?が、どこかの会社の算数の教科書作成に関わっているようだ。ということを聞きました。
(・∀・)こえぇ笑

タグ:

posted at 16:55:24

理科教育を学びたい(理学) @rikagatari

20年11月4日

@jiguraidesu @yamazaksv2 指示されたとおりにできる能力があるに超したことはないんですけど、誤った指示にそのまま従うのはそれはそれでどうなんだと思うんですけどねぇ…。評価する側が謝りに気がついていないと評価が落ちますからねぇ…

タグ:

posted at 16:57:40

TaKu @takusansu

20年11月4日

#超算数
twitter.com/rikagatari/sta...
>教育大では順番通りに書かないと2年生のうちはバツにしないもいけない。という指導を受けました。交換法則を習ってからは丸でもいい。だそうです。

「交換法則を学んだ後でもバツにしていい」のような雰囲気ですね。

タグ: 超算数

posted at 17:45:05

やねうら王 @yaneuraou

20年11月4日

やねうら王V5.00を公開したばかりですけど、V5.10を公開しました。

20行ほどStockfish12のコードを何も考えずにコピペしただけでR70ほど強くなりました。😂

yaneuraou.yaneu.com/2020/11/04/yan...

タグ:

posted at 17:51:09

rei @0018____

20年11月4日

@MathSorcerer 返信ありがとうございます。論文にまとめたいので、epsに拘っています。issueに報告することを検討しようと思います。ありがとうございます!

タグ:

posted at 18:15:28

Daichi Konno / 紺野 大地 @_daichikonno

20年11月4日

ちなみに、「血管内にステントを留置する」という技術は既に医療に浸透し、日本でも毎日行われているので、技術的には電極さえあれば明日にでもできます。

この点は、安全性が担保されていないNeuralinkと比べたときの圧倒的な利点だと思います。

タグ:

posted at 18:23:01

数学とか語学とか楽しいよね @sasaburo

20年11月4日

1次元浅水流方程式のダムブレイク問題をLax-Friedrichs法で解きました。Lax-Friedrichs法は簡単ですが非常に数値粘性が大きいスキームです。コードはJuliaで書いています。 pic.twitter.com/k8eDDFn28u

タグ:

posted at 18:28:41

数学とか語学とか楽しいよね @sasaburo

20年11月4日

1次元浅水流方程式のダムブレイク問題をLocal Lax-Friedrichs法で解きました。Rusanovスキームとも言います。Lax-Friedrichs法より数値拡散が減少したスキームです。コードはJuliaで書いています。 pic.twitter.com/5REM753n5b

タグ:

posted at 18:31:23

数学とか語学とか楽しいよね @sasaburo

20年11月4日

1次元浅水流方程式のダムブレイク問題でLocal Lax-Friedrichs法とLax-Friedrichs法を比較しています。Local Lax-Friedrichs法が青、Lax-Friedrichs法が赤です。Local Lax-Friedrichs法のほうがシャープであることがわかると思います。コードはJuliaで書いています。 pic.twitter.com/h4teUnC47V

タグ:

posted at 18:33:47

Filip Krikava @fikovnik

20年11月4日

How does Julia do non-local semantic compiler transformations? Talk by @KenoFischer, discussion moderated by @simonpj0 - streamed for free at @rebase_conf @splashcon @PLMentoring @ECOOPconf pic.twitter.com/fke4ZumnpR

タグ:

posted at 18:43:53

Nov @Nov_Log893

20年11月4日

この方(先生と呼ぶべき?)の統計の話は本当に有益ですね。
尤度が、モデルへのデータの適合度というのは実際に数式を弄り、意味を考えると納得がいきやすいと思います。 twitter.com/genkuroki/stat...

タグ:

posted at 20:28:07

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#Julia言語

julia> ENV["PYTHON"] = raw"PyCallで使うpythonバイナリのフルパス"
pkg> add PyCall
pkg> build PyCall
julia> using PyCall
julia> PyCall.python
PyCallで使うpythonバイナリのフルパス文字列が表示

私のところではこれでうまく行っていた。

build PyCallが必須。 twitter.com/zillione/statu...

タグ: Julia言語

posted at 20:39:55

JuliaCon 2023 @JuliaConOrg

20年11月4日

Check out "Integrating Julia in R with the JuliaConnectoR"
Presented by Stefan Lenz @ JuliaCon 2020
www.youtube.com/watch?v=ObYDHi...
#JuliaLang #Rstats

タグ: JuliaLang Rstats

posted at 20:56:00

Massimo @Rainmaker1973

20年11月4日

An interesting visualization of 35 years of world’s economy evolving as a living organism [source: bit.ly/2g9ulga] pic.twitter.com/8hisileYD6

タグ:

posted at 21:00:50

Keno Fischer @KenoFischer

20年11月4日

I've been doing a lot of work on the new #julialang AD recently. Join me in two weeks to find out how it works. twitter.com/fikovnik/statu...

タグ: julialang

posted at 21:09:25

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 AICの定義は

-2log(最大尤度) + 2(パラメータの個数)

です。AICは小さい方がよく、モデルのパラメータ数の2倍のペナルティが課されいる。

簡単のため、パラメータwを持つ統計モデルp(y|w)のw=w₀の場合がデータY_1,…,Y_nを生成している真の分布だったとします。続く

タグ: 統計

posted at 21:15:04

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 モデル p(y|w) の尤度は

L(w) = p(Y_1|w)…p(Y_n|w)

で、これはw=w*で最大になるとします。一方、真実をぴったり表しているパラメータを持たないモデルq(y)=p(y|w₀)の尤度はL(w₀)になります。このとき、必ず

L(w*) ≧ L(w₀)

になります。続く

タグ: 統計

posted at 21:15:05

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 この場合には、真実を表すモデルの尤度L(w₀)よりも、最尤法で選択されるパラメータの尤度L(w*)の方が一般に高くなります。(尤度を単純に「もっともらしさ」だと思ってはいけない。)

尤度はモデルをデータにフィットさせたときに大きくなる量に過ぎず、真実が何かと無関係に大きくなる。続く

タグ: 統計

posted at 21:15:08

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 パラメータを増やすと以上のような仕組みで、モデルをデータにフィットさせることによって推定結果が真実から余計に離れてしまう可能性が増えてしまいます。

だから、モデルのデータへの適合度(=尤度)だけではなく、モデルのパラメータの個数も気にしなければいけない。

タグ: 統計

posted at 21:15:10

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 そのときに、-2log(最大尤度)にパラメータ数の2倍のペナルティ項を足したものが、予測分布の汎化誤差(もしくは平均汎化誤差)の2n倍の(一致性を満たさない)推定値として使えることを示したのが、赤池弘次さんです。これがAIC! twitter.com/genkuroki/stat...

タグ: 統計

posted at 21:15:11

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 その議論の本質は、現在では汎化誤差と呼ばれることが多いエントロピー的な量と対数尤度の関係に気付くことでした。

赤池さんによれば、最尤法の開発者のFisherもその点に気付くことができておらず、ゆえに尤度の概念を正しく理解できていなかった。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 21:15:13

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 以上では、簡単のため、パラメータwを持つ統計モデルp(y|w)のw=w₀の場合がデータY_1,…,Y_nを生成している真の分布だと仮定しましたが、「真の分布」という言葉を「帰無仮説のモデルになっている分布」に置き換えれば、そのまま仮説検定の典型的な状況に一致します。続く

タグ: 統計

posted at 21:23:57

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 続く。実際、その場合のAICは対数尤度比のχ²検定という非常に一般的な仮説検定の枠組みの中での特別な場合として理解可能です。

AICの理論の対数尤度比のχ²検定の理論に対する優位性は、全く無関係なモデルの比較を可能にすることです。

タグ: 統計

posted at 21:23:59

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 「黒木とか言う嫌な奴に絡まれるのが嫌だな」と思っている人は赤池弘次さんによる1980年の2つの論説を読んで理解しておけば心配せずに済むようになります(笑)

ismrepo.ism.ac.jp/index.php?acti...
統計的推論のパラダイムの変遷について

www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度

タグ: 統計

posted at 21:28:05

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 赤池弘次さんが言うところのエントロピー側の話の統計学がらみの部分はKullback-Leibler情報量のSanovの定理としてまとめられます。Sanovの定理を使った統計力学と類似の議論については以下のリンク先の私のノートを参照。学部2~3年レベル。

genkuroki.github.io/documents/2016...
KL情報量とSanovの定理

タグ: 統計

posted at 21:32:21

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 おそらく、大学で統計学に講義を聴いたのに、AICの概念が分かりにくく感じられるのは、KL情報量のSanovの定理について知らないから。

KL情報量D(q||p)は「分布pに従う乱数生成でで分布qをシミュレートしたときの誤差の指標」という意味を持つことがSanovの定理の内容です。

タグ: 統計

posted at 21:35:34

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 統計学を理解するための、確率論における「三種の神器」は

* 大数の法則
* 中心極限定理
* KL情報量のSanovの定理

の3つです。前者の2つは教養として普及していますが、最後の1つは十分に普及していない。

タグ: 統計

posted at 21:37:41

飯田泰之 @iida_yasuyuki

20年11月4日

いわゆる隠れトランプ=世論調査ではバイデンと答えて実際はトランプという人は少ないようで,

メディアや調査への信頼が低い=答えない人=トランプ支持の割合高というよくあるバイアスの話なのかなと思います twitter.com/takashikiso/st...

タグ:

posted at 21:37:42

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 未知の分布qが生成したデータを使って、コンピュータ内にモデルの分布pを作り、分布pに従う乱数生成で、未知の分布qをシミュレートする、というようなことをする場合には、

KL情報量D(q||p)=分布pに従う乱数生成で分布qをシミュレートしたときの誤差の指標

がもろに関係して来る。

タグ: 統計

posted at 21:43:20

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 Sanovの定理によって、

KL情報量D(q||p)=分布pに従う乱数生成で分布qをシミュレートしたときの誤差の指標

だと知っていれば、KL情報量D(q||p)がqとpについて非対称であることも「当然非対称になる」と理解できます。

タグ: 統計

posted at 21:45:26

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 統計学における予測分布の例と予測誤差の最もシンプルな例

成功確率が未知の値qのベルヌイ分布の独立試行の結果、n回中k回成功したとします。

そのデータから、未知の成功確率はp=k/nに近いだろうと推測したとします。

そのとき、成功確率p=k/nのベルヌイ分布を予測分布と呼びます。続く

タグ: 統計

posted at 21:51:59

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 モデルとして作った成功確率pのベルヌイ分布(予測分布)による予測は、「次に成功する確率はpであろう」という予測です。

「次にせいこうするだろう」とか「次に失敗するだろう」というような成功・失敗の予測ではないことに注意が必要です。

成功確率を予測していることに注意!

タグ: 統計

posted at 21:55:00

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 以上の状況における予測分布(成功確率p)による真の分布(成功確率q)のシミュレーションの誤差はKL情報量によって

KL(q, p) = q log(q/p) + (1-q) log((1-q)/(1-p))

と表されます。添付画像はqを0.4に固定した場合のこれのグラフ。p=qで最小値0になる。

www.wolframalpha.com/input/?i=plot%... pic.twitter.com/s8ATHXa39W

タグ: 統計

posted at 21:59:54

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 ベルヌイ分布モデルの場合のKL情報量やそれで表される予測分布による予測誤差は高校レベルの数学で十分に理解できるはずです。

こういう易しい話を積み重ねることが大事。

既出の nbviewer.jupyter.org/gist/genkuroki... ではAICも計算しまくっています。自分で計算してこれと比較すれば答え合わせができる。

タグ: 統計

posted at 22:03:36

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 現実の統計調査ではデータ自体が偏っていることが大部分で、偏りもモデルに組み込んで推定しないと大外しする。 twitter.com/iida_yasuyuki/...

タグ: 統計

posted at 22:09:17

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 AICによるモデル選択はデータが運悪く偏っていると、ものすごく予測誤差の大きな予測分布を与えたモデルの側を選択するという性質を持っている、というようなことも、この手の事例を見たときに思い出すようにするといいかもね。

タグ: 統計

posted at 22:11:28

TaKu @takusansu

20年11月4日

#超算数 学習指導要領算数・数学科改訂に向けた教育課程論の展開
日本数学教育学会教育課程委員会
発行日:2016/01/01
公開日:2020/11/04
www.jstage.jst.go.jp/article/jjsme/... pic.twitter.com/BbKffBFccU

タグ: 超算数

posted at 22:14:12

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 統計学についてちょっと勉強して、それを前提に色々眺めるようになると、統計学の使用は本当にギャンブルそのものなんだなと思うようになります。

ギャンブルにはリスクが伴う。

タグ: 統計

posted at 22:14:54

dc1394 @dc1394

20年11月4日

「Juliaで学ぶ数値計算~円周率の計算をテーマに~」というタイトルで、発表することにしました。 twitter.com/CEED11480287/s...

タグ:

posted at 22:20:24

dc1394 @dc1394

20年11月4日

Juliaで試しに、ヴィエトの公式を使って円周率を求めてみたけど、確かに収束が遅かった。

タグ:

posted at 22:21:45

ceptree @ceptree

20年11月4日

ラプラス変換で有名な羽生選手、ブロムウィッチ積分とか留数定理とかまでやってんのかな

タグ:

posted at 22:29:26

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 さて、上のベルヌイ分布モデルの場合のAICを計算してみましょう。

成功確率qが固定された真の分布の「n回中k回成功」というデータのAICは、パラメータがないので、単にその真の分布の尤度の対数の-2倍になります:

AIC₀ = -2k log q - 2(n-k)log(1-q).

続く

タグ: 統計

posted at 22:54:13

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 成功確率pのベルヌイ分布モデルにおける最大尤度の-2倍はp=k/nの場合の

-2log L = -2k log(k/n) -2(k-n) log(1-k/n)

になり、AICはこれに2を足したものになる:

AIC = -2log L + 2.

続く。

タグ: 統計

posted at 22:54:13

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 記号の簡単のため

p = k/n

とおくと、ベルヌイ分布モデルのAICと真の分布のAICの差は以下のように書けます!

AIC - AIC₀
= -2n(p log(p/q)) + (1-p)log((1-p)/(1-q)) + 2
= -2n KL(p, q) + 2

一方、ベルヌイ分布モデルの予測誤差は

KL(q, p) = q log(q/p) + (1-q) log((1-q)/(1-p)).

タグ: 統計

posted at 22:55:20

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 ベルヌイ分布モデルのAICと真の分布のAICの差は

AIC - AIC₀ = -2n KL(p, q) + 2

で、ベルヌイ分布モデルの予測分布の予測誤差の2n倍は

2n(予測誤差) = 2n KL(q, p)

なので非常に似ています。p, q の位置の交換と符号と+2の項の違いがある。続く

タグ: 統計

posted at 22:58:32

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 KL情報量は0以上で、KL(p, q)とKL(q, p)はpとqが近いときにほぼ一致しているので(添付画像)、推定成功確率p=k/nが真の成功確率qに近い部分で、「+2の項の下駄」を無視すれば、AICの差と予測誤差は上下対称の関係になっていることが分かります。 pic.twitter.com/5OyjeRBXbJ

タグ: 統計

posted at 23:01:37

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 q=0.4でn=100の場合のAICの差と予測誤差を同時プロットしたものが既出の添付画像の上段です(横軸は確率の大きさに比例)。それらは確かに(ほぼ)上下対称の関係になっています。

以上の話で出て来た数学は高校で習っているものばかりです!

ソースコード↓
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/8bJbS997pp

タグ: 統計

posted at 23:05:16

Masa Yamamoto予測誤差が大き @mshero_y

20年11月4日

pとqが近い時の話は新鮮。
うかつにも一致しないことを当たり前だと考えていた。
勉強になる twitter.com/genkuroki/stat...

タグ:

posted at 23:07:58

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 AICの差と予測誤差が上下対称の関係になっているという事実は、実践的な状況では未知の真の分布を使わないと求まらない真の予測誤差と、データのみから計算できるAICがきれいに逆相関していることを意味しています。

こういうことは高校数学をしっかり勉強していれば理解できます!

タグ: 統計

posted at 23:08:40

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 以上の計算は高校レベルでしたが、大学で習う数学を使えば、AICと真の予測誤差の逆相関を一般的に証明できます(渡辺澄夫著『ベイズ統計の理論と方法』の第3章)。

しかし、数学は簡単なことの積み重ねなので、以上で紹介した高校レベルの簡単な場合を理解するべきです。

タグ: 統計

posted at 23:11:58

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 既出の添付画像の下段はベイズ統計の場合です。ベルヌイ分布モデルにおいて、事前分布がおとなしめなら、「頻度主義」と「ベイズ 主義」の意味での主義によらず、数学的性質は同じになる。

性質が同じ数学を現実に適用するときに、主義が違うという理由で全然違うものとして扱うのは不合理。 pic.twitter.com/cQ3B4ButZK

タグ: 統計

posted at 23:16:50

黒木玄 Gen Kuroki @genkuroki

20年11月4日

たとえ対立を煽っていなくても、「頻度主義とベイズ主義は違う」などと好んで言いたがる人達は、私の目には、かけ算順序問題を氷山の一角とする算数教育の問題について「算数と数学は違う」と言って来る人たちと同類に見えて仕方がない。

まずは主義の話の前に普通に数学を勉強してくれと言いたい。

タグ:

posted at 23:19:45

先崎学 @eEBY262FoqPInqV

20年11月4日

将棋ウォーズ楽しいです

タグ:

posted at 23:20:43

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 大事な話なので繰り返しておきますが、添付画像のような、AICと実践的には真の値を知ることができない真の予測誤差のきれいな逆相関について知れば、普通の常識範囲の推論によってAICを使うときのリスクについても理解し易くなります。 pic.twitter.com/PrEHwFMuya

タグ: 統計

posted at 23:24:07

最多情報局 @tyomateee

20年11月4日

思わず笑顔になってしまう動画 pic.twitter.com/H0D7OIsf4Z

タグ:

posted at 23:30:28

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#統計 横軸のkは「n=100回中k回成功」というデータを表し、スケールは確率に比例。真の成功確率は0.4に設定してあるので、k=40の確率が最大。

AIC-AIC₀<0のとき、AICは真の分布ではなく、成功確率k/nの予測分布側を選択する誤りを犯します。

その選択に従うと予測を大外ししてしまいます! pic.twitter.com/kUTRXK7uGe

タグ: 統計

posted at 23:31:44

いーな @fineman0805

20年11月4日

千葉先生の本や長谷川線型代数は割と数学書臭くない本だったのだなあと思うなどする(千葉先生のやつはそりゃそうだけど)

タグ:

posted at 23:32:27

黒木玄 Gen Kuroki @genkuroki

20年11月4日

#Julia言語

なるほど。Juliaのロゴは確かに舟和のあんこ玉っぽい!😊 twitter.com/claudesakuragh... pic.twitter.com/yxtwpJsRaE

タグ: Julia言語

posted at 23:41:34

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました