黒木玄 Gen Kuroki(@genkuroki)/2020年11月03日

ネイティブコード文化！！ぜんぶJitでアーキ非依存になって弱々マシンをpi 4で置き換えさせてくれ！！！！

タグ：

posted at 00:42:57

ｶﾞﾝﾊﾞﾙ twitter.com/no_maddo/statu...

タグ：

posted at 00:43:50

#統計うぎゃあ！😅

回帰の式が

M₁: y = β₀ + β₁ x₁ + ε, ε ～ N(0, σ₁²)

ではなく、

【M₁: y = β₁ x₁ + ε, ε ～ N(μ₁, σ₁²)】(p.142)

【ただし、ε ～ N(μ, σ²) は誤差項εが平均μ、分散σ²の正規分布に従う、ということを示している】(p.143)

になっていた！

誤差項の平均がμ‼️😱 pic.twitter.com/E4avtd8wey

タグ：統計

posted at 01:56:11

#統計 p.17の図1.1では「Major axis」が回帰直線になっていたし、p.139では【最尤法の他に～最小二乗法】があるかのような説明の仕方になっていたし(最小二乗法は最尤法の特殊な場合)、嫌な予感はしていたのですが、pp.142-143では、

回帰の誤差項の平均がμ‼️

という設定を採用していた‼️😅😅😅 pic.twitter.com/Ao6RkgGIDl

タグ：統計

posted at 02:02:20

#統計線形回帰において

y = a + bx + ε、ε〜Normal(0,σ²)

における回帰係数a,bと誤差の大きさσ²は別扱いするパラメータです。

最小二乗法(=このモデルの最尤法)でaとbはyのデータについて線形に決まる仲間のパラメータです。

この辺は学部レベルの統計学で習っている人もいると思います。

タグ：統計

posted at 02:07:26

#統計実際には上で引用したpp.142-143の前のp.141の段階で

誤差項の平均がμ‼️

という設定になっています。

「誤差項」という日本語の意味がよく分かっていないんですかね？

引用部分について他にも言いたいことがあるのですが、皆さんにまかせます。

全体的に作りが雑で杜撰という印象が確定。 pic.twitter.com/XrNnN1skC3

タグ：統計

posted at 02:15:35

#統計この本を他人に勧めている人がこの本を本当に読んだかどうかは相当に非常に疑わしい。

少なくとも、まだ統計学について十分詳しくなっていない人に、こんな雑なものを勧めちゃダメであることは確実だと思います。

「期待値」とか「線形回帰」についての常識的な解説さえ著者はできていない‼️😱

タグ：統計

posted at 02:22:29

#統計

【確率変数が持つ分布を特徴付ける値を、その期待値～という】(p.31)

という説明が出版済み書籍に残っていることにも驚いたが、pp.141-143で

線形回帰の誤差項の平均はμ‼️

という設定が採用されていることにもびっくりしました。

「誤差項」という言葉の意味さえよく分かっていない感じ。

タグ：統計

posted at 02:26:48

Ryoichi @ シリコンバレーの資格 @ryo1kato

#統計これは非常に残念なことで、どこかの段階で、雑で杜撰な説明を排除する努力をしていればこんなことにならなかった。

普通に学部教科書レベルの統計学を知っている人が丁寧にレビューしていればこんなことにはならなかったと思う。

タグ：統計

posted at 02:33:05

multi-line grep に Julia 版を追加してみた。
ただ、とにかく起動が遅い。プリコンパイルしてみても遅い。
ググっても高速化の方法はいまいち分からなかった。

github.com/ryo1kato/mlr-g...

AWK, Haskell, Rust, Python, Golang, Julia版を作ったがその中では結局Haskellがぶっちぎりで速い。

タグ：

posted at 02:36:55

Ryoichi @ シリコンバレーの資格 @ryo1kato

笑った顔を見せずに、わざと「とがったこと」を言いまくる議論を楽しもうと思っていたのですが、そういう空気では無くなって来た感じ。😭

タグ：

posted at 02:41:02

Julia、普通のシステムプログラミング用途の言語としてもそこそこ使えそうな雰囲気だけど、適当にググって書くには不向きなのかも。(←ちゃんとドキュメント読め!)

ググって上の方に出てくる --colorはまだ壊れてるし、AnsiColorパッケージはなくなってるし print_with_color() はdeprecatedだし…

タグ：

posted at 02:42:50

あ、【普通に学部教科書レベルの統計学を知っている人が丁寧にレビューしていればこんなことにはならなかったと思う】は、レビュワーを責めているように受け取られかねないよくない発言でした。ごめんなさい。

全責任が著者個人のみにあることは言うまでもない。

タグ：

posted at 02:43:39

MathJaxでは、$ $ の内側に \newcommand を書くとよいです。

例
↓
nbviewer.jupyter.org/github/genkuro...
↓
github.com/genkuroki/Calc...
↓
Raw raw.githubusercontent.com/genkuroki/Calc... twitter.com/phasetrbot/sta... pic.twitter.com/9Nhdv5VkHa

タグ：

posted at 03:04:33

#統計解説

データをY_1,…,Y_nの平均μと分散σ²を計算して、データを正規分布モデルNormal(μ, σ)でフィッティングすることは、単純な正規分布モデルの最尤法に一致しています。

要するに、標本の平均と分散の計算は本質的に単純な正規分布モデルの最尤法とみなせます。続く

タグ：統計

posted at 03:54:56

#統計解説続き

上の単純な正規分布モデルの最尤法は線形回帰の特別な場合

y = β₀ + ε, ε～Normal(0, σ)

であるともみなせます。ここではμではなく、β₀と書きました。

これは通常の線形回帰の場合に

y = β₀ + β₁ x + ε, ε～Normal(0, σ)

と一般化される。続く

タグ：統計

posted at 03:54:56

#統計通常の線形回帰の場合

y = β₀ + β₁ x + ε, ε～Normal(0, σ)

における β₀ + β₁ x の部分が、単純な正規分布モデルの記号における μ (の一般化)にあたるものです。そのことは尤度函数を真面目に書き下せば特に分かりやすくなると思います。

タグ：統計

posted at 03:57:24

#Julia言語これ、私もやってしまったことがある。

失敗が分かる画像とコードを残しておくべきだった。
惜しいことをした。 twitter.com/bicycle1885/st...

タグ： Julia言語

posted at 04:00:38

@HppyCtrlEngnrng

富谷(助教);監修シン仮面ライダー @TomiyaAkio

Juliaがセミコロンでプロットもサプレスするの忘れてて、パラメータを弄れど弄れど全く変わらないグラフを前に立ち往生してた

タグ：

posted at 04:20:32

twitter.com/_arXiv_hep_lat...
この論文、実はJulia (MIT)と自己学習モンテカルロ法(MIT) でMITづくしなんだよな

タグ：

posted at 09:32:40

cobweb @cobwebkanamachi

はじめてのJulia "JupyterのJuはJuliaのJu" qiita.com/azumabashi/ite...

タグ：

posted at 10:05:03

#統計単純な正規分布モデル

y～Normal(μ, σ)

のデータY_1,…,Y_nに関する尤度函数は

L(μ, σ) = (1/√(2πσ²))ⁿ exp(-((Y_1 - μ)²+…+(Y_n - μ)²)/(2σ²))

です。y～Normal(μ, σ)は

y = μ + ε, ε～Normal(0, σ)

と書いてもよい。続く

タグ：統計

posted at 10:05:35

OokuboTact　大久保中二病中年 @OokuboTact

#統計線形回帰モデル

y=β₀+β₁x+ε
ε～Normal(μ, σ)

のデータ(x_1,Y_1),…,(x_n,Y_n)に関する尤度函数は

L(β₀,β₁,σ) = (1/√(2πσ²))ⁿ exp(-((Y_1 - (β₀+β₁x_1))²+…+(Y_n - (β₀+β₁x_n))²)/(2σ²))

です。上の単純な正規分布モデルのμ達をβ₀+β₁x_i達で置き換えた形の式になっている。

タグ：統計

posted at 10:05:36

#超算数

算数教育では「１つ当たりの数×幾つ分」は「同数累加」なんだ

twitter.com/OokuboTact/sta...

タグ：超算数

posted at 10:11:37

#統計続き。すぐ上の線形回帰の場合のデータを生成している確率法則を次のように書くこともあります。

Y_i = β₀+β₁x_i+ε_i
ε_i～Normal(0, σ)
(ε_i達は独立, i=1,…,n)

よくある「確率プログラミング言語」で統計分析する場合にはこれに近い文法でコードを書けるようになっていることが多い。

タグ：統計

posted at 10:12:09

#統計続き。上と同じことを

Y_i ～ Normal(β₀+β₁x_i, σ)
(Y_i達は独立、i=1,…,n)

と書いてもよい。これがよくある最小二乗法の場合です。

最小二乗法は残差ε_i達が独立同分布な平均ゼロの正規分布に従うとするモデルの最尤法に等価です。

最尤法と別に最小二乗法があるわけではないです。

タグ：統計

posted at 10:17:25

#統計任意の函数達f_1(x),…,f_r(x)の一次結合によるフィッティングを行うための最小二乗法のモデルの記述は

Y_i = β_1 f_1(x_i) + … + β_r f_r(x_i) + ε_i
ε_i ～ Normal(0, σ)
(ε_i達は独立, i=1,…,n)

とか

Y_i ～ Normal(β_1 f_1(x_i) + … + β_r f_r(x_i), σ)
(Y_i達は独立, i=1,…,n).

タグ：統計

posted at 10:22:11

非公開

タグ：

posted at xx:xx:xx

#統計以上のように、残差

ε_i = Y_i - (β_1 f_1(x_i) + … + β_r f_r(x_i))

達が平均0の独立同分布な正規分布に従うとするのが、最尤法が最小二乗法と等価になるモデルの記述になります。

続く

タグ：統計

posted at 10:25:33

#統計こういう感じに、

Y_i～Normal(μ, σ)
↓
Y_i～Normal(β₀+β₁x_i, σ)
↓
Y_i～Normal(β_1 f_1(x_i) + … + β_r f_r(x_i), σ)

と統計学入門で必ず習う単純な正規分布モデルから一般の最小二乗法まで「地続きに」理解することが基本になります。

こういう地道な勉強が楽しい。

タグ：統計

posted at 10:30:28

#統計今だと、以上で書いた形の式にかなり近い表現でモデルをコンピュータに入力できて、ほぼ自動的に最尤法(上の場合には最小二乗法になる)やベイズ法の結果を表示してくれます。

そういう経験を積めば「百聞は一見に如かず！」と言いたくなる感じで理解が進み易くなると思います。

タグ：統計

posted at 10:35:07

OokuboTact　大久保中二病中年 @OokuboTact

#統計パラメータβ_j, σ達の事前分布も

Y_i～Normal(β_1 f_1(x_i) + … + β_r f_r(x_i), σ)
β_j～Prior_j()
σ～Prior_σ()

のように与えれば、即ベイズ法のモデルの記述になります。

より一般に所謂「グラフィカルモデル」の記述は上のような式で書かれることが多い。

タグ：統計

posted at 10:39:05

（続き）

サラッと書いてあるけど、
「倍」と割り算の関係はかなりヤバい。
トンデモ算数教育の金字塔と言える領域

＃超算数

タグ：超算数

posted at 10:42:49

#統計

サンプルの標本平均と標本分散の計算
=単純な正規分布モデルの最尤法
↓
最小二乗法
=残差が独立同分布な平均0の正規分布に従うとするモデルでの最尤法
↓
以上のベイズ版

のように、高校でも習うような標本平均と標本分散の計算は「地続き」でベイズ版の回帰に繋がっているのです。

タグ：統計

posted at 10:43:00

Zenn公式 @zenn_dev

🤔 ピックアップ ✨

Julia のマクロを Rust で書き直してみて感じたこと
by @rithmety

zenn.dev/rithmety/artic...

タグ：

posted at 10:45:00

#統計以上で説明したモデルはどれも分析用の数学的なフィクション。

以上のようなモデルとは別に、データが未知の確率法則で生成されていると想定することが基本になります。

データを生成している法則は不明のままで、データのみからどこまでその不明の法則に迫れるかが基本問題になります。

タグ：統計

posted at 10:48:25

#統計最重要ポイントなので繰り返します。

①データを生成している未知の確率法則の存在を想定する。

②データの数値だけから、その未知の法則についてどれだけのことを知ることができるか、が基本問題。

③データの数値情報を使って未知の法則に迫るために、分析用の数学的モデルを設定する。

タグ：統計

posted at 10:52:27

#統計上の考え方は非常に普遍的で、仮説検定、最尤法、ベイズ統計などをその考え方で統一的に理解することが可能です。

仮説検定、最尤法、ベイズ統計は前提とする思想が違う全然別のものである、というような思い込みを心に植え付けられてしまうと、ダメになってしまうので要注意です。

タグ：統計

posted at 10:55:45

#統計これは良い質問！

#統計そうです。「モデル内の確率法則」と誤解を招かずに済む説明の仕方をするべきでした。ごめんなさい。文字数制限の圧力に負けた。

「実際にデータを生成していると想定している確率法則」と「分析用のモデル内でのデータ生成の確率法則」は別のものです。 twitter.com/EZX2FOFxVpvStI...

タグ：統計

posted at 11:01:11

#統計次の2つを同時並行的に考えることが基本になります。

①現実におけるデータを生成している確率法則(存在すると想定するが、その法則は原則として永久に未知であると考える)

②分析用のモデル内仮想世界におけるデータ生成の確率法則(実践的にはモデルをコンピュータに入力して利用する)

タグ：統計

posted at 11:06:13

#統計

①現実におけるデータを生成している確率法則

②分析用のモデル内仮想世界におけるデータ生成の確率法則

は完全に別ものだと考えた上で、この2つでデータの数値は共通のものとすることによって、それらを数学的に関係付けるわけですが。その数学的な関係が統計分析の基礎付けになります。

タグ：統計

posted at 11:10:03

#統計お勧めの勉強の仕方

①の「現実におけるデータを生成している未知の確率法則」を「データがコンピュータの擬似乱数を使って生成されている場合」に置き換えて、②のモデルを使った分析でどこまで分かるかをモンテカルロシミュレーションで確認すると、理解が捗ります。

タグ：統計

posted at 11:14:03

#統計 ①の「現実におけるデータを生成している未知の確率法則」は単に未知のままというより「闇の中」という感じで、統計分析の結果その未知の法則にどこまで迫れたかさえよく分からないことが多い。

そういう場合のみを見ても理解に必要な数学的法則を確認できません。続く

タグ：統計

posted at 11:16:27

#統計 ①の「現実におけるデータを生成している未知の確率法則」を「自分で決めたコンピュータで実行可能なデータ生成の確率法則」にデータを繰り返し生成して、②の分析用のモデルにぶち込んだ結果を見れば、2つを比較可能になります。

そこで見える普遍的なパターンが統計分析の基礎になる。

タグ：統計

posted at 11:20:04

#統計このスレッドのずっと上の方では、私自身が

自分で決めた確率法則に従ってコンピュータにデータの数値をランダムに生成させる
↓
それを分析用のモデルにぶち込んで計算
↓
視覚化

を #Julia言語によるソースコードを全公開してやって見せています。普遍的パターンについても解説した。

タグ： Julia言語統計

posted at 11:24:20

#統計

sin(x) + 正規分布乱数でデータを生成
↓
5次式によるフィッティングの最小二乗法のモデルにぶち込む
↓
線形代数で解かずに尤度が大きくなるパラメータ値を探索する方法で計算
↓
視覚化
↓
オーバーフィッティングの様子が見える
↓
実はこれはオーバーフィッティングの普遍的なパターン twitter.com/genkuroki/stat...

タグ：統計

posted at 11:34:37

#統計

コンピュータにサイコロXを何回もふらせてデータを生成。
動画中の赤のドットが出た目の割合。
サイコロXは3の目の出る確率だけがちょっとだけ高い。
↓
「サイコロは等確率で、1,2が出易いサイコロA、3,4が出易いB、4,5が出易いCのどれか」というベイズ法のモデルにぶち込む
↓
計算して視覚化 twitter.com/genkuroki/stat...

タグ：統計

posted at 11:51:06

#統計

コンピュータでガンマ分布に従う乱数でデータを生成
↓
データをモデルY_i～Normal(μ, σ)にぶち込む
↓
視覚化

データの生成確率法則はガンマ分布ですが、分析用のモデルは正規分布です。

動画の右半分は尤度函数のヒートマップ。

尤度函数のグラフを沢山見ておくことは大事なことです。 twitter.com/genkuroki/stat...

タグ：統計

posted at 11:56:38

#統計

データをガンマ分布で生成
↓
モデルY_i～Laplace(a,b) (ラプラス分布モデル)にぶち込む
↓
視覚化

動画の右半分は尤度函数の視覚化。明るい部分ほど尤度が高い。

データを生成している確率法則はガンマ分布だが、分析用のモデル内でのデータ生成確率法則はラプラス分布。 twitter.com/genkuroki/stat...

タグ：統計

posted at 12:01:02

#統計上の2つの場合で、正規分布

p_{normal}(y|μ,σ) = (1/√(2πσ²))exp(-(y-μ)²/(2σ²))

とLaplace分布

p_{Laplace}(y|a,b) = (1/(2b))exp(-|y-a|/b)

の場合を特に見せたことには、ある意図がありました。続く

タグ：統計

posted at 12:05:06

#統計データ(サンプル)の標本平均と標本分散の計算は、実は正規分布モデルの最尤法でのμとσ²の推定にちょうどなっています。(最小二乗法も最尤法になっていることはこれの一般化)

標本平均と標本分散の計算という記述統計のイロハのイは実はもろに正規分布モデルの最尤法になっているのです！続く

タグ：統計

posted at 12:09:19

#統計記述統計のイロハのイには、中央値を代表値として使うことが含まれます。

実は、サンプルの中央値aとサンプルにおけるaとの差の絶対値の平均bの計算は、Laplace分布モデルの最尤法によるa,bの推定に一致！

要するに中央値を使うことはLaplace分布によるフィッティングの一部になっている。

タグ：統計

posted at 12:13:01

#統計平均よりも中央値の方が外れ値に強いことは、正規分布よりもLaplace分布の方が「裾が太い」ことに関係していると考えることができます。

記述統計のイロハのイも我々の基本的な考え方の中に自動的に取り込まれてしまう！

記述統計と推測統計を思想が違う完全に別物と思い込まない方がよい。

タグ：統計

posted at 12:18:32

#統計上の例で、データを生成する確率法則をガンマ分布にしたのは、左右非対称な分布の典型例の1つだからです。対数正規分布でもよかった。

年収の分布はガンマ分布や対数正規分布のような形で、代表値として中央値がよく使われる。その場合に近い場合をコンピュータで作ったつもりです。

タグ：統計

posted at 12:21:54

#統計年収の分布の代表値として中央値を使うことは、我々の立場では以下のリンク先のようなことをしていることになります。

無味乾燥に見える記述統計のイロハのイに過ぎない「中央値」でさえ、こんなに面白い！ twitter.com/genkuroki/stat...

タグ：統計

posted at 12:25:18

#統計以上で見せた動画を見れば、正規分布でもLaplace分布でもないガンマ分布でデータが生成されている場合に、正規分布モデルやLaplace分布モデルを適用した場合の「誤差」の程度も分かります。

タグ：統計

posted at 12:28:42

#統計もしも、データを生成した分布を含むシンプルなモデル(今の場合はガンマ分布モデル)を使用可能ならばそうした方が推定の誤差は小さくなります。

しかし、実データの分析では真の分布は闇の中です。オーバーフィッティングの心配もある。

実データの分析では分野固有の知識が決定的に重要です。

タグ：統計

posted at 12:31:17

#統計以上の計算例でベイズ法を使ったのはサイコロXの場合だけですが、他の場合もこの程度のシンプルなモデルでは最尤法ではなくベイズ統計を使ってもほぼ同じ結果が得られます。(ただし、回帰でのオーバーフィッティングはベイズ法では予測分布がぼやけるという形で観測される。)

タグ：統計

posted at 12:37:28

#統計対立を煽っていなくても、「頻度主義の統計学とベイズ主義の統計学がある」という思い込みを心に植え付けに来る文献の記述は、はなっから馬鹿にして相手をしない方が私はよいと思います。

思想について語るなら、それ以前に思想抜きに理解できる数学的事柄をしっかり勉強してからにするべき。

タグ：統計

posted at 12:41:54

ボールよりもハゲが強し(笑)

クソわろた！

サッカーの試合でボールを追跡するはずのAIカメラ、審判のスキンヘッドを追いかけ生配信 | ギズモード・ジャパン www.gizmodo.jp/2020/11/skin-h...

タグ：

posted at 12:56:06

zumi3 @zuminor3

Windows10のWSl2にUbuntu20.4+Docker構築完了！これで、jupyter/Julia/Rstudio/Cudaを使い分けて、分析PJごとに柔軟な分析環境を実現できた。

テクノロジーの発展はすごい。今はGeForceGPUの活用を含め、ローカルの分析環境は、Windowsの方がメリットあるよ。

タグ：

posted at 13:48:42

#統計「予測」という言葉は「まだ観測されていない値の分布の予測」という意味で使うべきで、「すでに得られているデータを予測する」のように使うべきじゃないのですが、『統計学を哲学する』ではそういうことをやらかしています。

「哲学」を標榜しながら、数学だけではなく、言葉の扱いがずさん。 pic.twitter.com/6eIzvfJIJH

タグ：統計

posted at 14:13:53

#統計「予測」という言葉は統計学について語るときの最重要キーワードなので、大事に扱うべきです。

p.139に、最尤法では与えられたデータを【最もよく予測するようなモデルのパラメータを求める】と書いていますが、そこでは「予測」ではなく、「適合」「フィット」という言葉を使うべきでした。 pic.twitter.com/jy4RNKULAU

タグ：統計

posted at 14:18:35

#統計 p.144では、これから観測されるデータの分布の予測の意味で「予測」という言葉を使っているように読めますが、説明の仕方が十分にクリアでない。

【似たようなデータの予測】という言い方をしているせいで、その「似たようなってどういう意味？」と読者が叫ばざるを得なくなっている。 pic.twitter.com/f0Ae0QgipO

タグ：統計

posted at 14:22:54

#統計普通に教科書に書いてあることを知っていると、数学だけではなく、言葉の使い方がずさんな点が非常に気になり、ものすごく不快な本になっているように感じられます。

正しい考え方に興味がない人がこの本を他人に勧めている可能性があるので、みんな注意した方がよいです。

タグ：統計

posted at 14:25:15

#統計予測分布という言葉があるのだから、最尤法の場合も予測分布を定義して、その予測誤差の大きさを問題にすればよいのに、添付画像のような説明になっているせいで、おそらくほとんどの読者は理解不能になるだろう。続く pic.twitter.com/9MX2tO7QGL

タグ：統計

posted at 14:27:46

#統計予測分布の平均対数尤度の一般向けの説明をしたいのだろうが、おそらく「尤度」という言葉に引きずられて、平均対数尤度を得るためにも1000人分のデータが必要であるかのような変な説明の仕方になっている。

稠密に「この著者は分かっていないな」と感じさせる説明が出て来てつらい。 pic.twitter.com/jk7ckMskgO

タグ：統計

posted at 14:31:44

#統計既知のデータY_1,…,Y_nから、次に観測されるY_{n+1}の確率分布を推測することが、典型的な「予測」です。

既知のデータY_1,…,Y_nから任意の方法で作った次に観測されるY_{n+1}の分布の予測とみなされる確率分布p*(y)が「予測分布」の一般的な定義です。予測分布の作り方は無数にある。

タグ：統計

posted at 14:36:18

#統計既知の1000人分のデータY_1,…,Y_nから、その次のY_{n+1}の確率分布を予測できればよくて、その次も1000人分である必要はない。

(Y_{n+1}, Y_{n+2}, … がi.i.d.で大数の法則が使えることの応用はまた別の話)

こういうクリアな話がことごとく奇妙なスタイルで説明されている。

タグ：統計

posted at 14:40:41

#統計データが分布q(y)のi.i.d.で生成されているときには、次に観測されるY_{n+1}の真の分布もq(y)になります。

予測分布p*(y)によるY_{n+1}の真の分布のシミュレーションの誤差はSanovの定理より、Kullback-Leibler情報量D(q||p*)の大きさで測られます。

genkuroki.github.io/documents/2016...

タグ：統計

posted at 14:45:22

#統計 KL情報量で測られる誤差の大きさは、

(汎化誤差)=-(log p*(Y_{n+1}) の Y_{n+1} に関する平均)

からある定数を引いたものに等しいので、汎化誤差を小さくできれば、予測分布の誤差も小さくできる。

上のlog p*(Y_{n+1})は予測分布の対数尤度です。続く

タグ：統計

posted at 14:48:58

#統計汎化誤差の定義には、次に観測される確率変数 Y_{n+1} の1個だけあればよい。1000人分はいりません(笑)。

しかし、確率変数Y_{n+1}に関する-log p*(Y_{n+1})の平均(期待値)の計算には、未知であるY_{n+1}の真の分布が必要なので、汎化誤差そのものを我々は計算できません。

タグ：統計

posted at 14:52:03

#統計しかし、もしも既知のデータY_1,…,Y_nの数値のみを使って、予測分布p*(y)のY_{n+1}の真の分布に対する汎化誤差の代わりに実用的に使える量を計算できるならば、それを使って予測分布の誤差を下げることが可能になるかもしれない。続く

タグ：統計

posted at 14:54:37

1次元移流方程式をMacCormack法で解いています。リミターを入れないとMacCormack法は不連続部分で振動します。コードはJuliaで書いています。 pic.twitter.com/AFEtm4iBxL

タグ：

posted at 15:00:17

#統計それをある条件のもとで最尤法を使った場合に可能にしたのが、赤池弘次さんです。

AICと書かれ、赤池さん自身は【an information criterion の略記】だと言っている(笑)。

赤池さんが書いたものはこういう点でも面白いのでおすすめ。

www.jstage.jst.go.jp/article/butsur... pic.twitter.com/VcQ4uXyZuT

タグ：統計

posted at 15:01:07

#統計 AICを赤池さん以外の人達はより権威的は響きを持つ「赤池情報量規準」と呼ぶ傾向があります。

そういう権威的響きの印象に負けて、権威あるものだと感じたままで終わると、知性が劣化してしまうので要注意です。

「恐れ」を無くすには自分で計算してみるしかありません。

百聞は一見に如かず

タグ：統計

posted at 15:06:19

#統計ベルヌーイ分布モデルという最もシンプルなモデルの場合に、最尤法の平均汎化誤差EE[GE_MLE]や平均AIC EE[AIC]などを、サンプルサイズnごとに計算して比較するために作ったのが添付画像のグラフです。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/IAAtUveYTS

タグ：統計

posted at 15:10:16

#統計他にも、ベイズ統計の場合の平均汎化誤差E[GE_Bayes]と平均WAICと平均1個抜き出し交差検証E[LOOCV]も計算しています。

n→∞で全部一致することが知られているのですが、nが小さな場合にはAICの値のみが他と大きく違っていることがわかります。n=100で全部ほぼ一致。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/pgmg5LR4hs

タグ：統計

posted at 15:14:48

#統計こんな感じで、最尤法もベイズ統計も差別せずに、適切な規準を作って比較すると、シンプルなモデルで十分にサンプルサイズを大きくすれば、結果は全部一致することが多いです。

上の場合には小さなnで最尤法のAICのみがちょっと離れており、ベイズ版のWAICの方がちょっと優れているっぽい。

タグ：統計

posted at 15:17:46

#統計こういう計算を積み重ねたことがある人ならば、たとえ対立を煽っていなくても「頻度主義とベイズ主義の異なる統計学がある」という主張の薄っぺらさがよく分かると思う。

ほんと、馬鹿じゃないかと思います。

タグ：統計

posted at 15:23:16

#統計そういうお馬鹿さん達が恥ずかしい思いをするようには十分になっていない理由についても、別口の件(算数教育問題)での経験から幾つか思っていることがあります。

こういうところにも我々の社会は改善の余地が残っているということなのでしょう。

タグ：統計

posted at 15:30:30

#統計サンプルを動かす平均ではなく、個々のサンプルごとに、真の予測誤差とAICで測ったその対応物の同時プロットが添付画像の上半分です(下半分はそのベイズ版)。

* 青線のサンプルから作った予測分布の真の予測誤差

と

* AICでのその対応物(AICの差)の破線

を比較！

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/2Go6k40W4X

タグ：統計

posted at 15:38:37

#統計

* 青線のサンプルから作った予測分布の真の予測誤差

と

* AICでのその対応物(AICの差)の破線

が見事に逆相関‼️(相関係数がほぼ-1‼️)。

AIC側の破線が0未満になるとモデル選択に失敗します。

横軸のスケールは確率に比例するように頑張ってちょうせつしてあります。 pic.twitter.com/GaA8fz5CjK

タグ：統計

posted at 15:41:45

若葉めるる@微分コンサル @wkbme

Julia で学ぶ非線形楕円型偏微分方程式論だれか書いて欲しい

タグ：

posted at 15:49:06

#統計 AICが予測誤差の小さな予測分布を選択するための情報量規準であるという予備知識だけがあって、AICの「真の顔」を見たことがない人達は、AICと真の予測誤差のきれいな逆相関に驚くと思います。

そのように思って欲しいのでグラフを紹介しています(笑)

百聞は一見に如かず！ pic.twitter.com/eMAOqKzudy

タグ：統計

posted at 15:49:08

#統計逆相関はベイズ版でもまったく同様です。

真の予測誤差とAICのサンプルを動かす平均はnが大きいときに一致するのですが、

揺らぎの方向は正反対

になることが証明されています。(渡辺澄夫『ベイズ統計の理論と方法』p.80下から10行目) pic.twitter.com/5BIbo3qUpE

タグ：統計

posted at 15:51:52

Iwao KIMURA @iwaokimura

「PythonによるJulia」が出版されて皆が当惑する様が見てみたい。 twitter.com/bd_gfngfn/stat...

タグ：

posted at 15:53:27

#統計グラフの横軸のスケールは確率に比例し、AIC側の橙の破線が0未満になることとAICによるモデル選択の失敗は同値なので、モデル選択に失敗する確率は低いが、失敗確率は16%と仮説検定で要求されることが多い値の5%よりはかなり大きいです。 pic.twitter.com/EsSo6vOD9z

タグ：統計

posted at 15:55:51

#統計実はAIC側のグラフにあと

1.84=quantile(Chisq(1), 0.95) - 2

だけ上に持ち上げれば、0未満になる確率がちょうど5%程度になります。(対数尤度比検定に一致する！)

こういう感じでこのグラフから、AICによるモデル選択と仮説検定の関係も読み取れます。 pic.twitter.com/eEQHdzlm43

タグ：統計

posted at 16:00:52

#統計 AICを使うモデル選択は、モデル達を対等に扱ってどれがもっともらしいかを判定する行為です。

それに対して、仮説検定は、帰無仮説のモデル側が選ばれ易くなるように下駄を履かせた場合(上での1.84の持ち上げが下駄を履かせることに相当)の「モデル選択」に相当しているわけです。

タグ：統計

posted at 16:05:30

#統計そして、添付画像の下半分のベイズ版のグラフが上半分の最尤法版のグラフとほぼ同じであることから、ベイズ版のWAICやLOOCVを1.84上に持ち上げてやれば、有意水準5%仮説検定をベイズ統計を経由して行うこともできることが分かります。 pic.twitter.com/gZ7jtRBd4a

タグ：統計

posted at 16:10:58

#統計以上のような話は、「仮説検定とモデル選択は全然違う」とか「仮説検定とベイズ統計は全然違う」とか、場合によっては「根拠となる主義・思想自体が違う」というような思い込みの毒を飲まされた人達にとって、良い解毒剤になり得ると思います。

タグ：統計

posted at 16:13:14

ただ、ラズパイよりも最近はChromebookが気になるというか、有効活用法というか、もっとうまく使う方法を探している。特にプログラミング。いま、Chromebookで軽くプログラムするための言語と環境をどうするか考えている。

タグ：

posted at 16:17:01

Chromebook、バッテリー持ちが良くて本当に気に入っている。

タグ：

posted at 16:19:42

1次元移流方程式をTVD MacCormack法で解きました。リミターが入ってTVDになっています。それによってオーバーシュートとアンダーシュートがなくなりました！TVD MacCormack法は波の方向を考えなくてよいので楽です。コードはJuliaで書いています。 twitter.com/sasaburo/statu... pic.twitter.com/rOP0Q17Jsf

タグ：

posted at 16:23:50

Chromebook、プログラムを書くとなると何となくSSD容量が気になるので、64GBくらいほしいという気分がある。今の所Emacsでテキストコンテンツを作っているだけなので32GBで困っていないが、かんたんなプログラム系コンテンツを作るときにちょっとインストール系で容量が不安な気分。

タグ：

posted at 16:24:26

Yuki Shirai @Yuki_Doradora

JuliaCon 2019 | TrajectoryOptimization.jl:Optimization-Based Robotic Mot... youtu.be/igd1tuS2OVM via @YouTube

今までpythonでTO解いていたけど，Julia使う．．．？

タグ：

posted at 16:28:49

なるほど、ChromebookはLinuxマシン化できるので、Juliaも普通に使えたりするのかな？ twitter.com/phasetrbot/sta...

タグ：

posted at 16:29:10

knxm @knxm

試していませんが，Debian ベースで出来るようなので大丈夫ではないかと．support.google.com/chromebook/ans... twitter.com/genkuroki/stat...

タグ：

posted at 16:31:16

@genkuroki 容量の内訳を確認していませんが、Linuxを入れていてEmacsとGitを動かすためのツールもいくつか追加して、システムで14.9GBを食っていて現状空きが11.5GBです。これでライブラリをボコボコ入れないといけない言語または対応は厳しいので、64GBはほしいという気分です。少なくともPythonは動いています

タグ：

posted at 16:34:00

残り99件のツイートを見る

kamimura @mkamimura

@iwaokimura @genkuroki ”PythonによるPython”
PyPy: 「呼ばれた気が…🐍(？w)」

タグ：

posted at 16:36:10

@phasetrbot おお、色々教えてくれてどうもありがとうございます。

Pythonも動くことは私にとっては必須の条件。

タグ：

posted at 16:37:11

非公開

タグ：

posted at xx:xx:xx

@genkuroki いま中高生向けコンテンツをずっと考えつつ作っていて、Chromebookが最近のICT対応で現実的に選択肢になっていることも踏まえて買って試しています。そこではプログラミング学習は用途の一つでしかなく容量圧迫するわけにもいかないのでどうするか検討中です。根本的なスペック低いのでその考慮も大事

タグ：

posted at 16:43:02

Juliaで、include文使うとき、変数のスコープどうなってるんだろ。
Aがbというフィールド持ってるとして
A=test(3)
include("c.jl")
としてc.jlの中身がA.b=4だったとき、A見つからないよってエラーが出てしまう

タグ：

posted at 17:18:25

小学生｢手を挙げる回数｣にノルマ科される異様｢もう学校へ行きたくない｣と言う11歳少女 | 週刊女性PRIME - 東洋経済オンライン toyokeizai.net/articles/-/385... #東洋経済オンライン @Toyokeizaiより

タグ：東洋経済オンライン

posted at 17:20:45

掛け算の順序で「小学校教師は教えることにおいてプロなんだ。素人は黙っていろ」というようなことを言う人がいるが、「プロ」の指導ってすごいね（棒

タグ：

posted at 17:21:49

1次元浅水流方程式をMacCormack法で解きました。MacCormack法は不連続の前後で数値振動が発生します。コードはJuliaで書いています。 pic.twitter.com/thg7PacDiL

タグ：

posted at 17:26:34

大山椒魚 @zyuer

JuliaってsimdマクロつけるだけでSIMD命令使えるのか
めっさ楽だな…

タグ：

posted at 17:26:46

Genie.jl のドキュメントが日本語に翻訳されているようです．

#Julia言語

 kentei.github.io/Genie.jl/

タグ： Julia言語

posted at 17:26:56

大山椒魚 @zyuer

ドット演算子をいちいち意識するの少しめんどいなと思ってたけど、これもマクロあるんだなあ
痒いところに手が届くJulia

タグ：

posted at 17:27:54

@cometscome_phys そんなことないと思うのですが、具体例ってあります？

タグ：

posted at 17:30:27

@bicycle1885 mutable struct A
b::Int64
end
function test()
a=A(3)
include("c.jl")
end
test()
としてc.jlは
a.b=4
としました。これを実行するとaが定義されていない、と出ます

タグ：

posted at 17:34:02

ドキ子@産婦人科 @dokikodokiko

@bicycle1885 1.5.2で確認しました

タグ：

posted at 17:35:04

ちなみに、今ニュースになってる本人を責めたいわけじゃないです。私には国を動かす力なんてあるわけもなく、性教育をネットできちんとするほどの余裕もないんです。でも、何かしたくて。今、ちょっとした情報を出して、誰かがそれを受け取ることにより、同じことを防げればと思ってツイートしました

タグ：

posted at 17:35:26

@mtkharu3 @genkuroki @OokuboTact 国民皆教育の理念のようにある程度普遍的な話題になれば、実際には異同があっても、教育専門家にとり普遍的に、洒落ですが、不変的に論じる動機がでてくることでしょう。細部、検討した方がいいですよ。コメニウス、ロホー、ペスタロッツィ、ディースターヴェークおよび各時代の彼らの反対者を。

タグ：

posted at 17:38:53

@cometscome_phys なるほど。include関数は基本的にファイルの内容をeval関数で評価するのと同じなので、eval関数と同様の動作をします。eval関数に渡されたコードはモジュールのグローバルスコープで評価されるので、上のaのように関数のローカル変数は参照できません。

タグ：

posted at 17:40:21

@cometscome_phys わたしがこう思ったのは、include関数はトップレベルで実行するという想定があったからです。
twitter.com/bicycle1885/st...

タグ：

posted at 17:42:17

@bicycle1885 なるほど。ありがとうございます。ファイルに書かれた変数を読み込んで設定するような用途を想定していました。パラメータファイルを.jlで与えたい感じです

タグ：

posted at 17:43:35

@cometscome_phys 一応、
@ eval function test()
a = A(3)
$(Meta.parse(read("c.jl", String)))
end
みたいな感じで似たようなことをできると思いますが、目的に合うか分かりません。

タグ：

posted at 17:51:15

ゴマちゃんTip

Genie.newapp_webservice("MyGenieApp")

で新しいプロジェクトを作ったら

```console
$ cd MyGenieApp
$ ./bin/server
```

で再起動できる

routes.jl を適宜編集することでルーティングの実装ができる．この時サーバーは立ち上げたままで良い． pic.twitter.com/7vTIhatmVj

タグ：

posted at 17:54:40

乳牛 @NewGyu

@genkuroki @nakayoshix ちょうど今プライムデーで衝動買いしたChromeBookで遊んでたところですが、ChromeBookの中にDebianの仮想マシンが入ってる感じで試しにJuliaインストールしたらGetting Startedくらいはできました。（ただ、apt版はとても古かったですが）

タグ：

posted at 17:57:47

#超算数立式という用語を説明する文章を発見した。引用でいきます。
筆者不明「身につけねばならぬ基礎学力」『小二教育技術』第10巻第5号(1957年7月) 255-244ページ。
251頁【
　たとえば、よせ算の「25円のものと18円のものを買った時支払う金高は……」では、まず次の図のように約束されたもの

タグ：超算数

posted at 18:08:31

(おはじき、色カードなど)をおかせてみることである。図略
　ここで、一つの買った物の値段と、支払う金高、買値と買値、支払い高というように統一した考え方をすることのできる子どもにする。
　これを「あわせて」「みんなで」という用語の場合に統一したことに気づかせればよいわけである。
#超算数

タグ：超算数

posted at 18:08:32

これを買ったことがらと結びつけて「25円と18円」と、いい表わすことができるようにする。
　次には、「25円と18円」の時は「＋」の印、よせ算を使うことを教えればよいわけである。「と」と「＋」をしっかり結びつけさせることがポイントである。これを「かき方」「立式」といっている。
】#超算数

タグ：

posted at 18:08:33

「ある地方の国立大学の物理の元教師」でも、グラフの平行移動が直感に反するらしい。私にはその感覚が分からない。「当たり前」としか思えない。
blog.goo.ne.jp/kayamatetsu/e/...

タグ：

posted at 18:09:38

y=f(x)　y方向に+3なら、y=f(x)+3　つまり、y-3=f(x)　なにも不思議はない。

x方向に+4なら、xをx-4に置き換えることになる。

xにもyにも、同じ法則が貫かれている。

タグ：

posted at 18:11:52

以前、2次方程式を教えていて、「符号が反対になるのが分からない」と言われたことがある。

符号がどうこう、と覚えようとするからわからなくなる。

(x+2)(x+3)＝0　なら　
x+2=0　または　x+3=0
これを解いて、x=-2,-3　

と説明した。

件の元物理教師はこれはすんなり受け入れたのだろうか？

タグ：

posted at 18:14:33

#超算数この記述に表れる文章題解決のモデルは:
1. 問題文を抽象的に図示
2. 問題文の表現を少数のキーワードに変換
3. キーワードから準演算的な言語形式に変換
4. 上3における言語形式は演算記号と等価
これで立式ができるという想定がみてとれる。

タグ：超算数

posted at 18:15:49

非公開

タグ：

posted at xx:xx:xx

このブログを書いているのは、矢野忠さんという方らしいけど、読んでいておかしいと感じることが多々ある。

blog.goo.ne.jp/kayamatetsu/e/...

タグ：

posted at 18:26:29

【ウイキペディアでは外延量と内包量とは日本だけで使われる独特の用語だとのことであるが、それは日本の数学教育協議会のとり扱う教育内容が世界を遥かに越えた高い水準にあるということでもある。】

日本だけで使われているのなら、不要な概念じゃないかと疑わないものなのかね？

タグ：

posted at 18:27:23

非公開

タグ：

posted at xx:xx:xx

blog.goo.ne.jp/kayamatetsu/e/...

タグ：

posted at 18:40:01

【それでも整式については文字タイルを用いた教え方があるが、これが平方根とか立方根とかはたまた対数となれば、どういうイメージを描けるのか。

いろいろな試みはあるのであろうが、私自身に「そうだ」とか「なるほど」とか「これだ」と言っていいと思われるイメージは思い浮かばない。】

タグ：

posted at 18:40:17

だとしたら、仮にイメージが提唱されたとしても、生徒がそれをすぐに喚起することはできないだろう。

「教える側はシェーマ、イメージを提示しないとならない」という呪縛から離れればいいだけのこと。

タグ：

posted at 18:41:58

非公開

タグ：

posted at xx:xx:xx

普通に、a^x＝bを満たすxが loga b　とした方が分かりやすいと思うけど・・・
blog.goo.ne.jp/kayamatetsu/e/...

タグ：

posted at 18:50:01

blog.goo.ne.jp/kayamatetsu/e/...
「外延量と内包量とは数学教育での概念であり、他ではほとんど使われていないという記述がwikipediaにはあったが、それは他の分野が十分に認識が進んでいないだけではないのだろうか。」

内包量・外延量というものがナンセンスだからだろう

タグ：

posted at 18:51:31

「それともやはり量というものは高校、大学、一般学会や業界等に至ると難しくなってきて分類は簡単ではないということになってくるというのが本当のところなのだろうか。」

簡単ではない、じゃなくて、最初から無駄だった。
小学校で扱う量の範囲なら誤魔化すことができるのかもしれないけど

タグ：

posted at 18:53:07

ミスたこiPad @missTakoiPad

#julialang をJupyterで使うときにマルチスレッドやりたいと思ってkernel.json書き換えたがなかなかうまくいかず手間取る。json書き換えでなく、REPL上でusing IJulia installkernel(Julia (4 threads)．．．．．．をタイプ！でいいんだ. 「ごはんよ」って呼び出されるまでに解決してよかった

タグ： julialang

posted at 18:59:33

【メロメロさん】ってだれ？www

内容よりもそっちの方に受けた！🤣 twitter.com/sekibunnteisuu...

タグ：

posted at 19:00:34

blog.goo.ne.jp/kayamatetsu/e/...
「もう一つこれはまだ証明できていないことで、エッセイにおいては一応わかっていることとするつもりだが、数列の階差数列を調べてみて、第n階差数列が同じ数になれば、その一般項はn次の多項式で表されるという事実である。これはソーヤーにも証明は載っていない。」

タグ：

posted at 19:07:04

例えばn＝2として、

(a(k+2)-a(k+1))-(a(k+1)-a(k))＝定数　を満たす2次関数a(k)が存在すると言うことを言っているのかな？

数学的帰納法で簡単に証明できると思うけど・・・

タグ：

posted at 19:10:00

でえもん @GreatDemon1701

@genkuroki やっぱり？
そういう名前でやっている人がいるのかと思いました。
ちらっと覗いただけですが、色々と不思議な言葉を操る方のようですね。とても私なんかの手には負えません。

タグ：

posted at 19:18:31

OpenSourcES @opensourcesblog

I'll start to stream on "How many votes do you need to win the US election?" in ~5 hours.

www.twitch.tv/opensourcesblog

Basically trying to recreate www.optaplanner.org/blog/2016/12/0... by @GeoffreyDeSmet

with the registered voters data instead of population.
Using @JuMPjl
and #JuliaLang

タグ： JuliaLang

posted at 19:24:40

この研究は林さんがCRISPER/Cas9の遺伝子編集技術による<単一の染色体融合>技術が核になっています。これで融合を起こした細胞のみ光るので「運命」を追うことができます。ただ_限界_があります。途中で暗くなったり、撮影や容器の限界などからくる観測打ち切りがあるのです。さて、どうするか？ twitter.com/katzkagaya/sta...

タグ：

posted at 19:25:19

細胞分裂の間期長の観測打ち切りデータ censored data だけをプロットするとこのようになります： pic.twitter.com/Gglot15EMg

タグ：

posted at 19:25:20

これは貴重な_情報_です。これを無視したくない。そこで
**
その打ち切った(切られた)時刻から無限のどこかで次の分裂が起きた
**
と考えて統計モデルに組み込むのです。それについては補足資料にまとめてあります。よかったら参考にしてください。doi.org/10.6084/m9.fig...

タグ：

posted at 19:25:20

blog.goo.ne.jp/kayamatetsu/e/...
＞上に与えた問題のような場合にはかけ算の順序をことさら取り立てるのは大人気ないが、それでもこれが物理の問題で単位がついていたりしたら、答えの数値があっていても、本当の理解には頭を傾げざるを得ない

順序が想定の逆だと理解しているかどうかわからないということ？

タグ：

posted at 19:32:09

blog.goo.ne.jp/kayamatetsu/e/...
＞いまの学校で６人＊４（個/人）＝２４個を×としているなら、それはそれで一つの見識というか、小学校の算数で量の理論的な考えがある程度行き渡ったということで、そのことはとやかくは言いたくはありあません。

数教協の人自身が、掛け算の順序は我々の成果と言っている。

タグ：

posted at 19:34:34

HTML/CSS/JavaScript の習得が簡単って情報がネットで溢れてるけれどむず過ぎでは？

タグ：

posted at 19:35:45

blog.goo.ne.jp/kayamatetsu/e/...
【かけ算の意味を累加から解放した、（一つ分の数）＊（いくつ分）＝（全部の数）というかけ算の意味の意義はとても大きい。

タグ：

posted at 19:36:12

このかけ算の意味が普及したから、分数のかけ算等の意味に小学生がそれほど苦しまなくなったと思う。もし累加でかけ算の意味を教えられたら、分数のかけ算のときに引っかかる小学生がやはりいるであろう】

デマです。

タグ：

posted at 19:36:29

blog.goo.ne.jp/kayamatetsu/e/...
中西襄氏と矢野忠氏のやり取り。二人とも物理学者らしいが馬鹿だねｗ pic.twitter.com/T41Wsdvk1w

タグ：

posted at 19:39:37

さおぴー @satukijou

数値計算にJulia言語を使ってるけど、最近は常に最速を求め続けてる

タグ：

posted at 19:40:40

Genie.jlでエラーメッセージが起きたときの挙動が親切やな〜．

タグ：

posted at 19:46:47

訂正〉林さんが→林さんが開発した twitter.com/katzkagaya/sta...

タグ：

posted at 19:47:08

さおぴー @satukijou

最速を求め続ける→最速で計算出来る方法を追い求め続けてる

タグ：

posted at 19:48:45

blog.goo.ne.jp/kayamatetsu/e/...
＞２段目のところをそう書いたどうかは記憶にはないのですが、

音による発言ならともかく、文字として記録に残しているのだから、それを読み返せばいいだけだと思うのだけどね。

タグ：

posted at 19:50:00

あーはずかしい訂正：CRISPER/Cas9→CRISPR/Cas9
twitter.com/katzkagaya/sta...

タグ：

posted at 19:52:06

定 @jijili_jijili

Juliaの言語仕様はそんな難しくないけど、これでPythonと同じように時系列予測できるようになろうねってとこまではだいぶ遠いな

タグ：

posted at 20:01:08

#統計グラフの解説を追加

どういう計算をやっているか

成功確率w=0.4の独立試行をn=100回行ったときに成功した回数kが横軸。データ「n回中k回成功」はこのようにして生成されているという設定。

横軸のスケールは成功確率w=0.4のときにn=100回中k回成功する確率に比例。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/FqjBZNWgtf

タグ：統計

posted at 20:09:54

#統計続き

成功確率0.4でn=100回試すと、k=40回成功する確率が最も高くなる。だから、グラフ中の横軸の目盛の刻み幅(確率に比例)はk=40の周辺で広くなっており、k=40から離れるほど狭くなっている。

#Julia言語のプロットライブラリにそのような機能はデフォルトでないので自分で実装した！ pic.twitter.com/bfw0oEwVc0

タグ： Julia言語統計

posted at 20:13:27

#統計上段のグラフは、「n回中k回成功」というデータにベルヌイ分布模型の最尤法を適用した場合。

「最尤法」と書くと難しく見えてしまうかもしれないが、実際の計算では「n回中k回成功した」というデータから「成功確率はw=k/nである」と推定するだけです。最も単純な点推定です。 pic.twitter.com/8TahznNp28

タグ：統計

posted at 20:17:10

#統計以下、真の成功確率をw₀=0.4と書き、データから推定した成功確率をw*=k/nと書くことにします。

このとき、真の分布は「確率w₀=0.4で成功する」で、データから最尤法で作った予測分布は「確率w*=k/nで成功する」です。そして、その予測分布の予測誤差をKL情報量で定義してやります。続く pic.twitter.com/UxvfFSygtE

タグ：統計

posted at 20:21:10

ひるふぃがぁ @HIL_FIGER_sg

研究で使うメイン言語をFortranからJuliaに移行するか迷う、、、

タグ：

posted at 20:24:47

bra-ketくん @mac_wac

tidyverseがどんどん便利になっていくけど、JuliaのDataFramesはどうなのだろう。こんなことJuliaでパッとやろうと思ったらどういうコード書くのが自然なんだろうか。

タグ：

posted at 20:36:27

bra-ketくん @mac_wac

iris %>% nest_by(Species) %>% mutate(plot=(
ggplot(data,aes(x=Sepal.Width,y=Sepal.Length))+
geom_point()+
stat_smooth(method='lm')+
ggtitle(Species)
)%>%list) %>%
.$plot %>% as.list %>% (patchwork::wrap_plots)

タグ：

posted at 20:36:27

大隅典子＠東北大学（『小説みたいに楽しく @sendaitribune

#統計予測誤差を意味するKL情報量の式は

KL = w₀ log(w₀/w*) + (1-w₀)log((1-w₀)/(1-w*))

です。上段のグラフの青線のPrediction Error of MLEはこのKLの値のグラフです。KLの値は w* = w₀ の予測分布と真の分布が一致するときに最小値の0になり、そこから離れると大きくなる。 pic.twitter.com/NQgtJzDDfM

タグ：統計

posted at 20:40:17

こちらもリンクしておく。「BCGワクチン接種はCOVID-19の発症率と死亡率を低下させていると言えるだろう。」twitter.com/j_sato/status/...

タグ：

posted at 20:45:02

#統計上段の橙の破線は、ベルヌイ分布モデル(パラメータは1個)の最尤法に関するAIC(以下単にAICと書く)から、モデルとして真の分布(成功確率w₀=0.4)のAICにあたるもの(AIC₀)を引いた値のプロットです。

モデル選択ではAICが小さい方が選択されます。続く pic.twitter.com/YX6iQf8aeT

タグ：統計

posted at 20:50:33

#統計続き。だから、AIC < AIC₀ すなわち橙の破線の AIC - AIC₀ が負のとき、真の分布そのものではない、ベルヌイ分布モデルの側が選択され、正しいモデル選択に失敗してしまうことになります。

この場合にはAICでのモデル選択に失敗する確率は18%程度です。(上で16%としたのは誤り) pic.twitter.com/vH5kmsexf3

タグ：統計

posted at 20:50:35

#統計注意：実際にプロットしているのは、通常のKL情報量のスケールではなく、対数尤度比のχ²検定で使用されているスケールです。縦軸のスケールは自由度1のχ²分布のスケールとして意味を持っています。 pic.twitter.com/DDBuPVqyxQ

タグ：統計

posted at 21:13:56

#統計成功確率w₀=0.4の真の分布と、成功確率w*=k/100の最尤法による予測分布の比較では、データでの100回中の成功回数が40から離れるに従って、真の分布よりも最尤法による予測分布の方がもっともらしく見えて来るのは当然で、その当然の感覚を橙の破線のAIC - AIC₀は適切に数値化している感じ。 pic.twitter.com/oFLwRrKbSL

タグ：統計

posted at 21:21:17

#統計正しいモデル選択をしたい人にとっては、AIC - AIC₀ が真の予測誤差と逆相関していることは不都合なのですが、データが運悪く偏っている場合とそうなる確率が高くてそうなった場合はデータを見他だけでは判別できないので、これは仕方がないことだと思います。 pic.twitter.com/m9N9cA4RDe

タグ：統計

posted at 21:28:04

#統計 AICなどの道具を使っても、運悪く低確率で生じる偏ったデータのせいで正しい分析に失敗することは防げません。

統計学を他人に勧めることはギャンブルを勧めることなので、このようにどのようなときに賭けに負ける可能性があるかについて正直に説明しないと倫理的に問題があると思う。 pic.twitter.com/CpwGlDwxyt

タグ：統計

posted at 21:28:07

Hiroshi Shinaoka @HShinaoka

Arm MacでFortranコンパイルできない問題はどうなったのだろうか？Julia, Pythonが動けば、是非導入したい・・・

タグ：

posted at 21:32:50

#統計以上のように実際にAICをプロットして、AICを使ったモデル選択について説明して、「勝率は悪くないが、運悪くデータが偏っていると賭けに負ける」という話まで説明すれば、私が「各分野固有の専門知識は非常に重要である」と言わざるを得なくなることは必然であることも理解できると思う。

タグ：統計

posted at 21:32:50

#統計 AIC - AIC₀ の最大値が2になっているの理由は、パラメータが1個の場合のAICの定義によってパラメータの個数の2倍の2が足されているから。

AICとAIC₀の定義についてはソースコードを参照↓
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/6FQaZAETRI

タグ：統計

posted at 21:39:12

#統計この手の統計学の知識は、

ギャンブルに勝つために役に立つ道具であること

や

どのような場合にギャンブルに負けることになるか

を十分に理解していてかつ、

応用先の分野についての強力な専門知識を持っている人

が使った場合に特に力を発揮するように思えます。

タグ：統計

posted at 21:42:02

Milan Klöwer @milankloewer

Fast climate models in 16-bit arithmetic? On a #GPU? Doesn't work? Yes it can! New paper on challenges for #16bit floats (or posits!), how to use mixed-precision, rescaling equations &reduced-precision communication agupubs.onlinelibrary.wiley.com/doi/10.1029/20...

Everything in #JuliaLang & open-source! pic.twitter.com/xVC40Tra36

タグ： 16bit GPU JuliaLang

posted at 21:51:24

ジグライ(不動産) @jiguraidesu

#統計【重要】AICについて「モデルを複雑にすることによってモデルのデータへの適合度を上げても予測精度は下がる場合がある」というような話をするだけでは、AICと真の予測誤差がきれいに逆相関しているという重要な事実を無視してしまうので個人的に良くないと思う。具体的な計算例が大事。【重要】

タグ：統計

posted at 21:52:21

これの答えわかりますか？うちの妻がショックを受けています。 pic.twitter.com/1pwyY41XuI

タグ：

posted at 22:01:55

1次元浅水流方程式のダムブレイク問題をTVD MacCormack法で解きました。時空間2次精度でキレキレです！書こうと思って1年以上ほったらかしていたのでとてもうれしいです！コードはJuliaで書いています。 twitter.com/sasaburo/statu... pic.twitter.com/dkPYC9SW4m

タグ：

posted at 22:09:36

dc1394 @dc1394

立ててみました。
数値計算 Advent Calendar 2020 #Qiita qiita.com/advent-calenda...

タグ： Qiita

posted at 22:20:00

#統計『統計学を哲学する』のp.147から「AICの哲学的含意」を説明している部分を引用。説明が杜撰なのでコメントしておきます。

①【真実を「歪めた」ないし省略したモデルの方】という言い方を躊躇することなく言うのはやめた方が良いです。

なぜならば～続く pic.twitter.com/uNiObkLRuh

タグ：統計

posted at 22:52:18

#統計続き。なぜならば、現実の統計分析では、データを生成している真の法則は闇の中でずっと不明のままになるからです。

AICで選択されたモデルが、真の法則をよい近似を含んでいるから選ばれたのか、それともパラメータ数を抑えたお陰で過剰適合を免れたから選ばれたのかは闇の中。 pic.twitter.com/VpwszAEQpi

タグ：統計

posted at 23:26:38

#統計 ②あと、パラメータの少ない簡素なモデルの方が【良い予測を行う場合がある】の前に【長期的には】という但し書きが付いている理由も不明。

もしかして無限の未来までデータを取得し続けて大数の法則を使うことを想定している？もしもそうならひどい誤解。 pic.twitter.com/4lkZREh9SZ

タグ：統計

posted at 23:26:41

#統計パラメータが少ない簡素化されたモデルはノイズを学習してしまうリスクが小さくなる分だけ、予測性能が上がる可能性があります。

しかし、簡素化したせいで、そのモデルで実現できる真の分布の最良の近似の誤差が大きくなってしまうリスクは増える。

その両方に配慮しているのがAICです。

タグ：統計

posted at 23:26:42