黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2020年11月03日(火)
以下のjulia言語でgnuplotを使用していて、eps fileで保存してもフォントやラベルが表記されないのですが、原因がわからない。。どなたかわかる方いらっしゃいますか。。?
macOSです
#JuliaLang #Julia pic.twitter.com/TupL3eFMU1
posted at 23:41:35
#統計 ②あと、パラメータの少ない簡素なモデルの方が【良い予測を行う場合がある】の前に【長期的には】という但し書きが付いている理由も不明。
もしかして無限の未来までデータを取得し続けて大数の法則を使うことを想定している?もしもそうならひどい誤解。 pic.twitter.com/4lkZREh9SZ
タグ: 統計
posted at 23:26:41
#統計 続き。なぜならば、現実の統計分析では、データを生成している真の法則は闇の中でずっと不明のままになるからです。
AICで選択されたモデルが、真の法則をよい近似を含んでいるから選ばれたのか、それともパラメータ数を抑えたお陰で過剰適合を免れたから選ばれたのかは闇の中。 pic.twitter.com/VpwszAEQpi
タグ: 統計
posted at 23:26:38
#統計 『統計学を哲学する』のp.147から「AICの哲学的含意」を説明している部分を引用。説明が杜撰なのでコメントしておきます。
①【真実を「歪めた」ないし省略したモデルの方】という言い方を躊躇することなく言うのはやめた方が良いです。
なぜならば~続く pic.twitter.com/uNiObkLRuh
タグ: 統計
posted at 22:52:18
1次元浅水流方程式のダムブレイク問題をTVD MacCormack法で解きました。時空間2次精度でキレキレです!書こうと思って1年以上ほったらかしていたのでとてもうれしいです!コードはJuliaで書いています。 twitter.com/sasaburo/statu... pic.twitter.com/dkPYC9SW4m
タグ:
posted at 22:09:36
Fast climate models in 16-bit arithmetic? On a #GPU? Doesn't work? Yes it can! New paper on challenges for #16bit floats (or posits!), how to use mixed-precision, rescaling equations &reduced-precision communication agupubs.onlinelibrary.wiley.com/doi/10.1029/20...
Everything in #JuliaLang & open-source! pic.twitter.com/xVC40Tra36
posted at 21:51:24
#統計 AIC - AIC₀ の最大値が2になっているの理由は、パラメータが1個の場合のAICの定義によってパラメータの個数の2倍の2が足されているから。
AICとAIC₀の定義についてはソースコードを参照↓
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/6FQaZAETRI
タグ: 統計
posted at 21:39:12
#統計 AICなどの道具を使っても、運悪く低確率で生じる偏ったデータのせいで正しい分析に失敗することは防げません。
統計学を他人に勧めることはギャンブルを勧めることなので、このようにどのようなときに賭けに負ける可能性があるかについて正直に説明しないと倫理的に問題があると思う。 pic.twitter.com/CpwGlDwxyt
タグ: 統計
posted at 21:28:07
#統計 正しいモデル選択をしたい人にとっては、AIC - AIC₀ が真の予測誤差と逆相関していることは不都合なのですが、データが運悪く偏っている場合とそうなる確率が高くてそうなった場合はデータを見他だけでは判別できないので、これは仕方がないことだと思います。 pic.twitter.com/m9N9cA4RDe
タグ: 統計
posted at 21:28:04
#統計 成功確率w₀=0.4の真の分布と、成功確率w*=k/100の最尤法による予測分布の比較では、データでの100回中の成功回数が40から離れるに従って、真の分布よりも最尤法による予測分布の方がもっともらしく見えて来るのは当然で、その当然の感覚を橙の破線のAIC - AIC₀は適切に数値化している感じ。 pic.twitter.com/oFLwRrKbSL
タグ: 統計
posted at 21:21:17
#統計 注意:実際にプロットしているのは、通常のKL情報量のスケールではなく、対数尤度比のχ²検定で使用されているスケールです。縦軸のスケールは自由度1のχ²分布のスケールとして意味を持っています。 pic.twitter.com/DDBuPVqyxQ
タグ: 統計
posted at 21:13:56
#統計 続き。だから、AIC < AIC₀ すなわち橙の破線の AIC - AIC₀ が負のとき、真の分布そのものではない、ベルヌイ分布モデルの側が選択され、正しいモデル選択に失敗してしまうことになります。
この場合にはAICでのモデル選択に失敗する確率は18%程度です。(上で16%としたのは誤り) pic.twitter.com/vH5kmsexf3
タグ: 統計
posted at 20:50:35
#統計 上段の橙の破線は、ベルヌイ分布モデル(パラメータは1個)の最尤法に関するAIC(以下単にAICと書く)から、モデルとして真の分布(成功確率w₀=0.4)のAICにあたるもの(AIC₀)を引いた値のプロットです。
モデル選択ではAICが小さい方が選択されます。続く pic.twitter.com/YX6iQf8aeT
タグ: 統計
posted at 20:50:33
大隅典子@東北大学(『小説みたいに楽しく @sendaitribune
こちらもリンクしておく。「BCGワクチン接種はCOVID-19の発症率と死亡率を低下させていると言えるだろう。」twitter.com/j_sato/status/...
タグ:
posted at 20:45:02
#統計 予測誤差を意味するKL情報量の式は
KL = w₀ log(w₀/w*) + (1-w₀)log((1-w₀)/(1-w*))
です。上段のグラフの青線のPrediction Error of MLEはこのKLの値のグラフです。KLの値は w* = w₀ の予測分布と真の分布が一致するときに最小値の0になり、そこから離れると大きくなる。 pic.twitter.com/NQgtJzDDfM
タグ: 統計
posted at 20:40:17
iris %>% nest_by(Species) %>% mutate(plot=(
ggplot(data,aes(x=Sepal.Width,y=Sepal.Length))+
geom_point()+
stat_smooth(method='lm')+
ggtitle(Species)
)%>%list) %>%
.$plot %>% as.list %>% (patchwork::wrap_plots)
タグ:
posted at 20:36:27
tidyverseがどんどん便利になっていくけど、JuliaのDataFramesはどうなのだろう。こんなことJuliaでパッとやろうと思ったらどういうコード書くのが自然なんだろうか。
タグ:
posted at 20:36:27
#統計 以下、真の成功確率をw₀=0.4と書き、データから推定した成功確率をw*=k/nと書くことにします。
このとき、真の分布は「確率w₀=0.4で成功する」で、データから最尤法で作った予測分布は「確率w*=k/nで成功する」です。そして、その予測分布の予測誤差をKL情報量で定義してやります。続く pic.twitter.com/UxvfFSygtE
タグ: 統計
posted at 20:21:10
#統計 上段のグラフは、「n回中k回成功」というデータにベルヌイ分布模型の最尤法を適用した場合。
「最尤法」と書くと難しく見えてしまうかもしれないが、実際の計算では「n回中k回成功した」というデータから「成功確率はw=k/nである」と推定するだけです。最も単純な点推定です。 pic.twitter.com/8TahznNp28
タグ: 統計
posted at 20:17:10
#統計 続き
成功確率0.4でn=100回試すと、k=40回成功する確率が最も高くなる。だから、グラフ中の横軸の目盛の刻み幅(確率に比例)はk=40の周辺で広くなっており、k=40から離れるほど狭くなっている。
#Julia言語 のプロットライブラリにそのような機能はデフォルトでないので自分で実装した! pic.twitter.com/bfw0oEwVc0
posted at 20:13:27
#統計 グラフの解説を追加
どういう計算をやっているか
成功確率w=0.4の独立試行をn=100回行ったときに成功した回数kが横軸。データ「n回中k回成功」はこのようにして生成されているという設定。
横軸のスケールは成功確率w=0.4のときにn=100回中k回成功する確率に比例。
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/FqjBZNWgtf
タグ: 統計
posted at 20:09:54
blog.goo.ne.jp/kayamatetsu/e/...
>2段目のところをそう書いたどうかは記憶にはないのですが、
音による発言ならともかく、文字として記録に残しているのだから、それを読み返せばいいだけだと思うのだけどね。
タグ:
posted at 19:50:00
blog.goo.ne.jp/kayamatetsu/e/...
中西襄氏と矢野忠氏のやり取り。二人とも物理学者らしいが馬鹿だねw pic.twitter.com/T41Wsdvk1w
タグ:
posted at 19:39:37
このかけ算の意味が普及したから、分数のかけ算等の意味に小学生がそれほど苦しまなくなったと思う。もし累加でかけ算の意味を教えられたら、分数のかけ算のときに引っかかる小学生がやはりいるであろう】
デマです。
タグ:
posted at 19:36:29
blog.goo.ne.jp/kayamatetsu/e/...
【かけ算の意味を累加から解放した、(一つ分の数)*(いくつ分)=(全部の数)というかけ算の意味の意義はとても大きい。
タグ:
posted at 19:36:12
ごまふあざらし(GomahuAzaras @MathSorcerer
HTML/CSS/JavaScript の習得が簡単って情報がネットで溢れてるけれどむず過ぎでは?
タグ:
posted at 19:35:45
blog.goo.ne.jp/kayamatetsu/e/...
>いまの学校で6人*4(個/人)=24個を×としているなら、それはそれで一つの見識というか、小学校の算数で量の理論的な考えがある程度行き渡ったということで、そのことはとやかくは言いたくはありあません。
数教協の人自身が、掛け算の順序は我々の成果と言っている。
タグ:
posted at 19:34:34
blog.goo.ne.jp/kayamatetsu/e/...
>上に与えた問題のような場合にはかけ算の順序をことさら取り立てるのは大人気ないが、それでもこれが物理の問題で単位がついていたりしたら、答えの数値があっていても、本当の理解には頭を傾げざるを得ない
順序が想定の逆だと理解しているかどうかわからないということ?
タグ:
posted at 19:32:09
これは貴重な_情報_です。これを無視したくない。そこで
**
その打ち切った(切られた)時刻から無限のどこかで次の分裂が起きた
**
と考えて統計モデルに組み込むのです。それについては補足資料にまとめてあります。よかったら参考にしてください。doi.org/10.6084/m9.fig...
タグ:
posted at 19:25:20
細胞分裂の間期長の観測打ち切りデータ censored data だけをプロットするとこのようになります: pic.twitter.com/Gglot15EMg
タグ:
posted at 19:25:20
この研究は林さんがCRISPER/Cas9の遺伝子編集技術による<単一の染色体融合>技術が核になっています。これで融合を起こした細胞のみ光るので「運命」を追うことができます。ただ_限界_があります。途中で暗くなったり、撮影や容器の限界などからくる観測打ち切りがあるのです。さて、どうするか? twitter.com/katzkagaya/sta...
タグ:
posted at 19:25:19
I'll start to stream on "How many votes do you need to win the US election?" in ~5 hours.
www.twitch.tv/opensourcesblog
Basically trying to recreate www.optaplanner.org/blog/2016/12/0... by @GeoffreyDeSmet
with the registered voters data instead of population.
Using @JuMPjl
and #JuliaLang
タグ: JuliaLang
posted at 19:24:40
@genkuroki やっぱり?
そういう名前でやっている人がいるのかと思いました。
ちらっと覗いただけですが、色々と不思議な言葉を操る方のようですね。とても私なんかの手には負えません。
タグ:
posted at 19:18:31
例えばn=2として、
(a(k+2)-a(k+1))-(a(k+1)-a(k))=定数 を満たす2次関数a(k)が存在すると言うことを言っているのかな?
数学的帰納法で簡単に証明できると思うけど・・・
タグ:
posted at 19:10:00
blog.goo.ne.jp/kayamatetsu/e/...
「もう一つこれはまだ証明できていないことで、エッセイにおいては一応わかっていることとするつもりだが、数列の階差数列を調べてみて、第n階差数列が同じ数になれば、その一般項はn次の多項式で表されるという事実である。これはソーヤーにも証明は載っていない。」
タグ:
posted at 19:07:04
#julialang をJupyterで使うときにマルチスレッドやりたいと思ってkernel.json書き換えたがなかなかうまくいかず手間取る。json書き換えでなく、REPL上でusing IJulia installkernel(Julia (4 threads)......をタイプ!でいいんだ. 「ごはんよ」って呼び出されるまでに解決してよかった
タグ: julialang
posted at 18:59:33
「それともやはり量というものは高校、大学、一般学会や業界等に至ると難しくなってきて分類は簡単ではないということになってくるというのが本当のところなのだろうか。」
簡単ではない、じゃなくて、最初から無駄だった。
小学校で扱う量の範囲なら誤魔化すことができるのかもしれないけど
タグ:
posted at 18:53:07
blog.goo.ne.jp/kayamatetsu/e/...
「外延量と内包量とは数学教育での概念であり、他ではほとんど使われていないという記述がwikipediaにはあったが、それは他の分野が十分に認識が進んでいないだけではないのだろうか。」
内包量・外延量というものがナンセンスだからだろう
タグ:
posted at 18:51:31
非公開
タグ:
posted at xx:xx:xx
だとしたら、仮にイメージが提唱されたとしても、生徒がそれをすぐに喚起することはできないだろう。
「教える側はシェーマ、イメージを提示しないとならない」という呪縛から離れればいいだけのこと。
タグ:
posted at 18:41:58
【それでも整式については文字タイルを用いた教え方があるが、これが平方根とか立方根とかはたまた対数となれば、どういうイメージを描けるのか。
いろいろな試みはあるのであろうが、私自身に「そうだ」とか「なるほど」とか「これだ」と言っていいと思われるイメージは思い浮かばない。】
タグ:
posted at 18:40:17
非公開
タグ:
posted at xx:xx:xx
【ウイキペディアでは外延量と内包量とは日本だけで使われる独特の用語だとのことであるが、それは日本の数学教育協議会のとり扱う教育内容が世界を遥かに越えた高い水準にあるということでもある。】
日本だけで使われているのなら、不要な概念じゃないかと疑わないものなのかね?
タグ:
posted at 18:27:23
このブログを書いているのは、矢野忠さんという方らしいけど、読んでいておかしいと感じることが多々ある。
blog.goo.ne.jp/kayamatetsu/e/...
タグ:
posted at 18:26:29
非公開
タグ:
posted at xx:xx:xx
以前、2次方程式を教えていて、「符号が反対になるのが分からない」と言われたことがある。
符号がどうこう、と覚えようとするからわからなくなる。
(x+2)(x+3)=0 なら
x+2=0 または x+3=0
これを解いて、x=-2,-3
と説明した。
件の元物理教師はこれはすんなり受け入れたのだろうか?
タグ:
posted at 18:14:33
y=f(x) y方向に+3なら、y=f(x)+3 つまり、y-3=f(x) なにも不思議はない。
x方向に+4なら、xをx-4に置き換えることになる。
xにもyにも、同じ法則が貫かれている。
タグ:
posted at 18:11:52
「ある地方の国立大学の物理の元教師」でも、グラフの平行移動が直感に反するらしい。私にはその感覚が分からない。「当たり前」としか思えない。
blog.goo.ne.jp/kayamatetsu/e/...
タグ:
posted at 18:09:38
これを買ったことがらと結びつけて「25円と18円」と、いい表わすことができるようにする。
次には、「25円と18円」の時は「+」の印、よせ算を使うことを教えればよいわけである。「と」と「+」をしっかり結びつけさせることがポイントである。これを「かき方」「立式」といっている。
】#超算数
タグ:
posted at 18:08:33
@genkuroki @nakayoshix ちょうど今プライムデーで衝動買いしたChromeBookで遊んでたところですが、ChromeBookの中にDebianの仮想マシンが入ってる感じで試しにJuliaインストールしたらGetting Startedくらいはできました。(ただ、apt版はとても古かったですが)
タグ:
posted at 17:57:47
ごまふあざらし(GomahuAzaras @MathSorcerer
ゴマちゃんTip
Genie.newapp_webservice("MyGenieApp")
で新しいプロジェクトを作ったら
```console
$ cd MyGenieApp
$ ./bin/server
```
で再起動できる
routes.jl を適宜編集することでルーティングの実装ができる.この時サーバーは立ち上げたままで良い. pic.twitter.com/7vTIhatmVj
タグ:
posted at 17:54:40
@cometscome_phys 一応、
@ eval function test()
a = A(3)
$(Meta.parse(read("c.jl", String)))
end
みたいな感じで似たようなことをできると思いますが、目的に合うか分かりません。
タグ:
posted at 17:51:15
@bicycle1885 なるほど。ありがとうございます。ファイルに書かれた変数を読み込んで設定するような用途を想定していました。パラメータファイルを.jlで与えたい感じです
タグ:
posted at 17:43:35
@cometscome_phys わたしがこう思ったのは、include関数はトップレベルで実行するという想定があったからです。
twitter.com/bicycle1885/st...
タグ:
posted at 17:42:17
@cometscome_phys なるほど。include関数は基本的にファイルの内容をeval関数で評価するのと同じなので、eval関数と同様の動作をします。eval関数に渡されたコードはモジュールのグローバルスコープで評価されるので、上のaのように関数のローカル変数は参照できません。
タグ:
posted at 17:40:21
@mtkharu3 @genkuroki @OokuboTact 国民皆教育の理念のようにある程度普遍的な話題になれば、実際には異同があっても、教育専門家にとり普遍的に、洒落ですが、不変的に論じる動機がでてくることでしょう。細部、検討した方がいいですよ。コメニウス、ロホー、ペスタロッツィ、ディースターヴェークおよび各時代の彼らの反対者を。
タグ:
posted at 17:38:53
ちなみに、今ニュースになってる本人を責めたいわけじゃないです。私には国を動かす力なんてあるわけもなく、性教育をネットできちんとするほどの余裕もないんです。でも、何かしたくて。今、ちょっとした情報を出して、誰かがそれを受け取ることにより、同じことを防げればと思ってツイートしました
タグ:
posted at 17:35:26
@bicycle1885 mutable struct A
b::Int64
end
function test()
a=A(3)
include("c.jl")
end
test()
としてc.jlは
a.b=4
としました。これを実行するとaが定義されていない、と出ます
タグ:
posted at 17:34:02
ごまふあざらし(GomahuAzaras @MathSorcerer
Genie.jl のドキュメントが日本語に翻訳されているようです.
#Julia言語
kentei.github.io/Genie.jl/
タグ: Julia言語
posted at 17:26:56
1次元浅水流方程式をMacCormack法で解きました。MacCormack法は不連続の前後で数値振動が発生します。コードはJuliaで書いています。 pic.twitter.com/thg7PacDiL
タグ:
posted at 17:26:34
小学生「手を挙げる回数」にノルマ科される異様 「もう学校へ行きたくない」と言う11歳少女 | 週刊女性PRIME - 東洋経済オンライン toyokeizai.net/articles/-/385... #東洋経済オンライン @Toyokeizaiより
タグ: 東洋経済オンライン
posted at 17:20:45
Juliaで、include文使うとき、変数のスコープどうなってるんだろ。
Aがbというフィールド持ってるとして
A=test(3)
include("c.jl")
としてc.jlの中身がA.b=4だったとき、A見つからないよってエラーが出てしまう
タグ:
posted at 17:18:25
@genkuroki いま中高生向けコンテンツをずっと考えつつ作っていて、Chromebookが最近のICT対応で現実的に選択肢になっていることも踏まえて買って試しています。そこではプログラミング学習は用途の一つでしかなく容量圧迫するわけにもいかないのでどうするか検討中です。根本的なスペック低いのでその考慮も大事
タグ:
posted at 16:43:02
非公開
タグ:
posted at xx:xx:xx
@genkuroki 容量の内訳を確認していませんが、Linuxを入れていてEmacsとGitを動かすためのツールもいくつか追加して、システムで14.9GBを食っていて現状空きが11.5GBです。これでライブラリをボコボコ入れないといけない言語または対応は厳しいので、64GBはほしいという気分です。少なくともPythonは動いています
タグ:
posted at 16:34:00
試していませんが,Debian ベースで出来るようなので大丈夫ではないかと.support.google.com/chromebook/ans... twitter.com/genkuroki/stat...
タグ:
posted at 16:31:16
なるほど、ChromebookはLinuxマシン化できるので、Juliaも普通に使えたりするのかな? twitter.com/phasetrbot/sta...
タグ:
posted at 16:29:10
JuliaCon 2019 | TrajectoryOptimization.jl:Optimization-Based Robotic Mot... youtu.be/igd1tuS2OVM via @YouTube
今までpythonでTO解いていたけど,Julia使う...?
タグ:
posted at 16:28:49
Chromebook、プログラムを書くとなると何となくSSD容量が気になるので、64GBくらいほしいという気分がある。今の所Emacsでテキストコンテンツを作っているだけなので32GBで困っていないが、かんたんなプログラム系コンテンツを作るときにちょっとインストール系で容量が不安な気分。
タグ:
posted at 16:24:26
1次元移流方程式をTVD MacCormack法で解きました。リミターが入ってTVDになっています。それによってオーバーシュートとアンダーシュートがなくなりました!TVD MacCormack法は波の方向を考えなくてよいので楽です。コードはJuliaで書いています。 twitter.com/sasaburo/statu... pic.twitter.com/rOP0Q17Jsf
タグ:
posted at 16:23:50
ただ、ラズパイよりも最近はChromebookが気になるというか、有効活用法というか、もっとうまく使う方法を探している。特にプログラミング。いま、Chromebookで軽くプログラムするための言語と環境をどうするか考えている。
タグ:
posted at 16:17:01
#統計 そして、添付画像の下半分のベイズ版のグラフが上半分の最尤法版のグラフとほぼ同じであることから、ベイズ版のWAICやLOOCVを1.84上に持ち上げてやれば、有意水準5%仮説検定をベイズ統計を経由して行うこともできることが分かります。 pic.twitter.com/gZ7jtRBd4a
タグ: 統計
posted at 16:10:58
#統計 実はAIC側のグラフにあと
1.84=quantile(Chisq(1), 0.95) - 2
だけ上に持ち上げれば、0未満になる確率がちょうど5%程度になります。(対数尤度比検定に一致する!)
こういう感じでこのグラフから、AICによるモデル選択と仮説検定の関係も読み取れます。 pic.twitter.com/eEQHdzlm43
タグ: 統計
posted at 16:00:52
#統計 グラフの横軸のスケールは確率に比例し、AIC側の橙の破線が0未満になることとAICによるモデル選択の失敗は同値なので、モデル選択に失敗する確率は低いが、失敗確率は16%と仮説検定で要求されることが多い値の5%よりはかなり大きいです。 pic.twitter.com/EsSo6vOD9z
タグ: 統計
posted at 15:55:51
#統計 逆相関はベイズ版でもまったく同様です。
真の予測誤差とAICのサンプルを動かす平均はnが大きいときに一致するのですが、
揺らぎの方向は正反対
になることが証明されています。(渡辺澄夫『ベイズ統計の理論と方法』p.80下から10行目) pic.twitter.com/5BIbo3qUpE
タグ: 統計
posted at 15:51:52
#統計 AICが予測誤差の小さな予測分布を選択するための情報量規準であるという予備知識だけがあって、AICの「真の顔」を見たことがない人達は、AICと真の予測誤差のきれいな逆相関に驚くと思います。
そのように思って欲しいのでグラフを紹介しています(笑)
百聞は一見に如かず! pic.twitter.com/eMAOqKzudy
タグ: 統計
posted at 15:49:08
#統計
* 青線のサンプルから作った予測分布の真の予測誤差
と
* AICでのその対応物(AICの差)の破線
が見事に逆相関‼️(相関係数がほぼ-1‼️)。
AIC側の破線が0未満になるとモデル選択に失敗します。
横軸のスケールは確率に比例するように頑張ってちょうせつしてあります。 pic.twitter.com/GaA8fz5CjK
タグ: 統計
posted at 15:41:45
#統計 サンプルを動かす平均ではなく、個々のサンプルごとに、真の予測誤差とAICで測ったその対応物の同時プロットが添付画像の上半分です(下半分はそのベイズ版)。
* 青線のサンプルから作った予測分布の真の予測誤差
と
* AICでのその対応物(AICの差)の破線
を比較!
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/2Go6k40W4X
タグ: 統計
posted at 15:38:37
#統計 他にも、ベイズ統計の場合の平均汎化誤差E[GE_Bayes]と平均WAICと平均1個抜き出し交差検証E[LOOCV]も計算しています。
n→∞で全部一致することが知られているのですが、nが小さな場合にはAICの値のみが他と大きく違っていることがわかります。n=100で全部ほぼ一致。
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/pgmg5LR4hs
タグ: 統計
posted at 15:14:48
#統計 ベルヌーイ分布モデルという最もシンプルなモデルの場合に、最尤法の平均汎化誤差EE[GE_MLE]や平均AIC EE[AIC]などを、サンプルサイズnごとに計算して比較するために作ったのが添付画像のグラフです。
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/IAAtUveYTS
タグ: 統計
posted at 15:10:16
#統計 それをある条件のもとで最尤法を使った場合に可能にしたのが、赤池弘次さんです。
AICと書かれ、赤池さん自身は【an information criterion の略記】だと言っている(笑)。
赤池さんが書いたものはこういう点でも面白いのでおすすめ。
www.jstage.jst.go.jp/article/butsur... pic.twitter.com/VcQ4uXyZuT
タグ: 統計
posted at 15:01:07
1次元移流方程式をMacCormack法で解いています。リミターを入れないとMacCormack法は不連続部分で振動します。コードはJuliaで書いています。 pic.twitter.com/AFEtm4iBxL
タグ:
posted at 15:00:17
#統計 データが分布q(y)のi.i.d.で生成されているときには、次に観測されるY_{n+1}の真の分布もq(y)になります。
予測分布p*(y)によるY_{n+1}の真の分布のシミュレーションの誤差はSanovの定理より、Kullback-Leibler情報量D(q||p*)の大きさで測られます。
genkuroki.github.io/documents/2016...
タグ: 統計
posted at 14:45:22
#統計 予測分布の平均対数尤度の一般向けの説明をしたいのだろうが、おそらく「尤度」という言葉に引きずられて、平均対数尤度を得るためにも1000人分のデータが必要であるかのような変な説明の仕方になっている。
稠密に「この著者は分かっていないな」と感じさせる説明が出て来てつらい。 pic.twitter.com/jk7ckMskgO
タグ: 統計
posted at 14:31:44
#統計 予測分布という言葉があるのだから、最尤法の場合も予測分布を定義して、その予測誤差の大きさを問題にすればよいのに、添付画像のような説明になっているせいで、おそらくほとんどの読者は理解不能になるだろう。続く pic.twitter.com/9MX2tO7QGL
タグ: 統計
posted at 14:27:46
#統計 p.144では、これから観測されるデータの分布の予測の意味で「予測」という言葉を使っているように読めますが、説明の仕方が十分にクリアでない。
【似たようなデータの予測】という言い方をしているせいで、その「似たようなってどういう意味?」と読者が叫ばざるを得なくなっている。 pic.twitter.com/f0Ae0QgipO
タグ: 統計
posted at 14:22:54
#統計 「予測」という言葉は統計学について語るときの最重要キーワードなので、大事に扱うべきです。
p.139に、最尤法では与えられたデータを【最もよく予測するようなモデルのパラメータを求める】と書いていますが、そこでは「予測」ではなく、「適合」「フィット」という言葉を使うべきでした。 pic.twitter.com/jy4RNKULAU
タグ: 統計
posted at 14:18:35
#統計 「予測」という言葉は「まだ観測されていない値の分布の予測」という意味で使うべきで、「すでに得られているデータを予測する」のように使うべきじゃないのですが、『統計学を哲学する』ではそういうことをやらかしています。
「哲学」を標榜しながら、数学だけではなく、言葉の扱いがずさん。 pic.twitter.com/6eIzvfJIJH
タグ: 統計
posted at 14:13:53
Windows10のWSl2にUbuntu20.4+Docker構築完了!これで、jupyter/Julia/Rstudio/Cudaを使い分けて、分析PJごとに柔軟な分析環境を実現できた。
テクノロジーの発展はすごい。今はGeForceGPUの活用を含め、ローカルの分析環境は、Windowsの方がメリットあるよ。
タグ:
posted at 13:48:42
ボールよりもハゲが強し(笑)
クソわろた!
サッカーの試合でボールを追跡するはずのAIカメラ、審判のスキンヘッドを追いかけ生配信 | ギズモード・ジャパン www.gizmodo.jp/2020/11/skin-h...
タグ:
posted at 12:56:06
#統計 年収の分布の代表値として中央値を使うことは、我々の立場では以下のリンク先のようなことをしていることになります。
無味乾燥に見える記述統計のイロハのイに過ぎない「中央値」でさえ、こんなに面白い! twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:25:18
#統計
データをガンマ分布で生成
↓
モデルY_i~Laplace(a,b) (ラプラス分布モデル)にぶち込む
↓
視覚化
動画の右半分は尤度函数の視覚化。明るい部分ほど尤度が高い。
データを生成している確率法則はガンマ分布だが、分析用のモデル内でのデータ生成確率法則はラプラス分布。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 12:01:02
#統計
コンピュータでガンマ分布に従う乱数でデータを生成
↓
データをモデルY_i~Normal(μ, σ)にぶち込む
↓
視覚化
データの生成確率法則はガンマ分布ですが、分析用のモデルは正規分布です。
動画の右半分は尤度函数のヒートマップ。
尤度函数のグラフを沢山見ておくことは大事なことです。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 11:56:38
#統計
コンピュータにサイコロXを何回もふらせてデータを生成。
動画中の赤のドットが出た目の割合。
サイコロXは3の目の出る確率だけがちょっとだけ高い。
↓
「サイコロは等確率で、1,2が出易いサイコロA、3,4が出易いB、4,5が出易いCのどれか」というベイズ法のモデルにぶち込む
↓
計算して視覚化 twitter.com/genkuroki/stat...
タグ: 統計
posted at 11:51:06
#統計
sin(x) + 正規分布乱数 でデータを生成
↓
5次式によるフィッティングの最小二乗法のモデルにぶち込む
↓
線形代数で解かずに尤度が大きくなるパラメータ値を探索する方法で計算
↓
視覚化
↓
オーバーフィッティングの様子が見える
↓
実はこれはオーバーフィッティングの普遍的なパターン twitter.com/genkuroki/stat...
タグ: 統計
posted at 11:34:37
#統計 これは良い質問!
#統計 そうです。「モデル内の確率法則」と誤解を招かずに済む説明の仕方をするべきでした。ごめんなさい。文字数制限の圧力に負けた。
「実際にデータを生成していると想定している確率法則」と「分析用のモデル内でのデータ生成の確率法則」は別のものです。 twitter.com/EZX2FOFxVpvStI...
タグ: 統計
posted at 11:01:11
🤔 ピックアップ ✨
Julia のマクロを Rust で書き直してみて感じたこと
by @rithmety
zenn.dev/rithmety/artic...
タグ:
posted at 10:45:00
OokuboTact 大久保中二病中年 @OokuboTact
(続き)
サラッと書いてあるけど、
「倍」と割り算の関係はかなりヤバい。
トンデモ算数教育の金字塔と言える領域
#超算数
タグ: 超算数
posted at 10:42:49
非公開
タグ:
posted at xx:xx:xx
OokuboTact 大久保中二病中年 @OokuboTact
#超算数
算数教育では「1つ当たりの数×幾つ分」は「同数累加」なんだ
twitter.com/OokuboTact/sta...
タグ: 超算数
posted at 10:11:37
富谷(助教);監修 シン仮面ライダー @TomiyaAkio
twitter.com/_arXiv_hep_lat...
この論文、実はJulia (MIT)と自己学習モンテカルロ法(MIT) でMITづくしなんだよな
タグ:
posted at 09:32:40
#Julia言語 これ、私もやってしまったことがある。
失敗が分かる画像とコードを残しておくべきだった。
惜しいことをした。 twitter.com/bicycle1885/st...
タグ: Julia言語
posted at 04:00:38
MathJaxでは、$ $ の内側に \newcommand を書くとよいです。
例
↓
nbviewer.jupyter.org/github/genkuro...
↓
github.com/genkuroki/Calc...
↓
Raw raw.githubusercontent.com/genkuroki/Calc... twitter.com/phasetrbot/sta... pic.twitter.com/9Nhdv5VkHa
タグ:
posted at 03:04:33
あ、【普通に学部教科書レベルの統計学を知っている人が丁寧にレビューしていればこんなことにはならなかったと思う】は、レビュワーを責めているように受け取られかねないよくない発言でした。ごめんなさい。
全責任が著者個人のみにあることは言うまでもない。
タグ:
posted at 02:43:39
Ryoichi @ シリコンバレーの資格 @ryo1kato
Julia、普通のシステムプログラミング用途の言語としてもそこそこ使えそうな雰囲気だけど、適当にググって書くには不向きなのかも。(←ちゃんとドキュメント読め!)
ググって上の方に出てくる --colorはまだ壊れてるし、AnsiColorパッケージはなくなってるし print_with_color() はdeprecatedだし…
タグ:
posted at 02:42:50
Ryoichi @ シリコンバレーの資格 @ryo1kato
multi-line grep に Julia 版を追加してみた。
ただ、とにかく起動が遅い。プリコンパイルしてみても遅い。
ググっても高速化の方法はいまいち分からなかった。
github.com/ryo1kato/mlr-g...
AWK, Haskell, Rust, Python, Golang, Julia版を作ったがその中では結局Haskellがぶっちぎりで速い。
タグ:
posted at 02:36:55
#統計 実際には上で引用したpp.142-143の前のp.141の段階で
誤差項の平均がμ‼️
という設定になっています。
「誤差項」という日本語の意味がよく分かっていないんですかね?
引用部分について他にも言いたいことがあるのですが、皆さんにまかせます。
全体的に作りが雑で杜撰という印象が確定。 pic.twitter.com/XrNnN1skC3
タグ: 統計
posted at 02:15:35
#統計 p.17の図1.1では「Major axis」が回帰直線になっていたし、p.139では【最尤法の他に~最小二乗法】があるかのような説明の仕方になっていたし(最小二乗法は最尤法の特殊な場合)、嫌な予感はしていたのですが、pp.142-143では、
回帰の誤差項の平均がμ‼️
という設定を採用していた‼️😅😅😅 pic.twitter.com/Ao6RkgGIDl
タグ: 統計
posted at 02:02:20
#統計 うぎゃあ!😅
回帰の式が
M₁: y = β₀ + β₁ x₁ + ε, ε ~ N(0, σ₁²)
ではなく、
【M₁: y = β₁ x₁ + ε, ε ~ N(μ₁, σ₁²)】(p.142)
【ただし、ε ~ N(μ, σ²) は誤差項εが平均μ、分散σ²の正規分布に従う、ということを示している】(p.143)
になっていた!
誤差項の平均がμ‼️😱 pic.twitter.com/E4avtd8wey
タグ: 統計
posted at 01:56:11