黒木玄 Gen Kuroki(@genkuroki)/2022年06月24日

#統計前にも書きましたが、中心極限定理の例として一様分布を出すことは、中心極限定理が余りにもうまく行く例外的な場合なので、ミスリーディングになりやすいと思います。

教科書では中心極限定理の収束が遅い場合もきちんと扱わないとまずいと思う。 twitter.com/genkuroki/stat...

タグ：統計

posted at 23:58:38

@yasudaidai 中心極限定理の証明を見ればすぐに分かることですが(cumulant母函数を見るようにする)、歪度(skewness E[((X-μ)/σ)³])の絶対値が大きな分布では、中心極限定理の収束は遅くなる。

左右対称な分布と非対称な分布で中心極限定理の収束の速さが全然違うことの確認をしておくと役に立つ知識になります。

タグ：

posted at 23:52:32

Josh Day @heyjoshday

Julia For Data Scien @JuliaForDataSci

Artifacts in #Julialang were a mystery to me until only recently. Want to ditch your deps/build.jl scripts for a more robust artifact system? Here's a high level overview to get you up and running! twitter.com/JuliaForDataSc...

タグ： Julialang

posted at 22:51:36

📢 New Post! It's been a while! Let's learn about developing a package that uses artifacts! www.juliafordatascience.com/artifacts/

タグ：

posted at 22:48:30

daikatsu yasuyuki @yasudaidai

@genkuroki 混合モデルで試行してみました。たしかに収束の様子が違いますね。
ご指導、ありがとうございました。 pic.twitter.com/wSGcxigFSl

タグ：

posted at 22:47:25

訂正：後者の❌を⭕️に！

色々ひどい。 twitter.com/genkuroki/stat...

タグ：

posted at 22:40:12

#統計いつも「プロットできる尤度函数はすべてプロットした方がよい」と言っているのですが、以下のプロットを私が初めてしたのは数日前です。

このプロットをして来なかったことをひどく後悔しました。

見た目が非常に面白いと思います。

github.com/genkuroki/publ... pic.twitter.com/6qPcfF0DTw

タグ：統計

posted at 22:37:14

#統計このスレッドトップのネタについても、「頻度論とは異なる確率概念を教える必要がある」的な有害な意見を見かけました。

ベイズ統計の有用さを理解するには、確率概念に手をつける必要は一切ありません。

必要があると思っている人達は理解度が低いと社会的に評価されるべきです。

タグ：統計

posted at 22:32:29

#統計歴史的な不幸のせいで、「頻度主義vs.ベイズ主義」的なベイズ統計の宣伝が普及してしまっていますが、あれは極めて有害であり、「主義に基く統計学はエンガチョ」だとはっきり教えて行く必要があります。

上のストーリーを読めば、普通に合理的にベイズ統計の優秀さを予想できると思います。

タグ：統計

posted at 22:29:10

川端裕人『ドードー鳥と孤独鳥』（国書刊 @Rsider

#統計忠実な最尤法によってパラメータの値がぶっとんでしまう場合には、パラメータの動きに制限を加える(罰則項の追加、正則化)という方法が有効です。

その方向に進めばほぼ必然的にベイズ統計の方法が、最尤法がうまくいかない場合に有用であることに気付きます。

タグ：統計

posted at 22:25:19

黒坂祐さんの示唆に富むnote──赤みがかった緑｜kurosakayu #note note.com/kurosakayu/n/n...

タグ： note

posted at 22:24:43

#統計忠実な最尤法がうまくいかないようにする別の方法はモデルのパラメータを増やすことです。その場合にはオーバーフィッティングが起こる。

あれやこれやで、忠実な最尤法がうまく行かない場合が結構あることは昔からよく知られていました。

タグ：統計

posted at 22:22:47

#統計訂正：この対数尤度函数が∞に発散するのは、

❌μ = x_i で log σ → ∞

ではなく、

❌μ = x_i で log σ → -∞

です。負号を入力し忘れた。

この場合には、log σ が小さくなり過ぎないように、パラメータの動きを制限しないと最尤法は数学的に破綻します。 pic.twitter.com/GmIbLzhzed

タグ：統計

posted at 22:20:39

川端裕人『ドードー鳥と孤独鳥』（国書刊 @Rsider

#統計しかし、ローカルマキシマムを採用すれば、このモデルでもまともな推定は可能です。

テストデータはパラメータ(μ, σ)=(4, 1.5)で生成したのですが、ローカルマキシマムを与えるパラメータ値は (3.9, 2.2) なので結構うまくいっています。

添付画像③はその周辺での尤度函数の様子。 pic.twitter.com/EaLhE8rUVa

タグ：統計

posted at 22:15:50

ヤフー・ニュースにも転載されているのを教えてもらいました──日本が抱える色覚の課題宇宙飛行士にも〝多様性〟の確保を(Wedge)
#Yahooニュース
 news.yahoo.co.jp/articles/ed1fd...

タグ： Yahooニュース

posted at 22:14:33

#統計添付画像のヒートマップはサイズn=10のサンプルx_1,…,x_nの対数尤度函数のグラフです。

μ = x_iのとき、log σ → ∞ でこの対数尤度函数は∞に単調に発散します。

この場合には最尤法を忠実に適用すると数楽的に破綻します。

github.com/genkuroki/publ... pic.twitter.com/4lEOQjQLMR

タグ：統計

posted at 22:10:53

#統計例えば、標準正規分布とパラメータμ,σを持つ正規分布を1対1で混合した2つ山の混合正規分布モデルでは、最尤法の忠実な適用は数楽的に破綻します。

添付画像はそのモデルの対数尤度函数のひーとまっぷです。続く

github.com/genkuroki/publ... pic.twitter.com/cHZo1tWAGp

タグ：統計

posted at 22:06:56

#統計最尤法がうまく行くことを保障するための条件は結構厳しくて、忠実に最尤法を使ってしまうと破綻する統計モデルは容易に作れます。

破綻する場合の尤度函数の視覚化
↓
github.com/genkuroki/publ...

タグ：統計

posted at 22:03:46

#統計あと、最尤法は「モデルのパラメータ値をデータと同じ数値がモデル内で生成される確率が最大になるように決める」という方法なのですが、この方法には必然性がありません！

必然性に欠けた単なる1つの方法に過ぎない。

シンプルなモデルではうまく行くのでよく使われているだけです。

タグ：統計

posted at 22:01:17

#統計以上で算出した数値は、その場で #Julia言語のコードを書いて求めました。その様子を

github.com/genkuroki/publ...

で公開しておきました。

タグ： Julia言語統計

posted at 21:44:31

#統計二項分布モデルと「5回中5回とも裏」というデータの数値から得られるベイズ版95%信用区間は

* 事前分布がJeffreysのとき「38%以下」

* 事前分布が一様分布のとき「46%以下」

となります。nが小さいのでどんぶり勘定になりますが、P値を使った信頼区間とそう変わらない結果が得られます。

タグ：統計

posted at 21:39:52

#統計信頼区間と共に報告される最尤推定値は単に「データの数値にベストフィットしているモデルのパラメータ値」を意味しているに過ぎない。

最尤法について説明するなら、こういう話もついでに説明しておけば、真に役に立つ知識について説明したことになると思います。

タグ：統計

posted at 21:34:16

#統計例えば、「5回中5回とも裏」というデータからの最尤法で「p=0」という点推定の結果が得られても、「表が出る確率は0だと推定される」と報告するお馬鹿さんは統計学ユーザーにはおらず、「表が出る確率の95%信頼区間は0%以上52%以下である」のように報告する方が普通だと思います。

タグ：統計

posted at 21:32:13

#統計最尤法による点推定はほとんどの場合にP値を使った信頼区間と一緒に使われます。

タグ：統計

posted at 21:31:02

#統計信頼区間とベイズ信用区間はシンプルなモデルでは実践的には無意味な程度しか違わないことがあり、そういう場合はどちらを使っても同じです。

「頻度論vs.ベイズ主義」的な発想もまた有害な非科学的な考え方なので、科学技術の話をしたい人は控えた方が良いでしょう。

タグ：統計

posted at 21:27:49

#統計 P値の定義の仕方は無数にあって、細かい数楽的議論が結構うざい、という欠点がP値にはあります。しかし、モデルがシンプルな場合には相当に役に立ちます。

計算量は少し増えますが、ベイズ信用区間の方が概念的には数学的ややこしさが小さいように個人的には思えます。

タグ：統計

posted at 21:24:36

#統計正規分布近似を使わないClopper-Pearsonの95%信頼区間の場合には、「5回中5回裏」というデータの数値に対応するモデルのパラメータpの信頼区間はおおよそ「52%以下」になります。

タグ：統計

posted at 21:21:02

#統計注意：上で使ったWilson検定のP値は、二項分布Binomial(n,p)が中心極限定理によってNormal(np, √(np(1-p)))で近似されることを使っています。

上ではn=5なので、中心極限定理による近似は超どんぶり勘定なので、あんまり信頼できないと考えた方が良いでしょう。

タグ：統計

posted at 21:16:50

#統計 5%の閾値でデータの数値と整合性がないと判断されたパラメータ値を捨てる(棄却する)と、残ったパラメータ値達の全体は「43%以下」になり、5%の閾値を使った判断では、「5回中5回裏」というデータの数値が得られても、表の出る確率が43%程度である可能性は棄却されないということです。

タグ：統計

posted at 21:13:43

#統計「5回中5回裏」というデータの数値との整合性の指標であるP値が5%以上になるモデルのパラメータ値の範囲はおおよそ「43%以下」になります。

これが「5回中5回裏」というデータの数値から得られるWilsonの95%信頼区間です。

タグ：統計

posted at 21:10:54

#統計 P値は、モデルのパラメータ値とデータの数値の整合性の指標です。

例えば、「5回中5回裏」というデータの数値との「p=0.1」というパラメータ値のWilson検定のP値は約46%で結構高いです(少なくとも低くはない)。

タグ：統計

posted at 21:10:53

kassy @kassy32152870

これ凄い！
ありがとうございます。ブクマ＆永久保存版とさせていただきます。 twitter.com/genkuroki/stat...

タグ：

posted at 21:06:07

#統計区間推定をするときに使われる主な方法は少なくとも2種類あります。

信頼区間=P値が閾値α以上になるパラメータ値全体の集合

ベイズ信用区間=事後分布で測った確率が1-αになるパラメータ値の区間

モデルがシンプルならこれらはほぼ一致することが結構あります。

タグ：統計

posted at 20:56:04

#統計統計学を利用するときには、点推定ではなく、区間推定(信頼区間)の方を報告しなければいけない、と常に言われます。

これを守っていれば、上で述べた意味で非科学的な考え方をしている困った人であっても、相当に害の小さな報告をできるようになると思います。

そういう先人の知恵だと思う。

タグ：統計

posted at 20:52:21

#統計現実のコインを投げたときに表が出る確率と、その確率の推定用に使ったモデル内のパラメータpの値の区別をできなくなっている人達は、完全に非科学的な思考に陥っているので、その誤解を払拭するまで科学がらみの話をすることは控えるべきだと思います。

タグ：統計

posted at 20:48:45

#統計なぜならば、尤度最大化で求めたp=0は、ベルヌイ試行モデル内部の確率パラメータでデータの数値「5回中5回が裏」にベストフィットする値を求めただけだからです。

求めたp=0はモデル内パラメータの値でしかありません。

これ、当たり前の話なんですが、誤解している人は多いような気がします。

タグ：統計

posted at 20:46:14

ハガネの連勤術師 @hgn_no_otaku

#統計コインを5回投げて「5回中5回が裏」という結果が得られたとき、表の出る確率のモデル化をパラメータpと書くとき、ベルヌイ試行モデルの尤度函数はp↦(1-p)⁵で、p=0で最大になります。

この結果を「現実のコインで表の出る確率は0だと推定された」のように考えるのはちょっとおかしいです。続く

タグ：統計

posted at 20:46:13

「理解してない可能性は高いけどそこに書かれたことは間違いじゃない」答案をバツにする人が多すぎて、驚いてる。

タグ：

posted at 19:21:34

つるじろう @tsurujiro_drago

ごまふあざらし(GomahuAzaras @MathSorcerer

これはひどすぎる。 twitter.com/nekonyannyan82...

タグ：

posted at 19:08:13

@miguelraz_ @genkuroki (・ω・｀)つ
patorjk.com/software/taag/... pic.twitter.com/ZA3V40yXbD

タグ：

posted at 17:55:12

#超算数

【全部答えはゼロ】 twitter.com/nekonyannyan82...

タグ：超算数

posted at 15:44:57

ティンパニーちゃん（公式） @ngoro_timpani

【全部答えはゼロ】w

タグ：

posted at 15:42:13

@nekonyannyan821 笑
おもろい。

タグ：

posted at 15:35:35

#統計これはロジスティック回帰の尤度函数のヒートマップ。

尤度函数の形を色々見たことがある経験は大事なので、パラメータ数が2以下のモデルに出会ったら必ず尤度函数を視覚化してみるべき。 twitter.com/genkuroki/stat... pic.twitter.com/y86HtXEqf7

タグ：統計

posted at 14:58:00

Akinori Ito @akinori_ito

「貧乏でも豊かに」というのもこれと同じかもなあ。知識と技術があればお金が足りなくてもなんとかできるかもしれないが、知識とお金の両方ない場合はどうしようもない

タグ：

posted at 14:46:56

Akinori Ito @akinori_ito

昔のXPのパソコンでも軽量Linuxとかで現在も使うことは可能だけど、それには知識と技術が必要。金か技術のどちらかが必要で、技術がない人は金を出すしかない

タグ：

posted at 14:45:20

#統計 2次元のロジスティック回帰のありがちな視覚化。

データが運悪く偏って推定結果が真の値からずれてしまっている場合をわざと選んだ。

github.com/genkuroki/publ... pic.twitter.com/2wH0FvsXwT

タグ：統計

posted at 14:38:24

#統計 2次元の場合も簡単。

github.com/genkuroki/publ... pic.twitter.com/dg2d271TR7

タグ：統計

posted at 14:36:41

#統計

ロジスティック回帰のありがちな視覚化と尤度函数のヒートマップ。

ロジスティック回帰の実装よりも、プロットのためのコードの方が長い。

github.com/genkuroki/publ... pic.twitter.com/OmH6Nal8lr

タグ：統計

posted at 14:35:58

オンライン数学問題集(YUKI) @suugaku_monndai

#統計 1次元のシンプルなロジスティック回帰は数行で書ける。

#Julia言語
↓
github.com/genkuroki/publ...

「ロジスティックモデルはベルヌイ分布のパラメータをロジスティック変換したもので云々」をコードに直訳するだけ。 pic.twitter.com/XoCjbtIVvc

タグ： Julia言語統計

posted at 14:34:17

これはひどすぎて笑えない💧 twitter.com/nekonyannyan82...

タグ：

posted at 14:31:03

@miguelraz_ Eventually, I just implemented a direct zeros replacement. Here's a head-to-head comparison of ArrayAllocators.zeros (microseconds) versus Base.zeros (seconds). pic.twitter.com/KuYA3olKGo

タグ：

posted at 13:45:10

@miguelraz_ I decided that we should be able have "fast" zeros in #JuliaLang as well. pic.twitter.com/ESYICOS55c

タグ： JuliaLang

posted at 13:39:59

ね(ne)こ(k∅) @nekonyannyan821

ひさしぶりに黄色卵さん訪問したら遂に壊れてしまっていて泣きそう。 pic.twitter.com/fS5kwkyI4V

タグ：

posted at 13:38:20

@miguelraz_ My initial inspiration for this package was that numpy.zeros looks faster than #JuliaLang's zeros: pic.twitter.com/PQzu8AKZcH

タグ： JuliaLang

posted at 13:35:49

歩行者は右側通行 @JikanBae

2位のElixir、3位のClojureも良い言語だよね。1位のRustは良いとは聞くけど未経験。

タグ：

posted at 13:35:25

@miguelraz_ The real package is github.com/mkitti/ArrayAl...

タグ：

posted at 13:28:39

歩行者は右側通行 @JikanBae

愛され言語の5位に #Julia言語が！ twitter.com/topitmedia/sta...

タグ： Julia言語

posted at 13:17:48

ITmedia Top @topitmedia

［www.itmedia.co.jp］世界中のIT技術者から愛されているプログラミング言語　3位は「Clojure」、2位は「Elixir」　1位は？　Stack Overflow調べ bit.ly/3xOVquo

タグ：

posted at 13:00:03

以下のリンク先の添付画像のような解説に、「こんなにレベルの高いことを教えるようになったんだ！」のような反応があること自体が大問題だと思ったので、こんなスレッドができてしまった。

しかし、「これはひどい！」というニュアンスの反応も結構多い点はほっとする。 twitter.com/awellbottom/st...

タグ：

posted at 12:39:22

講談社サイエンティフィク @kspub_kodansha

@tsatie ググってみたい人用
↓

www.google.com/search?q=%E8%9...
萩谷昌己

www.google.com/search?q=%E5%A...
天良和男

www.google.com/search?q=%E6%A...
森純一郎

www.google.com/search?q=%E6%9...
春日井優 twitter.com/awellbottom/st...

タグ：

posted at 12:28:36

電子版出ます、ご安心ください！紙面レイアウトを維持するためいわゆる「フィックス型」で制作しており、おそらく配信は早いと思います！講談社BOOK倶楽部書誌情報ページに追加されますので、お手すきの際に注視をお願いしますm(__)m bookclub.kodansha.co.jp/product?item=0... twitter.com/Dolphin7473/st...

タグ：

posted at 11:19:08

@tsatie あれは、統計学ではなく、機械学習系の人による解説に見えます。

タグ：

posted at 10:55:01

#統計 xの値ごとにyの値が1または0になる確率が違っているとき、xの値からその確率がどのように決まっているかについて、モデルを使って推定してみよう、というシンプルな話に過ぎません。

「ロジスティック回帰」「交差エントロピー」のようなジャーゴンは理解にとってはノイズになる。 twitter.com/tsatie/status/...

タグ：統計

posted at 10:46:44

分岐
↓ twitter.com/genkuroki/stat...

タグ：

posted at 10:41:58

ああいうノータイムで「これはひどい」と分かる解説を高校生相手にできてしまう理由は、高等教育においても普段からああいうスタイルで説明されて来てかつ説明しているからです。

「きはじ」を習った人たちが「きはじ」で教えようとするのと似たような問題だと思って構わないと思います。 twitter.com/tsatie/status/...

タグ：

posted at 10:40:33

#統計そういう「P値警察」「信頼区間警察」側の杜撰な態度の背景には、モデルと現実の区別がつかなくなっている典型的に非科学的な考え方の蔓延があるように思えます。

タグ：統計

posted at 10:36:47

#統計統計学においては「P値警察」「信頼区間警察」などの誤用の取り締まりをしている側が、最も肝腎な統計モデルの存在を無視して、誤解している人達におかしなことを吹き込むことが何十年も続けて行われている。

これこそがP値や信頼区間が分かりにくくなる主な原因だと思います。

タグ：統計

posted at 10:35:00

#統計その論文はめっちゃ引用されている。

P値については、誤解を指摘している側も、帰無仮説を現実に関する仮定であるかのように誤解しているせいで、結果的に誰もP値のシンプルで分かりやすい定義にたどりつけないようになっているのだと思います。

タグ：統計

posted at 10:31:37

#統計

Steven Goodman
A Dirty Dozen: Twelve P-Value Misconceptions
2008
www.ohri.ca//newsroom/semi...

これは読む価値のある論文です。しかし、帰無仮説が仮定されるのは現実についてではなく、統計モデルであるという点を避ける基本概念の定義を前提にしており、ASA声明的にはまずいと思います。

タグ：統計

posted at 10:29:37

#統計そういう状況は、統計モデルの前提が見えていない理解度の低い人達による「P値警察」の活動によっても悪化させられました。

P値に関するASA声明よりも前に書かれたP値に関する誤用を指摘している論文達も統計モデルの重要性を無視している場合があって酷いことになっている。

タグ：統計

posted at 10:20:23

#統計帰無仮説は現実に関する仮定ではなく、データの数値との整合性を見たい統計モデル内における追加の仮定として使われているという計算の仕方を見れば当たり前のことを見逃してしまっているから、P値について理解できなくなるのです。

タグ：統計

posted at 10:17:37

#統計 P値に関するASA声明 www.biometrics.gr.jp/news/all/ASA.pdf にも、

【P 値はデータと特定の統計モデル(訳注: 仮説も統計モデルの要素のひとつ)が矛盾する程度をしめす指標のひとつである】

と書いてあります。

統計モデルに触れないP値の解釈はASA声明的には明瞭にアウト！ pic.twitter.com/kp8ff9TpMj

タグ：統計

posted at 10:15:16

#統計「2群の平均は等しい」という帰無仮説を前提にするときには、正規分布モデル内での追加の仮定として使われたり、中心極限定理による正規分布近似がうまく行っているというモデル内設定への追加の仮定として使われる。

P値を計算するときに帰無仮説は現実に関する仮定として使われていない！

タグ：統計

posted at 10:15:14

#統計 P値に関する最もありがちな誤解は、P値の定義を

❌帰無仮説が現実において正しいと仮定したとき、その仮の現実においてすでに観測されたデータの数値以上に極端なデータの値が得られる確率もしくはその近似値

だと思ってしまうことです。肝腎の統計モデルに言及していないので完全にアウト！

タグ：統計

posted at 10:03:57

#統計尤度については誤解に至る道が舗装されまくっていて、多くの人が流れ作業のように誤解しまくっています。

尤度については、余計なことを考えずに定義に戻って考えるようにし、漢字や英単語の意味は完全に無視した方がよいです。 twitter.com/genkuroki/stat... pic.twitter.com/ZgyZxU21tm

タグ：統計

posted at 09:25:52

Julia REPL stan now @miguelraz_

@genkuroki whoaaaah do you have code to make the logo?
Looks super cool!

タグ：

posted at 09:22:12

ごまふあざらし(GomahuAzaras @MathSorcerer

私の手書きの解説にも書いてあるように、尤度はもっともらしさの指標では__ない__です。この点は多くの教科書が間違っています。

英単語のlikelihoodの通常の意味で尤度を解釈しようとする人達は誤解しているということになります。

「尤度」と意味不明に訳されたことは幸運だった可能性さえある。 twitter.com/nogutetu/statu...

タグ：

posted at 09:21:09

@genkuroki キューンwww(タイポ気づきませんでした.ありがとうございます)

タグ：

posted at 09:10:14

ロジスティック変換についてロジスティック回帰の文脈に過学習してしまうと、ロジスティック変換のロジスティック回帰以外の応用を素直に思い付けない状態になる。

現実の高等教育でもそういうまずい教え方をされている可能性が高いです。そういう教育は潜在能力を潰すことに役に立ってしまう。

タグ：

posted at 08:11:20

例えば、0 < p < 1 の範囲しか動けないパラメータ p についてMCMC法を適用したいときに、ランダムウォークで両端をはみ出すことを気にしなくてよいようにするには、ロジスティック変換で -∞<x<∞ にパラメータを変換すればよい。

タグ：

posted at 08:08:35

それらは、ロジスティック回帰だけに役に立つのではないという当たり前の話の方が重要です。

タグ：

posted at 08:08:23

#統計 pの対数オッズx=log(p/(1-p))への変換をlogit変換と呼び、その逆変換p=1/(1+e⁻ˣ)をlogistic変換と言うだけの話で、それらをそのように呼ぶことを自体は大事なことではありません。

タグ：統計

posted at 08:05:38

#統計ロジスティック変換についても丁寧な説明があった方がよい。確率を表すパラメータ

0 < p < 1

に対して

0 < u = p/(1-p) < ∞

をオッズ(賭博用語)と言います。その対数

-∞< x = log u < ∞

を対数オッズと呼ぶ。逆に対数オッズ x で確率 p は

p = u/(1+u) = 1/(1+e⁻ˣ)

と書ける。続く

タグ：統計

posted at 08:02:49

Ishida the Brain Dam @tbs_i

俺はnethackでviのカーソルキー移動を覚えた。 twitter.com/genkuroki/stat...

タグ：

posted at 07:26:47

有名なジャーゴン化してしまった○○モデルや○○回帰のような名前を暗記するような勉強になるのは最悪。

そうならないようにするためには、ジャーゴンを乱舞させるあのような解説を高校生相手にするべきではないです。

「この程度のことは自分で思い付くよ」と言える方向に誘導する様にするべき。

タグ：

posted at 07:18:56

こういう決まり切ったパターンになっています。

部品になるBernoulli分布や正規分布とロジスティック変換のような一応非自明なパラメーター付けの仕方などに関する数学的知識が増えれば、自分で幾らでも複雑なモデルを考えることができる。

この「自分で」の部分が非常に重要。

タグ：

posted at 07:15:37

最小二乗法による線形回帰も完全に同様の説明の仕方をできます。

「モデル0」として、平均パラメータμと分散パラメータσ²を持つ正規分布の標本分布モデルを採用。

そのとき、平均パラメータがμ=a+bxとxに依存するようにモデルを拡張して、最尤法でパラメータa,b,σ²を推定すると線形回帰になる。

タグ：

posted at 07:11:14

以下のリンク先では、まずxがない場合(もしくはパラメータpがxによらない定数の場合)を「モデル0」として解説し、その後で、確率パラメータpがp=logistic(a+bx)と書けている場合の最尤法をロジスティック回帰(←これも必須ではない単なるジャーゴン)と呼ぶことを説明しています。続く twitter.com/genkuroki/stat...

タグ：

posted at 07:07:09

疫学の教科書を見ると、yだけではなく、xも1または0の値しか取らない場合に、オッズ比、リスク比、リスク差を推定する方法が載っており、それぞれ、logistic(a+bx), exp(a+bx), a+bx の場合のbの推定に相当しています。

新型コロナウイルスの時代ではこういう疫学の知識も普及させた方がよいと思う。

タグ：

posted at 06:57:29

必然性がない設定について必然性があるかのように誤解させるとまずいので、その辺も明瞭に説明しておきたい感じ。

タグ：

posted at 06:49:35

#統計 xから確率パラメータpがどのように決まっているかのモデル内設定は現実におけるデータの生成のされ方にフィットするものにしたい。そのお手軽設定の1つがロジスティック変換。

①p=logistic(a+bx)=1/(1+exp(-a-bx))

例えば以下のような選択肢も一応あり得る。

②p=exp(a+bx)

③p=a+bx

タグ：統計

posted at 06:48:08

#統計 logistic回帰は確率パラメータ p がlogistic変換で p = logistic(a + bx) とxごとに決まっているという設定のモデルです。

そこでロジスティック変換を使う必然性はあるか？

ありません。

無数にある選択肢の中から1つのモデル化の仕方を選んだだけです。 twitter.com/genkuroki/stat...

タグ：統計

posted at 06:43:07

おうどん @mar_cont_hu

なるほどなるほど。 twitter.com/genkuroki/stat...

タグ：

posted at 06:33:57

みやび @Miyabi_ill

Clojure、julia、Delphi触っておこ。そしたら言語だいたいコンプ。余裕あったらSolidityもかな（名前しかしらん）
他はとりあえずいいかな。明日じっくり見て考えよ

タグ：

posted at 02:43:42

尤度函数の形が場合によっては複雑になることを、具体例を通して知るようになれば、「これ、一体、どーすんの？」と誰だって考えると思う。

そこまでたどり着けば、特異モデルのベイズ統計の話をできて、ベイズ統計の優秀さに、主義に基く非科学的な統計学を経由せずに触れることができる。

タグ：

posted at 00:06:29

だから、いきなり一般的な損失函数の話にせずに、尤度函数の最大化について丁寧に説明しておいた方がよいと思う。

尤度の単純な最大化だとパラメータを増やしたときのオーバーフィッティングに対処できないという事実が重要になってからでも、一般の損失函数の話をするのは遅くないと思う。

タグ：

posted at 00:03:38