黒木玄 Gen Kuroki(@genkuroki)/2020年11月06日

学部の統計授業で、直前のPollsで作った信頼区間と実際のTrumpへの投票割合を比べる事をやっているのだが、やはり４年前と同じ様に実際のTrumpへの投票は高く、Swing States１１州の中４つの州で９０％信頼区間の外に落ちてる。 pic.twitter.com/oxF78MDP1Q

タグ：

posted at 00:26:55

How well does bias remediation work in practice for ML models? New preprint featuring #JuliaLang GSoC student @Ashrya3 and my fantastic collaborators! "Debiasing classifiers: is reality at variance with expectation?" arXiv arxiv.org/abs/2011.02407 SSRN papers.ssrn.com/sol3/papers.cf... 🧵👇 pic.twitter.com/VwhFJfuuDb

タグ： JuliaLang

posted at 00:41:24

Hiroyuki Kasahara @hkasahar

Pollsと実際の投票割合のギャップの地域差は前回の大統領選と傾向としては似ている様。ただ今回の方がギャップが少ない感じがする。Pollsは必ずしもランダムサンプルでないので、こういう過去のバイアスの情報を積み上げれば、もっと正確な予測ができるかもしれない。 pic.twitter.com/fP6rt0YXDW

タグ：

posted at 00:41:58

Debiasing methods in toolkits like Aequitas and IBM Fairness 360 generally come in three flavors: pre-, in-, and post-processing. To debias models f(X) = Y, we need to incorporate information about the protected classes S somewhere. These three flavors differ in where S is used pic.twitter.com/eQrS9PTb4i

タグ：

posted at 00:44:30

We study a puzzling phenomenon we observe when applying debiasing methods in practice. In general, we expect fairness to improve, likely at the cost of accuracy. However, this is not always the case! Debiasing can worsen fairness, or can even improve accuracy?! pic.twitter.com/gZBgatAw84

タグ：

posted at 00:48:30

Trustworthy ML Initi @trustworthy_ml

Through extensive cross-validation, we show that the improvements in accuracy are artifacts due to overfitting. When properly estimated, accuracy does not increase, as espected. However, the phenomenon of possibly worsening bias still holds! pic.twitter.com/t4OMlGS1gn

タグ：

posted at 00:50:52

Trustworthy ML Initi @trustworthy_ml

Debiasing classifiers: is reality at variance with expectation?
arxiv.org/abs/2011.02407

New research by A. Agrawal, F. Pfisterer, @BBischl, @acidflask et al

They empirically evaluate the reliability of a suite of debiasing techniques for ML models. 1/2

タグ：

posted at 00:51:23

Using out-of-sample test errors for computing fairness-
performance and fairness-fairness trade-offs, they discover that OOS performance can vary unexpectedly post-debiasing. Their results highlight the importance of evaluating OOS performance in practical usage. 2/2

タグ：

posted at 00:51:23

Our key insight is that while debiasing can improve fairness metrics, it also smears out the observable variance in these measures (green = no debiasing) pic.twitter.com/00u4qTfj1x

タグ：

posted at 00:52:19

This turns out to be nothing more than the classic bias-variance trade-off in machine learning! Debiasers treat discrimination bias as statistical bias in estimators. **Eliminating that bias for a properly estimated classifier increases the variance in the debiased classifier** pic.twitter.com/SK39CyShue

タグ：

posted at 00:53:53

Our paper contains further experiments showing 1) partial debiasing often produces more robust debiased classifiers that generalize better out-of-sample, and 2) neglecting generalization error leads to erroneous estimates of fairness-accuracy and fairness-fairness trade-offs

タグ：

posted at 00:56:40

MORAL: Check out-of-sample performance metrics! Estimator variance is inversely dependent on class size (Y=y, S=s), not just Y=y class size.
twitter.com/trustworthy_ml...

タグ：

posted at 01:01:43

Check out the #JuliaLang Fairness.jl package which implements the code used in this study: discourse.julialang.org/t/fairness-jl-...

タグ： JuliaLang

posted at 01:03:38

@trustworthy_ml Thanks for the highlight! Cross-referencing paper thread and @pfistfl @sameenashah_AI twitter.com/acidflask/stat...

タグ：

posted at 01:09:41

非公開

タグ：

posted at xx:xx:xx

Julia Bloggers @juliabloggers

New post: Introducing: oneAPI.jl - www.juliabloggers.com/introducing-on... #julialang

タグ： julialang

posted at 01:52:40

非公開

タグ：

posted at xx:xx:xx

Julia News @julialang_news

Introducing: oneAPI.jl www.juliabloggers.com/introducing-on... #juliabloggers

タグ： juliabloggers

posted at 04:20:17

JuliaHub @JuliaHub_Inc

Accelerating Modelling and Simulation with Julia: In this video, we demonstrate solvers that are 20x faster than existing solvers, and ML-based acceleration that provides 20x acceleration of physics-based models.
youtu.be/BGrJchagGLg
#julialang #ModelingandSimulation #ML #AI

タグ： AI julialang ML ModelingandSimulation

posted at 04:43:18

JuliaHub @JuliaHub_Inc

For more details on the surrogates of stiff systems, see arxiv.org/pdf/2010.04004... . Details on other results, like the discontinuity-handling differential equation solvers, will be released soon.

タグ：

posted at 04:43:19

#統計ベイズ統計の「主観確率」「ベイズ主義」「意思決定論」による解釈においては、主観確率のもとでの期待リスク最小化でベイズ統計における適切な推定法が特徴付けれます。

一見合理的なのですが、未知の法則の推測・予測を一切考えないことになっています。詳しく解説しましょう。

タグ：統計

posted at 05:27:18

#統計渡辺澄夫著『ベイズ統計の理論と方法』を読んでいる人のための解説にしたいので、その本の記号法に近いスタイルで説明します。(渡辺さんの本は「ベイズ主義」とは無関係)

まず、パラメータｗに関する事前分布φ(w)とパラメータwを持つ確率分布p(x|w)を用意します。

続く

タグ：統計

posted at 05:27:19

#統計「主観確率」の「ベイズ主義」においては、事前分布φ(w)は、ある人にとってのパラメータwに関する主観的な確信の度合いを表していると考えます。

例えば、その人が正しいパラメータの値がw=a付近である可能性が高いと思っていれば、事前分布φ(w)の値はw=aの近くで大きくなる。続く

タグ：統計

posted at 05:27:19

#統計そして、p(x|w)はその人が主観的に正しいと信じているモデルであると考えます。

より正確に言えば、データ X_1,X_2,…,X_n が従う確率分布の密度函数はあるパラメータwに関するp(x_1|w)…p(x_n|w) になっているとその人は主観的に信じていると仮定します。

タグ：統計

posted at 05:27:19

#統計さらに「意思決定論」では、以上の設定のもとでリスク函数を追加で与えて、その人は主観的な期待リスクを最小化するように意思決定を行うと考えます。

以上のように考えること自体が不合理なのではないことに注意。数学的には普通の話。続く

タグ：統計

posted at 05:27:20

#統計簡単な例として、データ X_1,…,X_n から得られるパラメータ w の推定値が f(X_1,…,X_n) の形で与えられるとし(函数 f をパラメーターの推定法と呼ぶ)、その人は自分の主観内で、推定値の二乗誤差

(w - f(X_1,…,X_n))²

の期待値を最小にするような推定法 f を選択する場合を考えましょう。

タグ：統計

posted at 05:27:20

#統計二乗誤差の主観的な期待値は、X_1,…,X_nの主観的標本分布とパラメータwの主観的事前分布に関する平均の形で書ける：

主観的期待二乗誤差
= ∫∫…∫ φ(w)p(x_1|w)…p(x_n|w) (w - f(x_1,…,x_n))² dx_1…dx_n dw

これを最小化する推定法fが「意思決定論」の解の例になっているわけです。続く

タグ：統計

posted at 05:27:20

#統計実際にそれを計算すると、主観的期待二乗誤差を最小化する推定法 f はベイズ統計におけるパラメータの事後分布における期待値になることが、そう難しくない議論でわかります。

続く

タグ：統計

posted at 05:27:20

タグ：統計

posted at 05:27:21

#統計以上によって、「主観確率」「ベイズ主義」「意思決定論」の枠組みにおいて、自分の主観のもとでの期待二乗誤差を最小化するような推定法を選択する人は、推定法として事後分布の期待値を採用することがわかりました。

続く

タグ：統計

posted at 05:27:21

#統計同様に、「主観確率」「ベイズ主義」「意思決定論」の枠組みにおいて、自分の主観のもとでの期待汎化誤差を最小化するような予測分布を選択する人は、予測分布として「パラメータwに関する事後分布によるp(x|w)の平均」(ベイズ法のいつもの予測分布)を採用することも示せます。

タグ：統計

posted at 05:27:21

タグ：統計

posted at 05:27:21

#統計以上のような話を数学に慣れていない人が聞くと、期待二乗誤差や期待汎化誤差を最小化するようにパラメータの推定法や予測分布の作り方を決めているのだから、「なんて合理的な考え方なのでしょうか！」と思ってしまうかもしれません。

タグ：統計

posted at 05:27:22

#統計しかし、以上のストーリーに渡辺澄夫著『ベイズ統計の理論と方法』では q(x) と書かれている「真の分布」が一切登場していないことに注意して下さい！

ここが最も重要なポイントです。

タグ：統計

posted at 05:27:22

#統計「主観確率」「ベイズ主義」「意思決定論」の枠組みによるベイズ統計の解釈においては、期待リスクが φ(w) と p(x|w) のみで記述されるモデル内部の言葉で定義されており、モデル内部の設定で期待リスクを最小化しているだけだということに気付く必要があります。

タグ：統計

posted at 05:27:22

#統計「主観確率」「ベイズ主義」「意思決定論」のベイズ統計においては、未知の真の分布 q(x) の予測に関する汎化誤差を考えることはなく、主観的に構成されたモデル内部における φ(w) と p(x|w) のみを用いて記述される主観的期待汎化誤差を最小化しているだけなのです。

続く

タグ：統計

posted at 05:27:22

#統計「主観的期待リスク最小化」は「合理性」の定式化としてよく使われているおなじみのものです。

しかし、それでベイズ統計を解釈してしまうと、「未知の分布が生成していると想定されるデータを用いて、未知の分布に関する推測や予測を行う」という統計学の重要な側面が失われてしまうのだ！

タグ：統計

posted at 05:27:23

#統計ベイズ統計を「主観確率」で解釈して、「主観的な期待リスク最小化」(リスクとして主観内での二乗誤差や主観内での汎化誤差を考える)について説明すること自体は数学的に十分に合理的な行為です。

しかし、推測統計学の重要な側面が失われることについて正直に説明しないのは非常にまずい！

タグ：統計

posted at 05:27:23

#統計

①未知の分布に関する推測や予測のみが統計学の内容である

と考えるのは__誤り__です。しかし、

②未知の分布に関する推測や予測を完全に捨ててしまっては、統計学の名に値しなくなってしまう

と考えることは穏当でしょう。

穏当な主張である②を①だと誤解して触れ回る行為は悪質注意！

タグ：統計

posted at 05:27:23

#統計このスレッドでは私自身が「主観確率」「ベイズ主義」「意思決定論」の枠組みにおけるベイズ統計の解釈について解説しています。

しかし、その解釈では、未知の分布の推測・予測という統計学の重要な側面が失われてしまうことについても正直に説明しないと非常にまずい。

正直さの問題。

タグ：統計

posted at 05:27:23

#統計特に渡辺澄夫著『ベイズ統計の理論と方法』の読者のために「主観確率」「ベイズ主義」「意思決定論」的なベイズ統計の解釈について以下のリンク先で解説しておきました。

何が問題なのかを正確に理解したい人は読んで下さい。

twitter.com/genkuroki/stat...

タグ：統計

posted at 05:29:54

#統計

①未知の分布に関する推測や予測のみが統計学の内容である

と考えるのは__誤り__。しかし、

②未知の分布に関する推測や予測を完全に捨て去ると統計学の名に値しなくなる

と考えることは穏当。

穏当な主張である②を①だと誤解して触れ回る行為は悪質！

twitter.com/genkuroki/stat...

タグ：統計

posted at 05:32:13

#統計「主観確率」「ベイズ主義」「意思決定論」的なベイズ統計の解釈では、最初から、未知の分布に関する推測や予測を扱えないことは明らかなんですね。

そういう明らかな欠点を持つ不自由な解釈から出発するのは非常に愚かな行為だと思う。

一歩下がって別の地点から出発した方がよいです。

タグ：統計

posted at 05:36:41

#統計「主観確率」「ベイズ主義」「意思決定論」的なベイズ統計の解釈について統計学初心者に説明する場合には、「この解釈のもとでのベイズ統計では未知の分布の推測や予測は扱えないので統計学の名に値しません。そのことを十分にご了承お願いします」と但し書きを付けないとダメ。

タグ：統計

posted at 05:38:30

#統計「主観確率」「ベイズ主義」「意思決定論」における主観的な期待リスク最小化は数学的にそれなりに面白い話ではあると思うので、解説してくれる人達が継続的に現われることが望ましいです。

しかし、正直に語るべきことを語らないのは非常にまずいです。

タグ：統計

posted at 05:39:56

#統計だから、『統計学を哲学する』においても、「主観確率」の「ベイズ主義」でのベイズ統計の解釈について述べるときに、「未知の法則の推測や予測が重要なデータサイエンスには適さないベイズ統計の解釈であることに読者は注意して下さい」という但し書きが付いていれば問題なかった思っています。

タグ：統計

posted at 05:49:41

#統計実際問題として、私自身が「主観確率」「ベイズ主義」「意思決定論」の解釈に基くベイズ統計についてインターネット上に解説を公開しているくらいなので、そういう解説をする行為自体を私が非難するはずがない。

タグ：統計

posted at 05:49:41

#統計解説を書くときには、「未知の法則の推測や予測を扱わずに、主観内での期待リスクを最小化するだけ」のような重大なことはできるだけ最初に述べておくことが大事です。

明らかに重大な欠点を隠して、ずっと後でそれに触れるのはよくないと思います。最初からダメなものはダメと正直に言うべき。

タグ：統計

posted at 05:49:41

Nobuyuki Kobayashi @nyaa_toraneko

全く同感です。特にこの「５分のための叱責」を、朝、皆の前でやると、本人だけでなくチームの活力が駄々下がりすることが統計上もわかってるので、世界基準では「マネージャーがやってはならないこと」になってるんですよね。 twitter.com/lygc518nytiumu...

タグ：

posted at 05:53:21

どーでもいーことですが、気になったので訂正。

✖主観確率のもとでの期待リスク最小化でベイズ統計における適切な推定法が特徴付けれます

〇主観確率のもとでの期待リスク最小化でベイズ統計における適切な推定法が特徴付けられます

「ら」が抜けた。

twitter.com/genkuroki/stat...

タグ：

posted at 05:55:49

スレッド間相互リンク twitter.com/genkuroki/stat...

タグ：

posted at 06:01:14

#統計既出の話題。『統計学を哲学する』では

* 確率モデル=データを生成していると想定している確率分布

* 統計モデル=確率分布族

というような用語法を採用していて、読者はこの2つを厳密に区別することを強いられます。

私ならこういう用語法を一般向け書籍では採用しません。

タグ：統計

posted at 06:06:19

#統計まだ指摘していなかったこと。

【尤度関数が実際のデータ生成プロセスと似ても似つかなかったら～】

の「尤度関数」という用語の使い方も変。

尤度関数はモデルのパラメータの関数であり、データ生成プロセスと比較できるようなものではありません。

この本は細部が稠密にずさん。 twitter.com/genkuroki/stat... pic.twitter.com/3Etcg21tU0

タグ：統計

posted at 06:15:45

#統計非常に当たり前の話だと思うのですが、『統計学を哲学する』の読者でその「AICの哲学的含意」に感心してしまった人が、AICの計算例を1つも示すことができないならば、AICについて全く何も理解できていないくせに感心してしまったということになります。

そういうのは論外。 twitter.com/genkuroki/stat...

タグ：統計

posted at 07:30:01

#統計 AICの計算例を1つ以上解説できることが、大学レベルの数学をほとんど要求せずに済むレベルの要求であることは、このスレッド中で私自身が示したベルヌーイ分布モデルの場合のAICの計算例を見れば分かります。

成功失敗の確率の取り扱いと対数の計算などができれば十分。

タグ：統計

posted at 07:33:44

#統計ベルヌーイ分布モデルの場合の「n回中k回成功」というデータから得られる予測分布のAICの計算結果は

AIC = -2(k log(k/n) + (n-k)log(1-k/n)) + 2

です。この式を見れば本当に高校レベルの数学で理解可能なことがわかるはず。 twitter.com/genkuroki/stat...

タグ：統計

posted at 07:53:48

#統計続き。未知の真の成功確率をqと書くとき、上のAICから真の分布のAICを引いた結果は、p=k/nとおくと

AIC - AIC₀ = -2n(p log(p/q) + (1-p)log((1-p)/(1-p))) + 2

で、推測したいKL情報量の2n倍は

2n KL = 2n(q log(q/p) + (1-q)log((1-q)/(1-p))

www.wolframalpha.com/input/?i=plot%... pic.twitter.com/GhhreYzQtE

タグ：統計

posted at 08:11:16

#統計 AICを使ってモデル選択をするということは、添付画像の赤線(KL情報量の2n倍=真の予測誤差の指標で未知)を青線(本質的にAIC)で近似できていると思って、もっともらしいモデルを選ぶことになります。

それらは逆相関していることに注意！ pic.twitter.com/cxKRQgat0P

タグ：統計

posted at 08:14:37

#統計 1つ前の添付画像の p を k/n で置き換えて、kを離散的に動かして、さらに横軸を確率に比例するようにスケールすると、既出の添付画像上段のグラフになります。

こういうのは全部自分で計算とプロットをやり直すと理解が進みます。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/EMiImXGZkh

タグ：統計

posted at 08:17:56

#統計 AICの計算例を1つも示すことができないくらいAICについて本当に何も理解していないくせに、信頼性に欠けたAICの解説に付属している「AICの哲学的含意」には感心してしまうような読者は軽薄過ぎる論外な読者だと私は思います。

このスレッドにはそういう人を減らす意図があります。理解は大事。

タグ：統計

posted at 08:22:50

#統計仮に私が、「理解が大事」と唱えながら、高級な数学を知らないと絶対に理解不可能な事柄への理解を一般人にも要求しているなら、「ちょっとそれはやめて！」と私を非難して然るべきです。

しかし、私は高校で習う数学で理解可能でかつ、WolframAlphaでグラフも描けることを示しています‼️😊

タグ：統計

posted at 08:28:30

#統計本当はAICについて見事に何も理解していないくせに、信頼性に欠けた「AICの哲学的含意」には感心してしまうような人にならずに済むためには、高校で教えているような数学をきちんと理解していて、WolframAlphaのような道具を使いこなせることが、どれだけ大事かも分かって欲しいです。

タグ：統計

posted at 08:34:09

Steven Strogatz @stevenstrogatz

Trend line in Georgia, by @jhaurum. pic.twitter.com/VFoJ2BYt0A

タグ：

posted at 09:25:58

Jeremy Chrysler @jeremychrysler

【非公式】京大附属図書館　新着図書bot @KUL_newbooks

@AnnaLappala @stevenstrogatz @jhaurum It's been super consistent. twitter.com/jeremychrysler...

タグ：

posted at 10:03:34

新着図書（桂）：Juliaプログラミングクックブック : 言語仕様からデータ分析、機械学習、数値計算まで dlvr.it/Rl5KMP

タグ：

posted at 10:28:02

Hiroyasu Kamo @kamo_hiroyasu

トーンポリシングのわかりやすい実例の提示を感謝します。 twitter.com/ribon2y/status...

タグ：

posted at 10:39:27

Hiroyasu Kamo @kamo_hiroyasu

トーンポリシングとは何かの説明に重宝します。今後とも活用させていただきます。

タグ：

posted at 10:41:11

John Haurum @jhaurum

Been waiting for the #trendlines crossover in Georgia
almost there now (and an update for PA also included). pic.twitter.com/dWQpEgLIQ6

タグ： trendlines

posted at 11:50:31

Akinori Ito @akinori_ito

Linuxマシンがeduroamにうまくつながらなかったのだが、eduroam CATを使ったら一発でうまくいった cat.eduroam.org

タグ：

posted at 12:21:13

よこえもん @yokoemon2112

日本数学会発行の「数学通信」に書評を書きました。David Joyner「群論の味わい」です。たぶんルービックキューブ群の Sage 話ということでお役が来たのだと思います。よかったら読んでください。

なお書評を書いていたはずなのに、最後は訳者の川辺さんの話で終わった（笑）

タグ：

posted at 12:36:36

#統計少し上の方に書いた式の訂正

❌AIC - AIC₀ = -2n(p log(p/q) + (1-p)log((1-p)/(1-p))) + 2

⭕️AIC - AIC₀ = -2n(p log(p/q) + (1-p)log((1-p)/(1-q))) + 2

右側のpをqに訂正。自明な誤り。これはKL情報量の2n倍は

2n KL = 2n(q log(q/p) + (1-q)log((1-q)/(1-p))

と比較されるべき量。

タグ：統計

posted at 13:06:38

#統計 1つ前のツイートに書いた公式を「2点集合上の場合」とみなしたとき、その公式は「有限集合上の場合」にそのまま一般化されます。それによってパラメータが増えた場合の例も簡単に作れる。

タグ：統計

posted at 13:08:57

#統計「主観的期待リスク最小化」によるベイズ統計の解釈は入門的解説では結構定番のものです。

数学的内容を解説してくれること自体は良いことですが、その解釈では主観内での期待リスクを最小化するだけで、主観の外にある未知の分布の推測・予測を扱えなくなることも最初に強調しておくべき。

タグ：統計

posted at 13:36:37

#統計実際に「主観的期待リスク最小化」によるベイズ統計の解釈が結構定番であることは

ai-trend.jp/basic-study/ba...

の添付画像の部分を参照しても分かると思います。

現実の未知の法則の推測をすることを一切考えずに純粋に主観的な平均リスクを最小化する(笑) pic.twitter.com/c6wXmGWYW2

タグ：統計

posted at 13:45:12

#統計他にも、定番の教科書の1つである久保川達也著『現代数理統計学の基礎』のサポートページ sites.google.com/site/ktatsuya7... の添付画像の部分も参照してください。

事後分布の期待値や条件付き確率分布としての標準的なベイズ版の予測分布はモデル内での期待リスク最小化で特徴付けられる。 pic.twitter.com/vMJIqaySUT

タグ：統計

posted at 13:51:25

#統計そのような教科書的解説で定番の期待リスク最小化は「よく知られているものの特徴付け」に過ぎず、数学に詳しければもっと一般的な視点から理解可能なものです。

わけのわからない現実に立ち向かうための道具にはなりません。

タグ：統計

posted at 13:56:54

#統計例えばベイズ統計と無関係に、確率変数Xについての期待二乗誤差 E[(X - m)²] を最小化する m はXの期待値 E[X] になります。条件付き確率分布も同様な特徴付けがある。数学的には基本的。

しかし、それを「主観内期待リスク最小化」に応用しても現実の未知の法則の推測には役に立たない。

タグ：統計

posted at 14:01:37

#統計現実の未知の法則の推測の問題についてはひとまず無視して、主観的に作ったモデル内でどうするのがベストであるかを考えるとどうなるかを数学的に分析することはどんどんやればよい。

しかし対外的な解説を書くときには、現実の未知の法則の推測の問題を無視していることも正直に言うべき。

タグ：統計

posted at 14:08:50

Yahoo!ニュース @YahooNewsTopics

【通学で荷物9kg 体痛める子供】
yahoo.jp/hCwH3L

教科書を学校に置いて帰る「置き勉」が進まない現状を受け、重い荷物による子どもの姿勢や成長への悪影響を心配する保護者が多いという。中には、「荷物の重さはリュックで9キロほどあり、猫背が顕著になってきた」という子どもも。

タグ：

posted at 14:19:16

ytb @ytb_at_twt

ごまふあざらし(GomahuAzaras @MathSorcerer

Haskell 表記を使っていることに関し、lazy evaluation的な要素があるのかという質問。
Agda 使いましょう。

タグ：

posted at 14:52:40

```
pkg> generate MyPkg
```

の代わりに

```
mkdir MyPkg && cd MyPkg
julia
pkg> activate .
pkg> add Example
```

とすれば authors の情報がない素朴な Project.toml が得られます. twitter.com/micknspace/sta...

タグ：

posted at 15:01:40

#統計入門的レベルの解説でよく見る「主観確率」「ベイズ主義」の「合理的」な「意思決定論」でのベイズ統計の解釈については以下のリンク先を参照。

「主観的期待リスク最小化」によるべいず的な推定や予測の特徴付けの話。未知の法則の推測の問題は扱わない。 twitter.com/genkuroki/stat...

タグ：統計

posted at 15:30:30

#統計

統計学の応用では常に未知の法則の推測は無視できない。

それなのに出発点として、未知の法則の推測を扱えない「主観確率」の「ベイズ主義」の立場から出発する。

後でそれだと困ることを示唆する。

『統計学を哲学する』が採用した方針はこれ。感心できない。

典型的なマッチポンプ。

タグ：統計

posted at 15:51:34

#統計特に「データサイエンス」とか言いたいのであれば(私は「データサイエンス」という用語を宣伝目的に使うことも軽薄だと思う)、未知の法則の推測を扱えないことが最初から明らかな出発点を捨てて、以下のリンク先の考え方を出発点に据えればよい。

watanabe-www.math.dis.titech.ac.jp/users/swatanab... pic.twitter.com/WWBeQvgVXr

タグ：統計

posted at 15:56:51

Paul Painlevé @Paul_Painleve

Strogatz先生がtweetしたジョージア州の投票推移

ストロガッツ「非線形ダイナミクスとカオス」千葉逸人他訳
www.maruzen-publishing.co.jp/item/?book_no=... twitter.com/stevenstrogatz...

タグ：

posted at 15:59:50

#統計主観外にある未知の法則の推測を無視している「主観確率」「ベイズ主義」の枠組みから出発せずに、赤池弘次さん的な「数学で推測が当たる道を作る」といういかにも「データサイエンス」と相性が良さそうな考え方を出発点にすると、既存の主義を扱う哲学の話をできなくなるという不都合がある(笑)

タグ：統計

posted at 16:00:24

#統計既存の〇〇主義を扱う哲学の話をし難くなるという理由で、データサイエンス的には無意味な未知の法則の推測の問題を無視する枠組みから出発して、それでは足りないことを示唆しながら、その枠組みを捨て切らないスタイルで本を書いて、宣伝文で「データサイエンス」を持ち出すのはみっともない。

タグ：統計

posted at 16:03:45

chibaf @chibafx

tdual(ティーデュアル)@Matri @tdualdir

X-Windowで-Yオプションでraspberry piにログインすると、 pic.twitter.com/dHytCSdH7y

タグ：

posted at 16:06:48

ごまふあざらし(GomahuAzaras @MathSorcerer

草 twitter.com/bokerounin01/s...

タグ：

posted at 16:08:09

おー素晴らしい twitter.com/chibafx/status...

タグ：

posted at 16:08:17

#統計主に〇〇主義を扱う既存の哲学っぽい話題の側に合わせるために、複数の著名な研究者たちから「それもうダメだから」とはっきり言われているスタイルの「主観確率」の「ベイズ主義」から出発することには慎重であるべきでした。

タグ：統計

posted at 16:20:36

#統計私が本当にしたかったのはすぐ上のツイートのような「尖った話」なのですが、『統計学を哲学する』の著者は期待値の概念さえまともに説明できないようなレベルであったことが判明して、目標が「この本から受ける知的な被害を軽減すること」になってしまった。

タグ：統計

posted at 16:20:38

#統計あと、「主観確率」「ベイズ主義」のベイズ統計の解釈は「意思決定論」を経由して「主観的な(=実質的にモデル内限定での)期待リスク最小化」のスタイルで定式化され、普及しています。

そのような「統計学におけるベイズ主義」と一般的な「プラグマティズム」を併置するのはまずいです。

タグ：統計

posted at 16:29:41

#統計既存の〇〇主義の話に合わせるために出発点を選ぶのではなく、統計学が育んだ素晴らしい概念について素直にかつ地道な理解を積み重ねることによって、自分自身の新しい哲学を展開できていれば素晴らしかったと思います。

『統計学を哲学する』はそれとは正反対のことをやり通してしまった。😭

タグ：統計

posted at 16:34:35

#統計上で私がやって見せたように、高校生でも計算できる場合のAICをプロットすると、実践的には未知のままになる真の予測誤差とAICがきれいに逆相関することが一目でわかります。

実はこれは非常に一般的に証明できることです。 pic.twitter.com/wVUYFQv9zr

タグ：統計

posted at 16:39:57

#統計データが運悪く偏ってしまったせいで、データから作った予測分布の真の予測誤差(これは未知のままになる)が大きくなると、AICは相対的に小さくなり、予測誤差が大きくなった側のモデルが選択され易くなりというようなことが起こります。(これは本質的にオーバーフィッティングの問題)続く

タグ：統計

posted at 16:49:43

#統計続く。その効果がパラメータ数によるペナルティを超えると、AICによるモデル選択に失敗し、未知のままである真の予測誤差が非常に大きくなった側のモデルを選択してしまいます。

真の予測誤差は未知のままなので、こういうリスクがあることをユーザーは十分に認識しておく必要がある。続く

タグ：統計

posted at 16:49:44

#統計続く。こういうリスクの存在は、高校生でも計算できる場合のAICを適切にかつ地道にプロットすれば分かるわけです。

こういう地道な計算も考慮に入れて「AICの哲学的含意」について語っていれば素晴らしかった。

実際には全く逆のことをやっている。

タグ：統計

posted at 16:49:47

#統計データが運悪く偏っていると、統計的な推測は基本的にデータへのフィッティングで行われ、AICや交差検証を使っても偏ったデータに適合可能な複雑で間違っていて大外れの予測を出す側のモデルを選択することを防げないのです。

データの取得が重要なことはこのことからも分かります。

タグ：統計

posted at 17:08:35

#統計社会的なリスクについてAICを使ったモデル選択を行う場合に注意するべきことも、高校生でも計算できるAICのプロットから分かります。

AICによるモデル選択が失敗するのは、データが運悪く偏っている場合で、そのとき予測分布は大外ししたものになります。続く

タグ：統計

posted at 17:13:48

残り42件のツイートを見る

#統計続き。そういう大外ししている予測分布を現実の政策決定で利用すると、実際に予測を大外しして酷い目に遭うことを繰り返して初めてモデル選択に失敗していたことに気付く訳です。

専門家の意見をよく聞いて「プランB」も準備してリスクを下げることが重要だと私は思います。

タグ：統計

posted at 17:13:50

ほむほむ@アレルギー専門医：noteメン @ped_allergy

#統計 AICに限らず、統計的な推測で何かを選択することは、常にギャンブルになります。

麻雀でどの牌を捨てるかを決めるときに確率計算や統計的推測を活かすには当然なのですが、AICなどの利用はそれに近い意味で合理的です。

しかし、どのようなリスクがあるかを承知で使わないとダメ。

タグ：統計

posted at 17:18:37

@TOTB1984 基本的に接種可能ですー

news.yahoo.co.jp/byline/horimuk...

タグ：

posted at 19:51:00

l_ppp @ppp3141592ppp

MetaUtils.@ show_tree

これは便利、ツリー表示が手軽で分かりやすい

マクロはこのツリーを弄るイメージでいると良い感じかな

前に見たLips愛の人の、Juliaとのマクロ比較の記事も
何の話ししてるかが分かってきて面白い
muuuminsan.hatenablog.com/entry/2020/10/... twitter.com/genkuroki/stat...

タグ：

posted at 19:55:23

@UN_Press #統計『統計学を哲学する』については以下のリンク先も参照。 twitter.com/genkuroki/stat...

タグ：統計

posted at 20:13:20

#統計このスレッドの以下のリンク先以後の部分では、尤度の概念について詳しく説明した。

ポイント：尤度はモデルを固定してデータ(サンプル)のサイズnを無限大に飛ばせば「もっともらしさ」の正しい指標になるが、有限のnではそうではない。そのようなものを「原理」に据えること自体がおかしい。 twitter.com/genkuroki/stat...

タグ：統計

posted at 20:26:29

#統計続き。以下のリンク先に続く部分では、nが大きくすれば

* 固定された回数のn回試してk回成功した場合のP値
* ちょうどk回成功するまでn回の試行が必要だった場合のP値
* n回中k回成功のベイズ統計の事後分布におけるP値の類似物

がすべて(近似的に)一致することも紹介されています。続く twitter.com/genkuroki/stat...

タグ：統計

posted at 20:26:31

#統計続き。nが小さい場合にはそれらは一致しない。

尤度はn→∞の場合にのみ正確な結果を与える指標なので、尤度のみに依存するベイズ統計版は正確性の点では劣るとも考えられる(尤度原理は根拠のない妄言)。

残りの2つのうち実際にやったことのモデル化として正確な方を選ぶべきだろう。続く

タグ：統計

posted at 20:27:43

#統計続き。実際には「試行回数nを固定、成功はk回」でも「ちょうどk回成功するまでの試行回数はn」のどちらも不適切な場合もあるだろう。例えば「〇年〇月から〇年〇月までに予算の範囲で調査できた事例はnでそのうちk回成功」の場合には、どちらにも当てはまらない。別のモデルで計算するべき。

タグ：統計

posted at 20:30:47

三嶋隆史【Mathlogの管理人】 @mishima_ryuji

#統計おそらく「尤度原理」(←くだらない話)に関係する誤解を防ぐためには、仮説検定に関する標準的な見解について知っておく必要があります。

重要なポイントは、仮説検定でP値が有意水準を下回ったときに棄却されるのは、1つの仮説ではなく、前提にしたすべての事柄のどれかであることです。続く

タグ：統計

posted at 20:34:16

私が高専人生を捧げて開発した数学特化の情報共有サービス「Mathlog」が本格的に始動しました。

自分にしかできない方法で、数学に貢献することを目標に日々少しずつ開発を進めてきました。

Mathlogが少しでも多くの数学徒に届き、学びを深めてもらえたら嬉しいです。

#Mathlog twitter.com/MathlogOfficia...

タグ： Mathlog

posted at 20:39:49

#統計 P値や仮説検定についての標準的な見解については

www.biometrics.gr.jp/news/all/ASA.pdf
『統計的有意性と P 値に関する ASA 声明』

を引用すれば良いでしょう。そこでも、

【P値の計算の背後にある仮定を疑う、あるいは反対する】

ということも忘れてはいけないことが繰り返し紹介されています。 twitter.com/genkuroki/stat... pic.twitter.com/sFKRFJxc4b

タグ：統計

posted at 20:40:14

#統計例えば、「母平均は0である」という仮説について、正規分布モデルを前提とするt分布を用いて求めたP値が有意水準を下回った場合には、「母平均は0である」という仮説だけを疑うのではなく、正規分布モデルの妥当性も疑う必要があるし、無作為抽出の仮定も疑う必要があるという、当たり前の話。

タグ：統計

posted at 20:46:21

#統計「ちょうどk回成功するまでの試行回数はn」に合致している負の二項分布モデルで計算した「成功確率は0.5である」という仮説のP値が有意水準を下回った場合には、「成功確率は0.5である」という仮説を疑うだけではなく、二項分布モデルの妥当性も疑う必要がある。

これも当たり前の話でしょう。

タグ：統計

posted at 20:49:32

l_ppp @ppp3141592ppp

#Julia言語ちょっと気になってた構文

:generatorに:filterが入るのか pic.twitter.com/vowaAEXa1e

タグ： Julia言語

posted at 20:53:08

#統計『統計的有意性と P 値に関する ASA 声明』にある標準的な見解では、「n回中k回成功」の (n, k) という数値と「成功確率は0.5である」という仮説だけからP値の値が決まるのではなく、P値は様々な前提のもとで計算されるので、その前提のすべてを疑いにかけることが強調されているわけです。

タグ：統計

posted at 20:54:47

#統計「n回中k回成功」の (n, k) という数値の組だけを報告するだけでは、そのデータをどのように得たかが曖昧になるので、データの数値を報告するときにはそのデータをどのようにして得たかに関する詳細も含めて報告するべきであることも、当然のことでしょう。

タグ：統計

posted at 20:57:24

#統計成功確率をθと書く。「n回中k回成功」というデータの二項分布モデル(試行回数nを固定)での尤度函数は

L(θ) = binom(n, k) θᵏ (1-θ)ⁿ⁻ᵏ

で、負の二項分布モデル(ちょうどk回成功するまで試行)の尤度函数は

M(θ) = binom(n-1, k-1) θᵏ (1-θ)ⁿ⁻ᵏ

でこれらは〜続く

タグ：統計

posted at 21:38:18

#統計続き～、パラメータθによらない定数倍の違いを除いて一致するので、θについて任意の事前分布を与えたときの、ベイズ統計の事後分布は一致します。

これは元のモデル達が全然違っていることから、一瞬ギョッとするのですが、～続く

タグ：統計

posted at 21:38:19

#統計続き～、尤度函数はn→∞の場合にのみ「もっともらしさ」の正しい指標になるので、nが小さな場合に一致して欲しくない場合が一致してしまうということが起こっても仕方がないとも考えられます。

nを十分に大きくすると、どれも近似的に同じになることはすでに触れた通りです。

タグ：統計

posted at 21:38:20

#統計尤度がどのような指標であるかについては

1980年の赤池弘次さんによる尤度概念の解説が面白く読めるのでおすすめです。

ismrepo.ism.ac.jp/index.php?acti...
統計的推論のパラダイムの変遷について

jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度 twitter.com/genkuroki/stat...

タグ：統計

posted at 21:43:06

#統計データY_1,Y_2,…が未知の分布q(y)のi.i.d.で生成されているとき、モデルの分布p(y)の対数尤度の-1/n倍

-(log p(Y_1) + … + log(Y_n))/n

は、大数の法則より、n→∞でモデルp(y)の汎化誤差

-∫q(y) log p(y) dy

に収束します。汎化誤差は「もっともらしさ」の正しい指標。

タグ：統計

posted at 21:50:51

#Julia言語

Pythin pandas ↔ Julia
R dplyr ↔ Julia
Stata ↔ Julia

の対応表であれば

juliadata.github.io/DataFrames.jl/...

にあります。 twitter.com/tachnopolis25/...

タグ： Julia言語

posted at 22:06:13

#統計理論的なn→∞の極限操作は完璧にフィクション。

nをどれだけ大きくすれば、n→∞の理想的な状況がよく近似されるかについては、ケース・バイ・ケース。

タグ：統計

posted at 22:19:21

rei @0018____

以前助けを求めた質問が解決したので、作った。
#julialang #julia
Gnuplot.jl を使用して、論文用の図(eps,latex)を作成する qiita.com/QQQ_0018/items... #Qiita

タグ： julia julialang Qiita

posted at 22:22:21

zakki @k_matsuzaki

将棋もkatagoメソッドで寄付数かせいだりいしてるのかしら？

タグ：

posted at 22:26:06

ごまふあざらし(GomahuAzaras @MathSorcerer

#Julia言語

Juliaでの負の二項分布の取り扱いに慣れたお陰で、ガチャで爆死する確率の計算が捗る😅

タグ： Julia言語

posted at 22:26:11

非公開

タグ：

posted at xx:xx:xx

Rust から Julia 呼べた.

rustc コンパイルオプションの渡し方が綺麗じゃないけれど

タグ：

posted at 22:43:16

てらモス @termoshtt

JuliaからRustの関数を呼び出す qiita.com/termoshtt/item... #Qiita

なるほど逆やってないな(´・ω・｀)

タグ： Qiita

posted at 22:44:57

てらモス @termoshtt

Rust -> Julia はサブプロセスでやれば良くね？そんなに同じプロセス内で起動してメモリ共有する必要ある？というお気持ち

タグ：

posted at 22:49:58

てらモス @termoshtt

julia.rs/build.rs at master · termoshtt/julia.rs github.com/termoshtt/juli...

なんか頑張って julia インタプリタからjuliaの場所を聞き出そうとしている

タグ：

posted at 22:53:54

ど @nekoningen1

新しいバージョンのJuliaをJupyterのカーネルに追加する方法 sakamurray.com/2020/06/09/%e6... @sakamurrayより

タグ：

posted at 23:24:10

#統計以上のような前提のもとで、『統計学を哲学する』を見ると、添付画像にように書いてある。

「データ」という用語が例えば「n回中k回成功」の場合の (n, k) という数値の組のみの情報を表し、(n, k) という数値がどのように得られたかはデータではないということになっています。続く pic.twitter.com/yz2xlXAOfp

タグ：統計

posted at 23:24:16

#統計さらに、その意味での「データ」が違っていても、尤度は同じになるかもしれず、「データ」→尤度で情報が損失するのに、【だとすれば～そのモデルについて推論しうるすべてのことは～尤度に要約されなければいけない】と書いてある。

何が【だとすれば】なのか不明。ひどくずさんな議論。 pic.twitter.com/M6fLVOF350

タグ：統計

posted at 23:30:25

#統計サイズnのサンプルの尤度(の対数の-1/n倍)はn→∞の極限を取れば、ランダムに生成される無限サイズのサンプル Y_1, Y_2, … がモデルp(y)の無数のyにおける値の情報をひろってくれます。

しかし、有限サイズのサンプルの尤度においてはモデルp(y)内の重要な情報が大幅に失われる可能性がある。 twitter.com/genkuroki/stat...

タグ：統計

posted at 23:34:47

#統計尤度を信頼し切ることができるのは、サンプルサイズnを無限大に飛ばした場合だけなのに、どうして尤度に必要な情報が集約されると信じることができるのかが不思議。

尤度原理の信者は単に尤度の概念を正しく理解できるだけの素養がないダメな人扱いが妥当でしょう。

タグ：統計

posted at 23:37:27

InveniaLabs @InveniaLabs

Interfaces are tools for isolating and testing specific pieces of large systems. If you work with a complex #julia codebase or are interested in how to manage one, read our new blog post on Development with Interface Packages:

invenia.github.io/blog/2020/11/0...

タグ： julia

posted at 23:38:00

#統計個人的には、真っ当な考え方をしたければ、その手の基本概念を理解してなさそうな人たちの意見をきちんと疑いの目を持って見つめなければいけないと思います。

「昔の名のある立派な人達がそう言っていた」の類のことを一切根拠にせずに、強い心を持って頑張り抜かないとダメ。

タグ：統計

posted at 23:40:09