黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2020年11月06日(金)
学部の統計授業で、直前のPollsで作った信頼区間と実際のTrumpへの投票割合を比べる事をやっているのだが、やはり4年前と同じ様に実際のTrumpへの投票は高く、Swing States11州の中4つの州で90%信頼区間の外に落ちてる。 pic.twitter.com/oxF78MDP1Q
タグ:
posted at 00:26:55
How well does bias remediation work in practice for ML models? New preprint featuring #JuliaLang GSoC student @Ashrya3 and my fantastic collaborators! "Debiasing classifiers: is reality at variance with expectation?" arXiv arxiv.org/abs/2011.02407 SSRN papers.ssrn.com/sol3/papers.cf... 🧵👇 pic.twitter.com/VwhFJfuuDb
タグ: JuliaLang
posted at 00:41:24
Pollsと実際の投票割合のギャップの地域差は前回の大統領選と傾向としては似ている様。ただ今回の方がギャップが少ない感じがする。Pollsは必ずしもランダムサンプルでないので、こういう過去のバイアスの情報を積み上げれば、もっと正確な予測ができるかもしれない。 pic.twitter.com/fP6rt0YXDW
タグ:
posted at 00:41:58
Debiasing methods in toolkits like Aequitas and IBM Fairness 360 generally come in three flavors: pre-, in-, and post-processing. To debias models f(X) = Y, we need to incorporate information about the protected classes S somewhere. These three flavors differ in where S is used pic.twitter.com/eQrS9PTb4i
タグ:
posted at 00:44:30
We study a puzzling phenomenon we observe when applying debiasing methods in practice. In general, we expect fairness to improve, likely at the cost of accuracy. However, this is not always the case! Debiasing can worsen fairness, or can even improve accuracy?! pic.twitter.com/gZBgatAw84
タグ:
posted at 00:48:30
Through extensive cross-validation, we show that the improvements in accuracy are artifacts due to overfitting. When properly estimated, accuracy does not increase, as espected. However, the phenomenon of possibly worsening bias still holds! pic.twitter.com/t4OMlGS1gn
タグ:
posted at 00:50:52
Trustworthy ML Initi @trustworthy_ml
Debiasing classifiers: is reality at variance with expectation?
arxiv.org/abs/2011.02407
New research by A. Agrawal, F. Pfisterer, @BBischl, @acidflask et al
They empirically evaluate the reliability of a suite of debiasing techniques for ML models. 1/2
タグ:
posted at 00:51:23
Trustworthy ML Initi @trustworthy_ml
Using out-of-sample test errors for computing fairness-
performance and fairness-fairness trade-offs, they discover that OOS performance can vary unexpectedly post-debiasing. Their results highlight the importance of evaluating OOS performance in practical usage. 2/2
タグ:
posted at 00:51:23
Our key insight is that while debiasing can improve fairness metrics, it also smears out the observable variance in these measures (green = no debiasing) pic.twitter.com/00u4qTfj1x
タグ:
posted at 00:52:19
This turns out to be nothing more than the classic bias-variance trade-off in machine learning! Debiasers treat discrimination bias as statistical bias in estimators. **Eliminating that bias for a properly estimated classifier increases the variance in the debiased classifier** pic.twitter.com/SK39CyShue
タグ:
posted at 00:53:53
Our paper contains further experiments showing 1) partial debiasing often produces more robust debiased classifiers that generalize better out-of-sample, and 2) neglecting generalization error leads to erroneous estimates of fairness-accuracy and fairness-fairness trade-offs
タグ:
posted at 00:56:40
MORAL: Check out-of-sample performance metrics! Estimator variance is inversely dependent on class size (Y=y, S=s), not just Y=y class size.
twitter.com/trustworthy_ml...
タグ:
posted at 01:01:43
Check out the #JuliaLang Fairness.jl package which implements the code used in this study: discourse.julialang.org/t/fairness-jl-...
タグ: JuliaLang
posted at 01:03:38
@trustworthy_ml Thanks for the highlight! Cross-referencing paper thread and @pfistfl @sameenashah_AI twitter.com/acidflask/stat...
タグ:
posted at 01:09:41
非公開
タグ:
posted at xx:xx:xx
New post: Introducing: oneAPI.jl - www.juliabloggers.com/introducing-on... #julialang
タグ: julialang
posted at 01:52:40
非公開
タグ:
posted at xx:xx:xx
Introducing: oneAPI.jl www.juliabloggers.com/introducing-on... #juliabloggers
タグ: juliabloggers
posted at 04:20:17
Accelerating Modelling and Simulation with Julia: In this video, we demonstrate solvers that are 20x faster than existing solvers, and ML-based acceleration that provides 20x acceleration of physics-based models.
youtu.be/BGrJchagGLg
#julialang #ModelingandSimulation #ML #AI
タグ: AI julialang ML ModelingandSimulation
posted at 04:43:18
For more details on the surrogates of stiff systems, see arxiv.org/pdf/2010.04004... . Details on other results, like the discontinuity-handling differential equation solvers, will be released soon.
タグ:
posted at 04:43:19
#統計 特に渡辺澄夫著『ベイズ統計の理論と方法』の読者のために「主観確率」「ベイズ主義」「意思決定論」的なベイズ統計の解釈について以下のリンク先で解説しておきました。
何が問題なのかを正確に理解したい人は読んで下さい。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 05:29:54
#統計
①未知の分布に関する推測や予測のみが統計学の内容である
と考えるのは__誤り__。しかし、
②未知の分布に関する推測や予測を完全に捨て去ると統計学の名に値しなくなる
と考えることは穏当。
穏当な主張である②を①だと誤解して触れ回る行為は悪質!
twitter.com/genkuroki/stat...
タグ: 統計
posted at 05:32:13
Nobuyuki Kobayashi @nyaa_toraneko
全く同感です。特にこの「5分のための叱責」を、朝、皆の前でやると、本人だけでなくチームの活力が駄々下がりすることが統計上もわかってるので、世界基準では「マネージャーがやってはならないこと」になってるんですよね。 twitter.com/lygc518nytiumu...
タグ:
posted at 05:53:21
どーでもいーことですが、気になったので訂正。
✖主観確率のもとでの期待リスク最小化でベイズ統計における適切な推定法が特徴付けれます
〇主観確率のもとでの期待リスク最小化でベイズ統計における適切な推定法が特徴付けられます
「ら」が抜けた。
twitter.com/genkuroki/stat...
タグ:
posted at 05:55:49
#統計 まだ指摘していなかったこと。
【尤度関数が実際のデータ生成プロセスと似ても似つかなかったら~】
の「尤度関数」という用語の使い方も変。
尤度関数はモデルのパラメータの関数であり、データ生成プロセスと比較できるようなものではありません。
この本は細部が稠密にずさん。 twitter.com/genkuroki/stat... pic.twitter.com/3Etcg21tU0
タグ: 統計
posted at 06:15:45
#統計 非常に当たり前の話だと思うのですが、『統計学を哲学する』の読者でその「AICの哲学的含意」に感心してしまった人が、AICの計算例を1つも示すことができないならば、AICについて全く何も理解できていないくせに感心してしまったということになります。
そういうのは論外。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 07:30:01
#統計 ベルヌーイ分布モデルの場合の「n回中k回成功」というデータから得られる予測分布のAICの計算結果は
AIC = -2(k log(k/n) + (n-k)log(1-k/n)) + 2
です。この式を見れば本当に高校レベルの数学で理解可能なことがわかるはず。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 07:53:48
#統計 続き。未知の真の成功確率をqと書くとき、上のAICから真の分布のAICを引いた結果は、p=k/nとおくと
AIC - AIC₀ = -2n(p log(p/q) + (1-p)log((1-p)/(1-p))) + 2
で、推測したいKL情報量の2n倍は
2n KL = 2n(q log(q/p) + (1-q)log((1-q)/(1-p))
www.wolframalpha.com/input/?i=plot%... pic.twitter.com/GhhreYzQtE
タグ: 統計
posted at 08:11:16
#統計 AICを使ってモデル選択をするということは、添付画像の赤線(KL情報量の2n倍=真の予測誤差の指標で未知)を青線(本質的にAIC)で近似できていると思って、もっともらしいモデルを選ぶことになります。
それらは逆相関していることに注意! pic.twitter.com/cxKRQgat0P
タグ: 統計
posted at 08:14:37
#統計 1つ前の添付画像の p を k/n で置き換えて、kを離散的に動かして、さらに横軸を確率に比例するようにスケールすると、既出の添付画像上段のグラフになります。
こういうのは全部自分で計算とプロットをやり直すと理解が進みます。
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/EMiImXGZkh
タグ: 統計
posted at 08:17:56
Steven Strogatz @stevenstrogatz
Trend line in Georgia, by @jhaurum. pic.twitter.com/VFoJ2BYt0A
タグ:
posted at 09:25:58
Jeremy Chrysler @jeremychrysler
@AnnaLappala @stevenstrogatz @jhaurum It's been super consistent. twitter.com/jeremychrysler...
タグ:
posted at 10:03:34
【非公式】京大附属図書館 新着図書bot @KUL_newbooks
新着図書(桂):Juliaプログラミングクックブック : 言語仕様からデータ分析、機械学習、数値計算まで dlvr.it/Rl5KMP
タグ:
posted at 10:28:02
Been waiting for the #trendlines crossover in Georgia
almost there now (and an update for PA also included). pic.twitter.com/dWQpEgLIQ6
タグ: trendlines
posted at 11:50:31
日本数学会発行の「数学通信」に書評を書きました。David Joyner「群論の味わい」です。たぶんルービックキューブ群の Sage 話ということでお役が来たのだと思います。よかったら読んでください。
なお書評を書いていたはずなのに、最後は訳者の川辺さんの話で終わった(笑)
タグ:
posted at 12:36:36
#統計 実際に「主観的期待リスク最小化」によるベイズ統計の解釈が結構定番であることは
ai-trend.jp/basic-study/ba...
の添付画像の部分を参照しても分かると思います。
現実の未知の法則の推測をすることを一切考えずに純粋に主観的な平均リスクを最小化する(笑) pic.twitter.com/c6wXmGWYW2
タグ: 統計
posted at 13:45:12
#統計 他にも、定番の教科書の1つである久保川達也著『現代数理統計学の基礎』のサポートページ sites.google.com/site/ktatsuya7... の添付画像の部分も参照してください。
事後分布の期待値や条件付き確率分布としての標準的なベイズ版の予測分布はモデル内での期待リスク最小化で特徴付けられる。 pic.twitter.com/vMJIqaySUT
タグ: 統計
posted at 13:51:25
【通学で荷物9kg 体痛める子供】
yahoo.jp/hCwH3L
教科書を学校に置いて帰る「置き勉」が進まない現状を受け、重い荷物による子どもの姿勢や成長への悪影響を心配する保護者が多いという。中には、「荷物の重さはリュックで9キロほどあり、猫背が顕著になってきた」という子どもも。
タグ:
posted at 14:19:16
ごまふあざらし(GomahuAzaras @MathSorcerer
```
pkg> generate MyPkg
```
の代わりに
```
mkdir MyPkg && cd MyPkg
julia
pkg> activate .
pkg> add Example
```
とすれば authors の情報がない素朴な Project.toml が得られます. twitter.com/micknspace/sta...
タグ:
posted at 15:01:40
#統計 入門的レベルの解説でよく見る「主観確率」「ベイズ主義」の「合理的」な「意思決定論」でのベイズ統計の解釈については以下のリンク先を参照。
「主観的期待リスク最小化」によるべいず的な推定や予測の特徴付けの話。未知の法則の推測の問題は扱わない。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 15:30:30
#統計 特に「データサイエンス」とか言いたいのであれば(私は「データサイエンス」という用語を宣伝目的に使うことも軽薄だと思う)、未知の法則の推測を扱えないことが最初から明らかな出発点を捨てて、以下のリンク先の考え方を出発点に据えればよい。
watanabe-www.math.dis.titech.ac.jp/users/swatanab... pic.twitter.com/WWBeQvgVXr
タグ: 統計
posted at 15:56:51
Strogatz先生がtweetしたジョージア州の投票推移
ストロガッツ「非線形ダイナミクスとカオス」千葉 逸人 他訳
www.maruzen-publishing.co.jp/item/?book_no=... twitter.com/stevenstrogatz...
タグ:
posted at 15:59:50
#統計 上で私がやって見せたように、高校生でも計算できる場合のAICをプロットすると、実践的には未知のままになる真の予測誤差とAICがきれいに逆相関することが一目でわかります。
実はこれは非常に一般的に証明できることです。 pic.twitter.com/wVUYFQv9zr
タグ: 統計
posted at 16:39:57
ほむほむ@アレルギー専門医:noteメン @ped_allergy
@TOTB1984 基本的に接種可能ですー
news.yahoo.co.jp/byline/horimuk...
タグ:
posted at 19:51:00
MetaUtils.@ show_tree
これは便利、ツリー表示が手軽で分かりやすい
マクロはこのツリーを弄るイメージでいると良い感じかな
前に見たLips愛の人の、Juliaとのマクロ比較の記事も
何の話ししてるかが分かってきて面白い
muuuminsan.hatenablog.com/entry/2020/10/... twitter.com/genkuroki/stat...
タグ:
posted at 19:55:23
#統計 このスレッドの以下のリンク先以後の部分では、尤度の概念について詳しく説明した。
ポイント:尤度はモデルを固定してデータ(サンプル)のサイズnを無限大に飛ばせば「もっともらしさ」の正しい指標になるが、有限のnではそうではない。そのようなものを「原理」に据えること自体がおかしい。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 20:26:29
#統計 続き。以下のリンク先に続く部分では、nが大きくすれば
* 固定された回数のn回試してk回成功した場合のP値
* ちょうどk回成功するまでn回の試行が必要だった場合のP値
* n回中k回成功のベイズ統計の事後分布におけるP値の類似物
がすべて(近似的に)一致することも紹介されています。続く twitter.com/genkuroki/stat...
タグ: 統計
posted at 20:26:31
三嶋 隆史【Mathlogの管理人】 @mishima_ryuji
私が高専人生を捧げて開発した数学特化の情報共有サービス「Mathlog」が本格的に始動しました。
自分にしかできない方法で、数学に貢献することを目標に日々少しずつ開発を進めてきました。
Mathlogが少しでも多くの数学徒に届き、学びを深めてもらえたら嬉しいです。
#Mathlog twitter.com/MathlogOfficia...
タグ: Mathlog
posted at 20:39:49
#統計 P値や仮説検定についての標準的な見解については
www.biometrics.gr.jp/news/all/ASA.pdf
『統計的有意性と P 値に関する ASA 声明』
を引用すれば良いでしょう。そこでも、
【P値の計算の背後にある仮定を疑う、あるいは反対する】
ということも忘れてはいけないことが繰り返し紹介されています。 twitter.com/genkuroki/stat... pic.twitter.com/sFKRFJxc4b
タグ: 統計
posted at 20:40:14
#Julia言語 ちょっと気になってた構文
:generatorに:filterが入るのか pic.twitter.com/vowaAEXa1e
タグ: Julia言語
posted at 20:53:08
#統計 尤度がどのような指標であるかについては
1980年の赤池弘次さんによる尤度概念の解説が面白く読めるのでおすすめです。
ismrepo.ism.ac.jp/index.php?acti...
統計的推論のパラダイムの変遷について
jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度 twitter.com/genkuroki/stat...
タグ: 統計
posted at 21:43:06
#Julia言語
Pythin pandas ↔ Julia
R dplyr ↔ Julia
Stata ↔ Julia
の対応表であれば
juliadata.github.io/DataFrames.jl/...
にあります。 twitter.com/tachnopolis25/...
タグ: Julia言語
posted at 22:06:13
以前助けを求めた質問が解決したので、作った。
#julialang #julia
Gnuplot.jl を使用して、論文用の図(eps,latex)を作成する qiita.com/QQQ_0018/items... #Qiita
posted at 22:22:21
非公開
タグ:
posted at xx:xx:xx
ごまふあざらし(GomahuAzaras @MathSorcerer
Rust から Julia 呼べた.
rustc コンパイルオプションの渡し方が綺麗じゃないけれど
タグ:
posted at 22:43:16
JuliaからRustの関数を呼び出す qiita.com/termoshtt/item... #Qiita
なるほど逆やってないな(´・ω・`)
タグ: Qiita
posted at 22:44:57
julia.rs/build.rs at master · termoshtt/julia.rs github.com/termoshtt/juli...
なんか頑張って julia インタプリタからjuliaの場所を聞き出そうとしている
タグ:
posted at 22:53:54
新しいバージョンのJuliaをJupyterのカーネルに追加する方法 sakamurray.com/2020/06/09/%e6... @sakamurrayより
タグ:
posted at 23:24:10
#統計 以上のような前提のもとで、『統計学を哲学する』を見ると、添付画像にように書いてある。
「データ」という用語が例えば「n回中k回成功」の場合の (n, k) という数値の組のみの情報を表し、(n, k) という数値がどのように得られたかはデータではないということになっています。続く pic.twitter.com/yz2xlXAOfp
タグ: 統計
posted at 23:24:16
#統計 さらに、その意味での「データ」が違っていても、尤度は同じになるかもしれず、「データ」→尤度で情報が損失するのに、【だとすれば~そのモデルについて推論しうるすべてのことは~尤度に要約されなければいけない】と書いてある。
何が【だとすれば】なのか不明。ひどくずさんな議論。 pic.twitter.com/M6fLVOF350
タグ: 統計
posted at 23:30:25
#統計 サイズnのサンプルの尤度(の対数の-1/n倍)はn→∞の極限を取れば、ランダムに生成される無限サイズのサンプル Y_1, Y_2, … がモデルp(y)の無数のyにおける値の情報をひろってくれます。
しかし、有限サイズのサンプルの尤度においてはモデルp(y)内の重要な情報が大幅に失われる可能性がある。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 23:34:47
Interfaces are tools for isolating and testing specific pieces of large systems. If you work with a complex #julia codebase or are interested in how to manage one, read our new blog post on Development with Interface Packages:
invenia.github.io/blog/2020/11/0...
タグ: julia
posted at 23:38:00