Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2020年12月06日
並び順 : 新→古 | 古→新

2020年12月06日(日)

ほりたみゅ (mastodonも見てね) @Hyrodium

20年12月6日

>登録前にタグをつけて管理したいとならば、 v0.1.0 での登録を念頭において v0.0.1 から始めるとよい。

にしたがってTagBotにreleaseしてもらおうと試してるけど、上手く動かなくて全然わからない。。
qiita.com/Lirimy/items/0...

タグ:

posted at 22:57:16

Fermat's Library @fermatslibrary

20年12月6日

Here's an easy way to measure the acceleration of gravity at home with a yardstick, a bouncy ball and a stopwatch.
h₀ - height of the drop
h₁ - height of the 1st bounce
Tₓ - time for x bounces
c=√(h₁/h₀) pic.twitter.com/EBiZJWYwrS

タグ:

posted at 22:40:06

むううみん @muuumin20

20年12月6日

昨晩、新しい記事を書いてます。「Julia言語で入門するプログラミング(その3)」
muuuminsan.hatenablog.com/entry/2020/12/...

それにしても、今回の解説パート、改めて見直すと『めっちゃ早口で言ってそう』って言われそうだな twitter.com/muuumin20/stat...

タグ:

posted at 20:51:30

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 スレッド作成の失敗が理由のリンク。上の続きは以下。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 20:33:59

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 学生時代に教科書に書いてあることを正しいことの理由にしてはいけないという教育を徹底的に受けた私的には、多くの標準的な統計学の教科書に書いてあるという事実は正しいことの根拠には全くならないわけです。

結果的に全てを考え直すことになる。

これが普通になればよいと思う。

タグ: 統計

posted at 20:21:39

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 信頼区間を検定で棄却されないモデルのパラメータの範囲と定義しておくことの利点は、棄却されないことは正しいこととは違うと検定の説明で強調されるので「モデルがそもそも正しいのか?」という考え方をし易くなることと、P値と整合的な信頼区間をコンピュータで簡単に実装できることです。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 20:18:04

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 そのスタイルであれば、2×2の分割表のFisher検定と対応するオッズ比の信頼区間を計算する函数を #Julia言語 ならそれぞれ実質1行で書けます。

Rのfisher.testが表示するP値と信頼区間には整合性がないです。

nbviewer.jupyter.org/gist/genkuroki... twitter.com/genkuroki/stat... pic.twitter.com/qjUBKRZYSQ

タグ: Julia言語 統計

posted at 20:13:49

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 そういうスタイルで一般的に信頼区間を定義することに関する雑なノート↓ twitter.com/genkuroki/stat...

タグ: 統計

posted at 20:05:32

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 個人的には、モデルM(θ)のパラメータθの信頼係数1-αの信頼区間は「観察されたデータXから有意水準αで棄却されないモデルM(θ)のパラメータθの範囲」と定義しておくと分かり易いと思います。

P値函数pval(X, θ)と有意水準αから信頼区間は

CI(X,α) = { θ | pval(X, θ) ≧ α }

で定義される。

タグ: 統計

posted at 20:03:23

天むす名古屋 Temmus @temmusu_n

20年12月6日

官公署で働いているという永田霞子さん、教育指導要領ではなく学習指導要領または教育課程ですよ。それから、文科省が現場にぶん投げているとされる裁量権は、第一前線職員が行使しているかどうか疑問です。実際には教科書教材会社や、模試業者、悪くするとニセ科学や極右団体に簒奪されているのでは?

タグ:

posted at 20:00:12

Daisuke KATO @Dsuke_KATO

20年12月6日

Juliaの関数において、do-syntaxの観点からは第一引数は特別なんですね。

タグ:

posted at 19:51:12

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 正規分布モデルから派生するt分布を使って定義された平均の95%信頼区間たちで真の値を含むものの割合が78%程度になってしまう数値的な例を以下のリンク先で紹介しています。

95%だと思っていたものが78%に減るのは怖いでしょう。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 19:49:20

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 おそらく大久保祐作・會場健大(2019)の著者たちは、昔から教科書にもある陳腐な「信頼区間警察」ネタを自信を持って披露したのだと思いますが、現実社会において信頼区間がどのように使われているかを考えると、信頼区間のモデル依存性を無視した解説のコピペになっており、論外にひどい。 pic.twitter.com/VrAahSELBO

タグ: 統計

posted at 19:40:59

Masa Yamamoto予測誤差が大き @mshero_y

20年12月6日

流石に報道、マスコミにこの視点での検証を期待するのは無茶なので、ほうどう、マスコミを意識しているであろう発表側で詳しいモデルと推定限界について注意書きを記して欲しいところです。まあ、朝の情報番組にとっては関係ないのかもしれませんが、しかし、受け手にとっては重要 twitter.com/genkuroki/stat...

タグ:

posted at 19:38:53

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 現実の教科書的解説では、「頻度主義」の信頼区間と「ベイズ主義」の信用区間の定義の(些細な!)違いを強調し易い(もしくは実際に強調している)スタイルになっており、添付画像の赤線部分はその類のコピペになっているので論外に酷いと思いました。

命に関わる! pic.twitter.com/nVyIz4OXAc

タグ: 統計

posted at 19:37:24

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 最近では、新型コロナの流行の予測が重要です。良心的な予測は、点推定ではなく、区間推定で示されることが多いと思いますが、その区間の位置や幅は使用したモデルに強く依存していることを我々は理解しておく必要があります。

統計的予測の数学的知識は現実において非常に重要。

命に関わる!

タグ: 統計

posted at 19:34:29

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 同様のことはベイズ統計での信用区間(確信区間)についても言えます。通常の信頼区間とベイズ信用区間は定義は違いますが、漸近的に一致することは多く、それらの定義の(些細な!)違いよりも、モデルの現実における妥当性の方が大問題です。

これは本当に大問題。

タグ: 統計

posted at 19:30:19

Ken-Ichi Sakakibara @quesokis

20年12月6日

これは黒木さんの指摘を受けるまでもなく,数学知らない人でも分かるヒドさ.... twitter.com/genkuroki/stat...

タグ:

posted at 19:27:03

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 95%信頼区間の95%という数値が現実で意味を持つためには、信頼区間を計算するために使ったモデルM(θ)で現実の状況を適切に近似できていることを別の方法で確認する必要があります。

こういう重大な点について統計学入門の教科書はイーカゲンに書いてあるので要注意です。

タグ: 統計

posted at 19:27:00

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 なぜならば、信頼区間を求めるために使ったモデルM(θ)が現実には全然妥当でなかったならば、95%という数値は80%のようなそれより低い数値になっているかも知れません。95%なら我慢できるリスクが80%なら我慢できないかもしれない。

タグ: 統計

posted at 19:24:34

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 「自分と同じ状況で確率的に別のデータを得た人達を仮に想定すると、現実の真の値が95%信頼区間に入っている人の割合は95%になる。その95%に自分が入っていればこの案件は無事に済む。5%のリスクは甘受しよう」などと、モデルの妥当性を検討せずに安易に判断するとひどい目にあう可能性がある。

タグ: 統計

posted at 19:21:43

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 以上で述べた注意は現実世界で信頼区間(のような道具)を使う場合には極めて重要です。

なぜならば、もしも使用しているモデルM(θ)が現実において妥当でないものならば、95%信頼区間の95%という数値は信頼できないものになるからです。

タグ: 統計

posted at 19:16:48

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 続き。(離散分布モデルでは一般に95%以上になることが多く、P値を近似的に定義している場合には95%は近似的な値になる)

95%信頼区間の95%はモデル内でデータを生成したときのモデル内パラメータがその区間に含まれる(モデル内標本分布に関する)確率になります。続く

タグ: 統計

posted at 19:14:25

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 パラメータθの信頼区間はパラメータθを持つモデルM(θ)とデータXと有意水準αから計算されます。

モデルM(θ₀)内でランダムに生成されたデータX_{M(θ₀)}から計算されたθの95%信頼区間にモデル内パラメータθ₀が含まれる確率(割合と言ってもよい)は95%になります。続く

タグ: 統計

posted at 19:14:23

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 大久保祐作・會場健大(2019)p.244右上より

繰り返し指摘していたことですが、赤線部分の信頼区間の説明も間違っています。

通常「真の値」は現実の母集団分布に関する未知の値のことです。

しかし、「95%信頼区間」の95%はその意味の「真の値」に関する数値ではありません。続く pic.twitter.com/z4S5Sebwhs

タグ: 統計

posted at 19:06:45

非公開

タグ:

posted at xx:xx:xx

飯間浩明 @IIMA_Hiroaki

20年12月6日

これとは別に、政治家など有力者、有識者といった人々がことばをごまかしたり、ことばに関する事実を誤認していたり、意思疎通を拒んだりしている場合、辞書の作り手として意見を言うことは許されると思います。ただし、そこに個人攻撃や嘲笑、罵倒の要素を混ぜてはならないことはもちろんです。

タグ:

posted at 18:53:46

飯間浩明 @IIMA_Hiroaki

20年12月6日

辞書の作り手にも、もちろん個人的な思想信条はあります。でも、辞書は万人に使っていただくものですから、個人の政治的主張を辞書に反映すべきではありません。だいたいの目安としては、左派・右派それぞれの新聞の平均的な読者にも納得してもらえる記述にしたいと思います。

タグ:

posted at 18:53:36

飯間浩明 @IIMA_Hiroaki

20年12月6日

ところで、香港問題について以前述べた時、「辞書編纂者として偏向している」との反応がありました。編纂者の身としては、意見を言う場合、左派・右派のマスコミの論調を参考に、どれとも相反しないぬるいことを呟くにすぎません。3氏への判決については、左右のマスコミが抗議の主張を掲げています。

タグ:

posted at 18:53:28

飯間浩明 @IIMA_Hiroaki

20年12月6日

などと言ったところで、香港問題には1ミリも影響がないけれど、ここでは抗議の意思を示すとともに、世界のリーダーに行動を期待します。ともかく、今後、私はパフェとか食ってる時も、旅行なんかに行ってる時も、香港では日本文化が好きで自由に憧れる若者が囚われていることが念頭を去らないと思う。

タグ:

posted at 18:53:20

飯間浩明 @IIMA_Hiroaki

20年12月6日

香港の黄之鋒氏ら3氏が禁固刑を宣告され、蘋果日報の黎智英氏も拘留された状況を憂慮しています。特に、日本の若者と同じ文化を共有し、正当な主張をした3氏が囚われた事態は衝撃的です。周庭氏は国安法違反での捜査も進行中とのこと(毎日12/3)。これが映画やアニメの出来事でないことが苦しい。

タグ:

posted at 18:53:15

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 「主義」や「目的」がどうであっても、それらと無関係に決まっている数学的性質からは逃げられません。

これは数学を使うことの大きな利点です。

「主義」に合致した数学的道具を原理的に作れないことが判明した場合には、その「主義」は捨て去らなければいけなくなる。

タグ: 統計

posted at 18:26:25

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 コンピュータを使って計算できるくらい定義が明瞭に決まっている量の数学的性質は、その定義の動機になった「主義」や「目的」と無関係に決まってしまいます。

タグ: 統計

posted at 18:24:01

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 標準的な主観的ベイズ主義に基くベイズ統計とP値を使う検定は「主義」も「目的」も違うというようなスタイルで「入門」してしまうと、定義が違っていても漸近的に同じ値になる量があることに気付かずに大恥をかいてしまう危険性が増えます。

まずは道具の性質を理解しないとダメ。

タグ: 統計

posted at 18:19:50

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 豊田『瀕死本』では、P値を捨ててベイズ統計を使えば多くの問題が解決するかのように書いてありますが、その本で勧めているベイズ統計を使って計算される"phc"は漸近的に片側検定のP値と一致していることを示せます。

結局、P値じゃん(笑)

こういう愉快な事件もあった。

タグ: 統計

posted at 18:16:05

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 具体例

図5.2のP値版は、データがn=1560回中k=829回成功というデータのもとでの、帰無仮説が「p≧c」のP値をcの函数としてグラフに描いたものです。

豊田『瀕死本』のベイズ統計版の図5.2がP値によってきれいに再現されています。

P値とベイズ統計はこういう関係。

nbviewer.jupyter.org/gist/genkuroki... twitter.com/genkuroki/stat... pic.twitter.com/tXoUM0QrnD

タグ: 統計

posted at 18:12:11

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 「p=0.5」が帰無仮説の場合と「p≦0.5」が帰無仮説の場合では、P値を計算するために使われる帰無仮説の確率分布はどちらも「p=0.5のベルヌイ分布のサイズnの標本分布」で、前者ではデータ以上にk/nが0.5から離れる確率がP値になり、後者ではk/nがデータ以上になる確率がP値になります。

タグ: 統計

posted at 18:04:52

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 統計がらみのモデルについてコンピュータで数値実験すると、測度零集合直上でのモデルの様子が効いて来る場合があることに気付きます。

「測度零集合上の現実の値がぴったり乗っかることはあり得ないので、測度零集合上の様子は無視して良い」という考え方は数学的にはひどい誤りです。

タグ: 統計

posted at 17:54:36

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 こういうことを知っていれば、「現実にはぴったりp=0.5であることはあり得ないので、p=0.5という帰無仮説は常に偽である」というような自明でつまらない下らない指摘によって、仮説検定に対する何か有効な批判になると考える人達は考えが足りないことが分かります。

タグ: 統計

posted at 17:51:20

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 「0.5-ε≦p≦0.5+ε」のような帰無仮説も可能で、ε→0の極限で「p=0.5」を帰無仮説とした場合と同じになります。

タグ: 統計

posted at 17:51:17

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 以上のような例も扱うためには、帰無仮説に対応するモデルが動かせるパラメータを持っていて確率分布が一意的に決まらない場合にP値の定義を適切に拡張しておく必要があります。

「~の確率」を「~の確率の上限」などとする必要がある。

タグ: 統計

posted at 17:45:20

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 以上のような方針を一般化すれば、帰無仮説を「0.45≦p≦0.55」の場合の検定を考えることもできます。上の例では対立仮説を書かなかったのですが(忘れていた)、この場合は「p<0.45または0.55<p」が対立仮説です。

どのように検定を作るかは自分で考えてみて下さい。理解していれば容易。

タグ: 統計

posted at 17:41:23

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 続き

例えば、「表の出る確率はp≦0.5である」ならば、n回中表がk回というデータの偏りの大きさは k/n が0.5よりどれだけ大きいかで測られます。P値は(帰無仮説がp=0.5の場合と同じ)p=0.5のベルヌイ分布の標本分布で計算されることになり、P値は片側検定のそれになります。

タグ: 統計

posted at 17:37:50

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 「データの数値以上に偏っていること」の正確な定義抜きには、コンピュータでp値を計算できません。

例えば、ベルヌイ分布モデルで「表の出る確率はp=0.5である」が帰無仮説ならば、n回中k回表が出たというデータの偏りの大きさはk/nの0.5からの距離で測られます。

続く

タグ: 統計

posted at 17:33:41

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 ああ、ごめんなさい。以下のリンク先の【「対立仮説」の選択と関係する部分として重要】は杜撰でダメな説明でした。

【「帰無仮説」と「対立仮説」の組み合わせの選択と関係する部分として重要】と書くべきでした。ごめんなさい。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 17:29:34

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 この話題で口調が辛口になりがちな理由は、私が統計学は社会的に非常に重要な分野なので、おかしな方向に誘導する文献は非常に有害だと考えているからです。

そういう立場の一貫性は私の過去の発言を見れば明瞭だと思います。私は特に統計学入門の教科書を強く批判しています。

タグ: 統計

posted at 17:17:25

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 上で【自分の言葉で「尤度原理」(「尤度原則」)に価値がある理由を説明できそうもない感じに見えるのですが、それなら触れるべきではなかったです】と書きましたが、尤度原理の説明が杜撰なことを知れば誰でも納得すると思います。

全体がとにかく杜撰で読むのがつらいレベル。

タグ: 統計

posted at 17:14:13

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 馬鹿げた考え方について詳しく説明したくはないのですが、添付画像に3ページ目から引用したlikelihood principleの説明はおかしいです。

少なくとも、L(a), L(b)のそれぞれを、L₁(θ)=p₁(A|θ), L₂(θ)=p₂(B|θ)に置き換えるなどの手直しが必要です。パラメータθは共通でなければ意味がないで。 pic.twitter.com/ZvCeWINnV4

タグ: 統計

posted at 17:12:24

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 リンク先の添付画像は3ページ目の右下の部分です。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 17:03:55

yudai.jl @physics303

20年12月6日

Juliaのアドカレンダーあるのか。時間あったら数独パズルでも解いてみようかな(時間ない)

タグ:

posted at 16:55:56

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 自分の言葉で「尤度原理」(「尤度原則」)に価値がある理由を説明できそうもない感じに見えるのですが、それなら触れるべきではなかったです。

タグ: 統計

posted at 16:55:52

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 大久保祐作・會場健大(2019)より

いわゆる「尤度原理」(引用文中では「尤度原則」)についてふれていますが、このような馬鹿げた考え方を初学者相手の解説に書くのはやめた方がよかった。

昔の偉い人達が言っていてもまともであることの証拠にはなりません。 pic.twitter.com/1CfIBn4pwj

タグ: 統計

posted at 16:53:48

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 哲学っぽい話も混じって来る話題なのに、陳腐でよく見る話題の焼き直しをやってしまうのはまずい。

あと、文献をreferするときには、もっと精密にどのページのどの部分について言及しているかについても書いて欲しいです。

タグ: 統計

posted at 16:47:11

歩行者は右側通行 @JikanBae

20年12月6日

#Julia言語 で簡単なグラフを作成した。JIS C1509-1「サウンドレベルメータ」の附属書Eに書かれた周波数重み付け特性。 pic.twitter.com/UnMN41ZSgf

タグ: Julia言語

posted at 16:42:00

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 そうできない理由は、

自分自身が数学的に正確に理解できておらず、
自分の頭で一から考え直すことをするつもりもなく、
科学的な常識との整合性についても十分に考えるつもりがない

からだと思われます。

数学の部分は大変なので理解できなくても仕方がないですが、他項目がまず過ぎ。

タグ: 統計

posted at 16:40:11

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 統計学について昔の偉い人達が何を言っていたかを重要視する「主義に基く統計学」の人達が抱えている共通の問題は、

数学的に正確な理解と
常識的な推論能力と
科学的な常識の理解の範囲内で
処理できる問題である可能性を何も検討せずに、
陳腐な言説を垂れ流し続けること

です。

タグ: 統計

posted at 16:36:00

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 もちろん、p値の数学的な定義と数学的な基本性質だけで、p値を誤用せずに済むということはあり得ません。

なぜならば、それら以外に、常識的な論理的推論能力や科学的な常識を理解していることも必要だからです。

しかしよく見る陳腐な「〇〇主義」は無用だと思います。

タグ: 統計

posted at 16:29:43

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 例えば私の所に、十分な知性を持っているがp値を誤用している人を連れて来たとしましょう。

その人に対して、私はp値の数学的な定義とp値の数学的基本性質に関する易しい質問しかできないとする。

そのときその人が私の質問にすべて正解できるとはとても思えない。たぶん、理解していない。

タグ: 統計

posted at 16:29:42

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 もちろん「理解できていなくても、機械的にある種のルールに従うことはできる」という意見は正しいです。

でも、そういうことを堂々と言ってしまうような人は科学研究の世界の住人ではもはや無くなっていることも認める必要があります。

理解することは常に大変なことですが大事なことです。

タグ: 統計

posted at 16:20:32

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 これの逆は成立しない。

昔の偉い人達がp値について何を言っていたかについてどんなに知っていても、p値の定義と基本性質を知らなければデータを使ったモデルの検定で自分自身が何をやっているかを理解していないことになります。当たり前の話。

タグ: 統計

posted at 16:17:52

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 p値の定義を正確に理解していて、その基本性質も理解していれば(この前提の実現が大問題なのですが)、p値の誤用については多くの場合にすぐに気付くはずです。

その前提をクリアした人にとっては、大昔の偉い人達の意見は無用になります。

タグ: 統計

posted at 16:15:16

F. Sakamoto,MPH,CIC @SakamotoFumie

20年12月6日

感染だろうが、不倫だろうが、謝罪会見は不要

タグ:

posted at 16:13:56

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 「検定についてFisher流とNeyman-Pearson流の混同のせいで云々」というスタイルの言説はよく聞きますが、陳腐でつまらない話題(どちらかと言えば有害な話題)だと思います。

どうしてそういうつまらない話をしたがる人が次から次へと湧いて出て来るかを問題にするべきだと私は思います。

タグ: 統計

posted at 16:10:44

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 数学自体が難しい上に、確率について人間はよく間違った直観を持ってしまいます。

しかし、そこをがんばらないと、自分がどういうギャンブルに手を出しているかを理解せずにギャンブルを行うことになる。

私が相手のギャンブルであれば私が儲かるので大歓迎ですが(笑)、社会的にはまずい。

タグ: 統計

posted at 16:07:39

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 統計学の道具はどれもこういうスッキリしない性質を持っています。データが運悪く偏っていると大きな失敗を引き起こします。

統計学の使用はギャンブルになるので、しっかりどのようなギャンブルになるかを理解して統計学を使用するべきです。

タグ: 統計

posted at 16:04:32

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 AICについても同様です。AICはKL情報量で定義される真の予測誤差(これは未知のままになる)ときれいに逆相関しているので、AICによるモデル選択が失敗する場合には、データの偏りが原因でひどく間違った予測を出しているモデルを選択することになります。

タグ: 統計

posted at 16:04:31

富谷(助教);監修 シン仮面ライダー @TomiyaAkio

20年12月6日

toml か。Julia の管理に使われてるという程度しか知らんかったけど、良さげ。
ja.wikipedia.org/wiki/TOML

タグ:

posted at 16:02:12

正霧丸 @kirimaru_purple

20年12月6日

息子のチートを有効にしてくれる担任。 pic.twitter.com/O80cdtlZdz

タグ:

posted at 16:01:05

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 有意水準でコントロールされた小さな確率であっても、運悪くひどく間違った予測を出す対立仮説を選んでしまい、大きな損害の原因になるかもしれない。

この手のリスクは場合ごとに異なるので、各分野の専門家に頑張ってもらうことになる。

機械的に特定のルールに従うには馬鹿げています。

タグ: 統計

posted at 15:58:41

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 ある特定のリスク(例えば第2種の過誤の確率)を最小化できていても、別の基準で測ったリスクは最小化されないかもしれません。非常に当たる前の話!

仮説検定では、帰無仮説が近似的に成立しているときに、データが運悪く偏っていると、ひどく間違った予測を出す対立仮説を選ぶことになります。

タグ: 統計

posted at 15:58:40

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 帰無仮説のモデルM₀と対立仮説のモデルM₁のどちらかをデータに基く検定によって選択するときに、与えられた有意水準α(M₀が正しいときにM₁を選んでしまう確率)の元でベストの意思決定をする方法を見つけること(これには価値がある)と、その選択のルールに機械的に従うことは全然違う。

タグ: 統計

posted at 15:50:03

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 よくNeyman-Pearsonの仮説検定の意思決定論的な解釈のしかもかなり極端に聞こえるバージョンが初学者向けに説明されるのを見ますが、あれは有害なのでやめた方が良いと思う。

タグ: 統計

posted at 15:50:02

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 あれやこれやで、p値の定義を理解するだけで、数学的にどんどん大変な話になって行くわけです。

タグ: 統計

posted at 15:42:32

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 実践的に使用される検定では、パラメータを持つ統計モデル(統計学入門ではベルヌイ分布モデルと正規分布モデルが定番)が使用されています。

そういう場合について、帰無仮説と対立仮説のそれぞれに対応する統計モデルが何であるかを明確にしないと、実践的に使用されている検定を理解できない。

タグ: 統計

posted at 15:40:33

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 パラメータを持たない2つの確率分布p₀とp₁についてNeyman-Pearsonの補題を単純に適用できる場合が、実践的な統計分析で使用されることは非常に稀です。

なぜか、正確な理解を捨てて「主義」の話から始める困った人達はその場合を好んで説明したがる。

これも理解不能な杜撰さだと思います。

タグ: 統計

posted at 15:36:51

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 「帰無仮説をモデル化した確率分布内で、データ以上に偏った数値が生じる確率(またはその近似値)」がp値の定義です。近似値が使われる場合には近似計算法も決めないとp値は計算できない。

「データ以上の偏り」は対立仮説の取り方によって変わります。

タグ: 統計

posted at 15:36:50

ごまふあざらし(GomahuAzaras @MathSorcerer

20年12月6日

Juliaアドベントカレンダー開いてる枠あるので、また何か書こうかな?

タグ:

posted at 15:32:05

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 ②「いま手元にあるデータ、およびさらに極端なデータが得られる確率」における「さらに極端な」の部分が曖昧なので、p値を実際に計算できるようにするためにはその部分を明確にする必要があります。

この部分は「対立仮説」の選択と関係する部分として重要です。続く pic.twitter.com/z9RMDR0hdW

タグ: 統計

posted at 15:30:15

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 個々のp値の定義を理解するという問題のクリアには、大昔の偉い人達が何を言っていたかについて知っても何も役に立ちません。

「頼むから、面倒だろうけど、地道に数学を勉強してくれ」と言うしかない。

タグ: 統計

posted at 15:27:02

yudai.jl @physics303

20年12月6日

Juliaで値渡しってできんの?

タグ:

posted at 15:26:40

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 「p値を計算するために使われた確率分布」を即答できないのに、p値を使って科学的にまともな判断をできるはずがない。計算されたp値が何の確率であるかを理解できていないのだから、当たり前のことでしょう。

しかし数学は難しいのでまともな理解に到達するのは非常に大変。

タグ: 統計

posted at 15:23:31

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 これを読んでいる正直な人達の多くは「p値を計算するために使われた確率分布を即答するのは結構大変だ」(場合によっては「できそうもない!」)と思っていると思います。

p値の理解はこのレベルで結構大変なんです。

この点について私は数学は難しいので仕方がないと思っています。

解説続く

タグ: 統計

posted at 15:21:06

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 以上に述べた点は重要で、いわゆる『ASA声明』でも【背後にある仮定を疑う、あるいは反対する】を忘れるとp値の誤用になってしまうことが強調されています。

現実には「p値の計算に使われた確率分布は何ですか?」という質問に即答できたら立派な感じで、多くの人の理解はお寒い状態。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 15:18:04

ごまふあざらし(GomahuAzaras @MathSorcerer

20年12月6日

-L オプションだと実現できないことをしたいってことですかね?🧐

JuliaでJuliaのコードをインプットとする qiita.com/cometscome_phy... #Qiita

タグ: Qiita

posted at 15:15:33

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 続き。いずれにせよ、帰無仮説下でのデータのランダムな生成を記述する確率分布を与えなければ、p値を計算する以前の問題として、帰無仮説下での確率を考えることさえできない。続く

タグ: 統計

posted at 15:13:38

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 続き。帰無仮説だけだと確率の計算ができないので、教科書的には、例えば「2つのグループの母集団分布は平均と分散が等しい正規分布になっている(もしくは、それによって十分近似されている)」のように帰無仮説そのものをはるかに超えた条件を仮定したりします。続く

タグ: 統計

posted at 15:13:38

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 ①まず「帰無仮説H₀が正しいという条件のもとで」の部分がひどく曖昧です。

例えば帰無仮説が「2つのグループの母平均が等しい」であるとき、その帰無仮説とデータだけからP値を計算できるわけではありません。

帰無仮説だけでは確率さえ定義されていない!続く pic.twitter.com/CL0uv3mtcm

タグ: 統計

posted at 15:08:00

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 実際には、「帰無仮説H₀が正しいという条件のもとで、いま手元にあるデータ、およびさらに極端なデータが得られる確率」という説明は肝腎な点で曖昧なので、初学者相手に説明する気があるなら、もっとくわしき説明するべきです。続く pic.twitter.com/a5ug8TGSGy

タグ: 統計

posted at 15:04:22

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 実際に仕事で統計学を教えたことがある人であれば、生徒にとってp値の定義に戻ることが困難であることをよく知っているはずです。

全体的にふわふわしていてかつ違和感が容易に得られるような杜撰な議論をしているので、どう言い訳してもひどい代物であるという評価から逃れるのは苦しい。

タグ: 統計

posted at 15:01:50

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 p値の定義を「帰無仮説のモデル化内でデータの数値以上の偏りが生じるモデル内確率」と正確に要約すること自体、統計学の初学者には非常に難しいことです。

ところが、大久保祐作・會場健大(2019)ではp値の定義を知っていることを前提に誤解する原因を探すという非現実的な方向に行っている。 pic.twitter.com/i6owx5ovb6

タグ: 統計

posted at 14:57:44

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 私には、大久保祐作・會場健大(2019)のどこに「pとαの混同に過ぎない」と書いてあるのか?どこにも書かれていませんよね。

統計学の初歩をわかっていない人達はそもそもFisherやNeyman-Pearsonとか言う以前の段階で何も理解していないのが普通で、p値の定義に戻ることさえできない。 twitter.com/ohkubo_yusaku/... pic.twitter.com/bhWUMKuvlV

タグ: 統計

posted at 14:53:40

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 【まともに統計学を齧ってない人】向けの解説であれば、p値と有意水準の混同を引用したならすぐに超絶初歩的な誤解であることを指摘しないとだめ。

しかし、非常に不思議なことに【誤って棄却】の「誤って」の部分を強調。「p」と「α」の混同に過ぎないことに気付いていないように見える。 pic.twitter.com/8n13kUB7er

タグ: 統計

posted at 14:45:36

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 添付画像は大久保祐作・會場健大(2019) www.researchgate.net/publication/33... より。誰でもダウンロードして読めます。

p値と有意水準(=第一種の過誤が起こる確率)の混同のような初歩的誤りと、検定に関するFisherとNeyman-Pearsonの考え方の違いは別次元の話題なのにこうなっているのだ。 pic.twitter.com/ryKipbE5Nj

タグ: 統計

posted at 14:36:13

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 分岐へのリンク

「p」と「α」の混同という低レベルの誤りはすぐに指摘できるのに、大久保祐作・會場健大(2019)ではそのような指摘をせずに、「Fisher vs. Neyman-Pearson」の話を延々としています。

だから、大久保祐作・會場健大(2019)がひどい代物であるという事実はひっくり返らない。 twitter.com/ohkubo_yusaku/... pic.twitter.com/Omsw5PnBnc

タグ: 統計

posted at 14:30:07

富谷(助教);監修 シン仮面ライダー @TomiyaAkio

20年12月6日

真面目にはかってないけど、3分くらい。

タグ:

posted at 14:26:59

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 スレッドを繋げるのに失敗していた。続きは以下です。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 14:24:06

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 AICやBICなどの情報量規準について誤解したくない人は、渡辺澄夫『ベイズ統計の理論と方法』を参照しておいた方が安全です。

この本にはベイズ統計以外(最尤法、MAP法、検定、…)についても普通に書いてあり、情報量規準の解説としても非常に優れた教科書だと思います。

タグ: 統計

posted at 14:20:33

富谷(助教);監修 シン仮面ライダー @TomiyaAkio

20年12月6日

twitter.com/TomiyaAkio/sta...
手元でJulia をダウンロードし直して、どれくらいで計算始められるかをやってみたら10分かからんかった

タグ:

posted at 14:16:30

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 KL情報量とBICの関係は、渡辺澄夫『ベイズ統計の理論と方法』p.9の(1.19)とp.78の説明を見れば分かります。

文献をreferするときにはピンポイントでページや式番号も書いて、確認する人が「目で探すこと」をしなくてよいようにするべきです。

タグ: 統計

posted at 14:16:11

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 だから、BICは空のデータから得られるサイズnのデータの予測分布の予測精度が高いモデルを選択したいときに使える情報量規準です。

理解していない人達はKL情報量とBICの関係に気付いていません。

タグ: 統計

posted at 14:12:10

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 BICの説明中にある【真のモデルである確率】という言い方は単なるトンデモで完全にアウトです。

p値が帰無仮説が正しい確率だと主張するのと同等のデタラメ。

真のモデルである確率とやらがどのように定義されているのやら。

BICに関する解説に続く pic.twitter.com/3NSBP1oebt

タグ: 統計

posted at 14:06:33

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 予測精度が高い側を選択するためにAICは使用可能だが、仮説検定と比較すると予測精度が低い側を選んでしまう確率がずっと高い場合もある、というような説明なら安心して読めます。

統計学の道具が繊細でこのようにスッキリしないものばかりです。統計学の使用は常にギャンブルになる。

タグ: 統計

posted at 14:03:27

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 KL情報量と漸近的に逆相関しているAICについて、「これを言い換えた」と説明してしまうのは非常にまずいです。

逆相関しているのです、予測精度が悪い方のモデルを選ぶ確率は結構高い場合があります。しかもそのときには予測分布の予測精度が大きく悪化した側を選ぶことになります。 pic.twitter.com/vo4E3tmjfl

タグ: 統計

posted at 13:59:57

Ohkubo Yusaku @Ohkubo2021

20年12月6日

@genkuroki いいですよ!いくつか思い当たる節があるので近日中に用意しましょう。

タグ:

posted at 13:59:48

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 AICとデータから作った予測分布の芯の分布に対するKL情報量は漸近的に逆相関(相関係数-1!)していることを示せます。正確な主張は渡辺澄夫『ベイズ統計の理論と方法』p.80の下から10行目にある。

漸近的に、AICとKL情報量の期待値からの揺らぎの大きさは同じになり、向きは正反対になります。

タグ: 統計

posted at 13:55:47

黒木玄 Gen Kuroki @genkuroki

20年12月6日

@ohkubo_yusaku 書いてある部分をスクショで見せてくれませんか?

タグ:

posted at 13:50:05

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 添付画像は3ページ目より

AICとBICの説明も例によってひどく粗雑です。

WAICやWBICに言及するなら、渡辺澄夫『ベイズ統計の理論と方法』をもっと真面目に読めばいいのに。読んで理解していればこういう粗雑な説明をせずに済んだ。

詳しい説明に続く pic.twitter.com/Z3xxe8JS6s

タグ: 統計

posted at 13:39:59

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 添付画像は2ページ目より

(対数)尤度比検定は漸近論を前提にしたp値の構成の話なのだから、漸近同値なWald検定を持ち出して批判しても無意味です。

この部分は「道具」の数学的性質を知らないと馬鹿げた議論を容易にしてしまうことの証拠になっています。 pic.twitter.com/zR17hopDAI

タグ: 統計

posted at 13:36:10

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 添付画像は大久保祐作・會場健大(2019)の最初のページより

どうしてこの手の人達は、【数式よりも概念的な説明を重視】と述べて、道具についての手堅い説明をせずに、【「何のための道具であるか」】についていきなり語りたがるのでしょうか?

そういうのを杜撰な議論という。 pic.twitter.com/LRA6duQByE

タグ: 統計

posted at 13:29:30

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 「p」と「α」の混同をそのまま扱ってしまうような人には、統計学の基礎に関する正常な議論は不可能だと思う。

まずは、p値の概念を正確に説明して、大昔の偉い人達が何を言っていたかと無関係に、手堅く正しい考え方が何であるかをクリアにしてから先に進まないとダメです。

タグ: 統計

posted at 13:24:21

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 続き。だから、上にp値の定義を使うときに、このp値の定義はFisher流なので、このp値を使う議論とNeyman-Pearsonの仮説検定は異なる、のように安易に考えるのはひどく間違っています。

そもそも、大昔の偉い人が何を言っていたかは我々が何を正しいかを判断するときの根拠にはなりません。

タグ: 統計

posted at 13:20:31

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 p値の定義をもう少し正確に述べると、

p値=帰無仮説のモデル化Mにおいて観察されたデータX以上の偏りが生じるモデル内確率の近似値

です。「X以上の偏り」の定義も与える必要があり、その定義の部分では実質的に「対立仮説」を使っていると考えられます。続く

タグ: 統計

posted at 13:20:31

Ohkubo Yusaku @Ohkubo2021

20年12月6日

@genkuroki いやいや本当にいるから書いたんですよ。この論文自体まともに統計学を齧ってない人を相手にした論考ですので、自力で数理統計の専門書や学術書を読める人には不要です。

タグ:

posted at 13:17:31

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 統計ソフトを意味もわからず使っていても「p」(p値)と「α」(有意水準≒第一の過誤を犯す確率)は別に表示されるので、混同しないでしょう。

「p値とは何だったのか」というタイトルでこれだとさすがに読む気が失せる。

他にも突っ込みどころが満載。 pic.twitter.com/VFc4ujOJFf

タグ: 統計

posted at 13:13:08

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 大塚淳『統計学を哲学する』にしても、大久保祐作・會場健大(2019)にしても、引用文献を示した上で、相手をする価値があるとは思えない非常識なデタラメが書いてある。

これは一体どういうことなんでしょうかね?

同業者の人が指摘してあげた方が良いと思います。

タグ: 統計

posted at 13:07:48

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 さすがに統計学ユーザーで「p」と「α」を混同するような人がいるとは思えません。

仮にいたとしても、そのままその手の類の相手をするのはおかしい。

大久保祐作・會場健大(2019)のタイトルは「p値とは何だったのか」なので、さすがにこれはひどいんじゃないか?

タグ: 統計

posted at 13:04:48

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 仮にそう書いてあったとしても、p値を有意水準と混同するレベルの言説の相手をする必要はないでしょう。

p値が適切に定義されていれば、帰無仮説のモデル化内でp値<αとなる確率はαにぴったりなったり、αでよく近似されます。このαが有意水準=第一種の過誤を犯す確率だと解釈されるわけです。

タグ: 統計

posted at 13:04:47

黒木玄 Gen Kuroki @genkuroki

20年12月6日

@tbs_i 回答は「いるかもしれないが、見つけてはいない」を含んでいるわけですね。了解しました。

私が正確に引用して誤りを指摘している部分について「そうではない」と正しく指摘している人がいるなら、是非とも読みたいと思っています(杜撰な議論は読みたくない)。

タグ:

posted at 12:52:42

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 またひどいのを見つけた。最悪。

www.researchgate.net/publication/33...
p 値とは何だったのか
大久保祐作・會場健大
生物科学 2019

さすがに、統計学をまともにかじった人で、p値を有意水準(=第一種の過誤を犯す確率)だと言う人はいないんじゃないか?

引用文献に本当にそんなことが書いてあるの?続く pic.twitter.com/e9rHlbC3tn

タグ: 統計

posted at 12:49:50

黒木玄 Gen Kuroki @genkuroki

20年12月6日

@tbs_i 【黒木さんの指摘する統計学の説明の問題がなかったとしても】

え?問題ないと言っている人がいるの?

タグ:

posted at 12:38:04

K.B.砂糖 @KB_satou

20年12月6日

VScode Jupyter julia tab ギリシャ 方法

タグ:

posted at 11:23:40

Keno Fischer @KenoFischer

20年12月6日

Now: Food, because I accidentally neglected to have a proper dinner yesterday, because I was in the middle of this.

タグ:

posted at 08:48:16

Keno Fischer @KenoFischer

20年12月6日

Update: Found my last missing complication, wrote a reproducer and am confident I fully understand the issue now. Reproducer is in github.com/JuliaLang/juli....

タグ:

posted at 08:46:03

Keno Fischer @KenoFischer

20年12月6日

Wait a minute ... - hey @netflix I have a series to pitch you.

タグ:

posted at 08:03:58

Keno Fischer @KenoFischer

20年12月6日

Also, I wonder if there's a case to be made for reverting "fixes" that just reduce the incidence of an intermittent error without it being fully understood. Feels like something House, M.D. would do, but there is some truth to it.

タグ:

posted at 07:56:08

Keno Fischer @KenoFischer

20年12月6日

Did I write this just to rant about how annoying this bug was? Yes, definitely. And also frustrating, because if rr had been available this would have taken like 30 mins tops. But still, I do think the takeaway is right that issues need to be thoroughly understood.

タグ:

posted at 07:51:13

Keno Fischer @KenoFischer

20年12月6日

26/ Otherwise, I risk it being like the first issue I found, where it's possibly a real problem, but could just be reducing the incidence rate of the failure to the point where it's harder to see.

タグ:

posted at 07:49:13

Keno Fischer @KenoFischer

20年12月6日

25/ So I'm probably still missing one more factor, but without knowing what they all are, I can't really 100% know that I've fixed it properly.

タグ:

posted at 07:48:19

Keno Fischer @KenoFischer

20年12月6日

24/ (1. Type-dependent delayed compilation, causing the unsoundness to only happen on precisely the *second* use of the dictionary and only if the GC interval happens to be close to expiry and 2. the interaction with the critical region code)

タグ:

posted at 07:48:19

Keno Fischer @KenoFischer

20年12月6日

23/ The point I wanted to make is that while I found the root cause (unsoundness in WeakKeyDict), almost 20 hours ago, I'm still not done debugging, because I don't fully understand all the interactions yet. I already found two complications I didn't understand before

タグ:

posted at 07:48:18

Keno Fischer @KenoFischer

20年12月6日

22/ So I believe I understand this now, but I still can't get a minimal test case to work properly, so I'm probably still missing something, so I'll keep working on it.

タグ:

posted at 07:48:18

Keno Fischer @KenoFischer

20年12月6日

21/ This turns out not to matter though, because the GC already thought that the object was dead and the WeakKeyDict unsoundness basically necromanced it, which is very bad.

タグ:

posted at 07:48:18

Keno Fischer @KenoFischer

20年12月6日

20/ However, there is a special case for finalizers to be re-run just at the end of a critical region, though by that point the root should have been re-established.

タグ:

posted at 07:48:17

Keno Fischer @KenoFischer

20年12月6日

19/ I wake up, look at my notes, try some things and can't get it to work either because the WeakKeyDict unsoundness region is in a (mutex-protected) critical region, so finalizers are inhibited during it.

タグ:

posted at 07:48:17

Keno Fischer @KenoFischer

20年12月6日

18/ I want to try this, but at this point my brain is too fried, so I just write it down and try to get some sleep (didn't work very well).

タグ:

posted at 07:48:17

Keno Fischer @KenoFischer

20年12月6日

17/ So I decide to go to sleep and fix the WeakKeyDict unsoundness in the morning. Just before I fall asleep though, I realize that the table was empty during the first time, so some of the code paths would have not been hit, so there may be additional compilation the second time pic.twitter.com/7NmCfRLztH

タグ:

posted at 07:48:16

Keno Fischer @KenoFischer

20年12月6日

16/ because we're running everything optimized and compilation should have happened the first time we went through this code.

タグ:

posted at 07:48:14

Keno Fischer @KenoFischer

20年12月6日

15/ Of course the unsoundness is a general concern and needs to be fixed, since there are things that can cause GC even in code that doesn't allocate (e.g. recompilation of something or running unoptimized), but that doesn't explain the ongoing failures ...

タグ:

posted at 07:48:14

Keno Fischer @KenoFischer

20年12月6日

14/ At this point I'm pretty frustrated. It's almost 6am, I've been at this for more than 10 hours and while I have a possible root cause that could explain it, it doesn't quite fit yet.

タグ:

posted at 07:48:13

Keno Fischer @KenoFischer

20年12月6日

13/ I do notice that if a GC were to occur in a particular (small) critical region, it would cause unsound behavior from WeakKeyDict, but I still couldn't explain the issue, because after optimization, the region contained no allocations that could trigger GC.

タグ:

posted at 07:48:13

Keno Fischer @KenoFischer

20年12月6日

12/ So I start trying to break the WeakKeyDict by hammering the pattern repeatedly to try to see if I can reproduce the problematic behavior.

タグ:

posted at 07:48:13

Keno Fischer @KenoFischer

20年12月6日

11/ So I stare some more at the remote reference code and notice that we deliberate corrupt remote references that the GC asserted were no longer referenced. That seemed like a promising lead, but we were using a WeakKeyDict to basically prevent exactly this.

タグ:

posted at 07:48:12

Keno Fischer @KenoFischer

20年12月6日

10/ So I poke around some more and dump the network communication (thinking maybe two things are writing to the socket at the same time and corrupting it or something), but that turns out to look just fine (after playing manual deserializer).

タグ:

posted at 07:48:12

Keno Fischer @KenoFischer

20年12月6日

9/ The error turns out to be about a corrupted remote reference, which is odd, because we use remote references quite extensively (the entire test suite is built on our Distributed computing support)

タグ:

posted at 07:48:12

Keno Fischer @KenoFischer

20年12月6日

8/ This turns out to be useful and I end up seeing an error message that was previously suppressed (separate issue - github.com/JuliaLang/juli...)

タグ:

posted at 07:48:11

Keno Fischer @KenoFischer

20年12月6日

7/ So I mess around with that for a few hours, until I get the idea to write an lldb script to trace out all task switches so I have some idea of what's happening.

タグ:

posted at 07:48:11

Keno Fischer @KenoFischer

20年12月6日

6/ Unfortunately, any changes (even stupid things like adding additional comments to a file) like to make it go away and a source build on the machine doesn't show the symptoms. Debugging optimized binaries on mac is not fun (lldb is quite fussy and no rr)

タグ:

posted at 07:48:11

Keno Fischer @KenoFischer

20年12月6日

5/ Unfortunately, this doesn't fix it. Locally the error rate drops to <10% and coincidentally, we saw the hang on CI too still (though on win32 this time).

タグ:

posted at 07:48:10

Keno Fischer @KenoFischer

20年12月6日

4/ and logged into the exact machine said binary failed on. That luckily showed a hang about 30% of the time, so I look at the test and after some poking, find a race condition that would explain a hang (github.com/JuliaLang/juli...)

タグ:

posted at 07:48:10

Keno Fischer @KenoFischer

20年12月6日

3/ It tends to happen with some regularity (a few %) on the mac buildbots but not usually elsewhere (though we also saw a few win32 failures with similar issues), so I went and grabbed the exact binary that was failing (another learning - save binaries you ran on CI) ...

タグ:

posted at 07:48:10

Keno Fischer @KenoFischer

20年12月6日

2/ It's super useful, but can also be very frustrating. For example, I've been debugging an intermittent hang on CI (github.com/JuliaLang/juli...) for the better part of the past 24 hours.

タグ:

posted at 07:48:09

Keno Fischer @KenoFischer

20年12月6日

1/ Something I've learned over the years of #julialang development is to not stop debugging I have verified that I indeed got the root cause exactly right and can explain all observed behavior. Otherwise you just risk making an already hard bug harder to see without fixing it.

タグ: julialang

posted at 07:48:09

Yuki Nagai @cometscome_phys

20年12月6日

JuliaでJuliaのコードをインプットとする - Qiita qiita.com/cometscome_phy...

タグ:

posted at 07:38:33

黒木玄 Gen Kuroki @genkuroki

20年12月6日

@vin_tea01 #Julia言語 括弧が必要です。

Juliaのパースの仕方は :( ) で囲むと分かります。

gist.github.com/genkuroki/c3b0... pic.twitter.com/BkxxCRqIqg

タグ: Julia言語

posted at 05:45:43

むううみん @muuumin20

20年12月6日

「Julia言語で入門するプログラミング」第3回を書きました。構造体も出てきてだんだん本格的になってきました。
はてなブログに投稿しました #はてなブログ #Julia言語
Julia言語で入門するプログラミング(その3) - SE教育パパむううみんのブログ
muuuminsan.hatenablog.com/entry/2020/12/...

タグ: Julia言語 はてなブログ

posted at 02:15:41

yudai.jl @physics303

20年12月6日

低ランクの確率行列で近似することを確率行列分解(SMF)というみたいですね。

観測データから得た行列を確率行列分解することでLDAモデルを求められるのかな?

タグ:

posted at 02:08:51

積分定数 @sekibunnteisuu

20年12月6日

ツンデレ先生の発言を追っていくとこうなってることが分かる。

ツンデレ教職員さんは、掛け算の順序でバツを付けることに反対していない。

タグ:

posted at 01:56:14

積分定数 @sekibunnteisuu

20年12月6日

その後、「SNSでアップされている画像も、授業の様子が分からない。もしかしたらAだったのかもしれない」「Aじゃない保証はない」「Aなんだろ」というようにして、

結局、Aという条件が成り立っているから✖にするのも当然、とか言い出す。

タグ:

posted at 01:55:10

積分定数 @sekibunnteisuu

20年12月6日

大抵はこういうプロセスを踏む。

「バツには反対だ。しかし、Aという前提なら✖も理解できる」という、「Aが成り立っていないならバツに反対」という条件付き「バツに反対」に後退する。

タグ:

posted at 01:54:01

非公開

タグ:

posted at xx:xx:xx

積分定数 @sekibunnteisuu

20年12月6日

「バツには反対だ」と言いながら順序指導を擁護する人は珍しくない。

さらに、そもそもバツにすることに賛成していることもある。

タグ:

posted at 01:49:01

積分定数 @sekibunnteisuu

20年12月6日

あるある先生、完全に順序論者の側だったんだな。

ツンデレ先生、別件で何かあったみたいだけど、詳細は知らないのでそれはスルーする。

 ツンデレ先生、掛け算順序でバツを付けることには反対だと言っていたが、実は賛成していることが判明した。

タグ:

posted at 01:47:06

無能なボンブ@収入0 @itengr_matome

20年12月6日

プログラム言語Juliaの時代キタ━(゚∀゚)━! そのうちPythonも食われそう C++はもうダメだ
is.gd/dIw6tZ
1: 名無しさん@涙目です。(禿) [MX] 2019/02/24(日) 23:03:30.40 ID:wibnRdxn0 BE:155743237-PLT(12000)
... pic.twitter.com/WKTXS3eLuN

タグ:

posted at 01:41:31

高梨陣平 @jingbay

20年12月6日

Standing with Dr. Timnit Gebru — #ISupportTimnit #BelieveBlackWomen

googlewalkout.medium.com/standing-with-...

1400人を越えるGoogleスタッフと1900人の他の支援者が抗議の手紙に署名を行っている。

タグ: BelieveBlackWomen ISupportTimnit

posted at 01:06:46

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 上の方の話に戻る。

「あらゆる可能性に配慮したモデルと観測の繰り返しの組み合わせで真理に到達すること」は数学的には不可能だと思ってよい。

統計学ユーザーが実際にやっていることは専門知識を活かして適切なモデルを使用すること。統計学の数学で閉じない話題がここで確実に出て来る。

タグ: 統計

posted at 00:58:41

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 スレッド作成失敗。上の続きは以下です。 twitter.com/genkuroki/stat...

タグ: 統計

posted at 00:50:11

yudai.jl @physics303

20年12月6日

@nhayashi1994 あーでも、モデルパラメータは負の値もとるから、そもそも行列のKLダイバージェンスが定義できないのか…。

タグ:

posted at 00:43:40

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 注意・警告: 私はこれをベイズ統計におけるWAIC(およびLOOCV)が最尤法におけるAICよりも優秀であることの証拠の1つだとみなしているのですが、私はど素人なのでどこかで誤りをおかしている可能性があります。誤りを見つけたら教えて下さい。

タグ: 統計

posted at 00:41:55

yudai.jl @physics303

20年12月6日

@nhayashi1994 なるほど。ありがとうございます。

あと、例えばDNNモデル軽量化の為にパラメータ行列Wを低ランク近似する時って、EUCよりKLの意味で近似する方が妥当だったりしませんか?

パラメータ空間の距離はL2でなく、FIMなので、KLで近似する方が自然なのかな…などと思いました。

タグ:

posted at 00:40:48

清 史弘 @f_sei

20年12月6日

標準的な家庭で、国立大学に通うのに、奨学金をもらうのが普通になるとよくないと思う。給付でないものも奨学金と呼ぶことの問題もあるが、大半の人が社会に出たときに、まず借金を返すことから始めなければならないとなるのはどうなんだろうか。

タグ:

posted at 00:38:39

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 WAICの優秀さの証拠の1つ

添付画像はベルヌイ分布モデルで「表の出る確率」をwとしたときの、汎化誤差(2つのGE)と情報量規準(AIC, WAIC, LOOCV)の期待値のサンプルサイズnでのプロットです。

すべてが一致してほしいのですが、nが小さいときAICだけ外れている。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/te6tUamHv6

タグ: 統計

posted at 00:38:04

清 史弘 @f_sei

20年12月6日

そういえば、国立大学の学費、何とかならないものだろうか。昔の私立大に近づいているよ。

タグ:

posted at 00:34:31

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 『統計学を哲学する』にはベイズ統計版の非常に優秀なAICの類似物であるWAICについて言及がありません。

渡辺澄夫『ベイズ統計の理論と方法』も引用されていない。渡辺さんの本やウェブサイトにある講義録には哲学にも良い影響を与えそうなことが沢山書いてあります。

タグ: 統計

posted at 00:31:14

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 このスレッドに私が書いた統計学がらみの事柄は個人的にwidely knownだと思います。

タグ: 統計

posted at 00:27:23

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 しかし、私が色々勉強した感触では、数学的な事柄が非常に難しく、その部分をどのように勉強するかが一番の問題になると思います。

証明がすでにある場合の証明をフォローして行くだけで一生が終わる危険性がある。コンピュータで具体例を沢山計算して効率よく納得する路線は必須だと思う。

タグ: 統計

posted at 00:25:24

Dr. nhayashi @nhayashi1994

20年12月6日

@physics303 レコメンドのほうはちょっとわからないんですが、地点=ユーザの訪問回数行列みたいなものだと、行列の要素がかなり大きくなるのでKL-NMFの方がいいと聞いたことがあります

タグ:

posted at 00:24:48

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 すでに統計学内で流通している「ベイズ主義」「頻度主義」「尤度原理」などなどに関する杜撰な考え方と哲学を結び付けるのではなく、旧来のくだらない統計学の分類には付き合わずに、私が以上に述べたようなことから得られるインスピレーションから新たに哲学を展開できていれば素晴らしかった。

タグ: 統計

posted at 00:21:21

yudai.jl @physics303

20年12月6日

@nhayashi1994 ありがとうございます!!

まだちょっとピンと来てないのですが、
1.行列の値が大きい時
2.過小推定されるのが嫌(過大推定の方が良い)
場合はEUC-NMFより、KL-NMFの方が適切という事ですよね…?

2を考えると、レコメンド機能を作る時とかは、KL-NMFの方が良いのかなと思いました。

タグ:

posted at 00:21:01

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 『統計学を哲学する』では、AICについて理解しているとはとても思えない説明をしており、以上で述べたようなベイズ統計の話とも結び付けることに見事に失敗しています。

統計学内で流通している杜撰な俗説と哲学を結び付ける方針だから当然そうなる。

タグ: 統計

posted at 00:17:58

Hiroyasu Kamo @kamo_hiroyasu

20年12月6日

@temmusu_n 自称教員が教員であることの確認ができていませんので、今年は教員を詐称するのが流行っている可能性も排除できません。

タグ:

posted at 00:17:44

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 モデルを複雑にすると推測の収束が遅くなるという以上で述べたような話は、AICやWAICなどの情報量規準の話題とももろに関係があります。

最尤法とかベイズ統計とかその手のつまらない分類と無関係に、普遍的な数学的な考え方はどこでも通用します。

タグ: 統計

posted at 00:15:30

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 そのおかげで、モデルのパラメータ空間の次元が無限次元であっても、ベイズ統計を使えば実用的な推測ができる場合が出て来ます。

Gauss過程回帰はそういう無限次元のモデルによる推測法の典型例になっています。Gauss過程回帰では表には見えていない事前分布でかなり強烈な制限がかかっている。

タグ: 統計

posted at 00:12:27

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 ベイズ統計の場合には、モデルの「サイズ」(←定義していない曖昧な用語なので注意!)を小さくするために、事前分布の台を小さくするという手段も使えます。

だから、その分だけ、ベイズ統計ではモデルの確率分布族を大きなものにしても実用的な推測ができます。続く

タグ: 統計

posted at 00:07:59

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 適用可能なモデルの種類は減りますが、最尤法の場合でもまったく同様です。

あらゆる可能性に配慮した超巨大なモデルを使うと、その巨大さの分だけ、観測の繰り返しによって推測が最良の場合に収束するまでの時間が長くなることを数学的に証明できます。続く

タグ: 統計

posted at 00:05:08

黒木玄 Gen Kuroki @genkuroki

20年12月6日

#統計 つまり、真理が何であってもモデル内で十分によく近似できると思われるところまでがモデルを徹底的に拡張しておいた方が良いはずだと考える人も出て来るはずです。

しかし、それは現実にはうまく行きそうもないことが、ベイズ統計について数学的に分かっています!続く

タグ: 統計

posted at 00:02:22

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました