黒木玄 Gen Kuroki(@genkuroki)/2022年09月17日

高雄啓三 (Keizo TAKAO) @keizotakao

#Jupyter を使うときのコツは

restart & run all

できる状態を保つように気を使うことだと思います。

これを止めると再現性が確保できなくなりがち。

タグ： Jupyter

posted at 00:04:44

おお。
（因果関係は分かりませんが）ネットで騒がれたということもこういう決着になることに貢献したかも知れませんね。
なんせ Twitter で報告してるぐらいだし。 twitter.com/univkyoto/stat...

タグ：

posted at 00:18:17

Miles Cranmer @MilesCranmer

Thanks to the heroic work of @markkitti and @ngamagn, conda-forge can now directly install Python-Julia packages!

This means that installing PySR – which has Julia and Python dependencies – is now just one step: pic.twitter.com/X3u5rJfGGT

タグ：

posted at 03:55:07

Miles Cranmer @MilesCranmer

@markkitti @ngamagn Forgot link... github.com/MilesCranmer/P...

タグ：

posted at 03:58:50

*pending review by @condaforge core twitter.com/MilesCranmer/s...

タグ：

posted at 04:53:09

The advance here moves the pysr.install() step, which installs Julia packages, into the build step of a conda-forge package.

This includes the Julia dependencies in a depot included with the PySR conda-forge package along with predefined Julia environment.

タグ：

posted at 04:53:09

This approach is not perfect. It does not automatically install the packages into the user's default Julia environment. Instead it provides a dedicated one which PySR uses by default.

タグ：

posted at 04:53:10

Overall, the approach aims to provide a better user experience when using Python and Julia together. It provides new options for how we could integrate #Python and #JuliaLang in the future.

タグ： JuliaLang Python

posted at 04:53:10

My technical summary of the updated conda-forge feedstock is here:
github.com/conda-forge/py...

タグ：

posted at 04:53:11

jump pic.twitter.com/SRGPAR9QMA

タグ：

posted at 06:42:13

jump pic.twitter.com/x5YsOxwnwY

タグ：

posted at 06:43:41

jump pic.twitter.com/pzDIwRxHaF

タグ：

posted at 06:44:24

jump pic.twitter.com/6N43m66jyG

タグ：

posted at 06:45:49

もぐさんの件については

genkuroki.github.io/fc2/goyo.html
原発業界御用学者リストのウィキの記録

に残してある記録も参照。

悪を行う側が正義の側だと誤解していた人達が普通に沢山いたときの話。人間的にクズな学者の側が影響力を持っていた。 twitter.com/nobuko_kosuge/...

タグ：

posted at 06:56:38

naocchin @naocchin1

＞尾身茂会長は分科会後に会見し、「『普通の病気』にするということになれば、ロードマップ（工程表）をステップごとに議論した方がいい」という意見が多数を占めたと説明

「ならば」を省いてミスリード
↓
朝日の見出し
「普通の病気」扱いに変える道筋検討へ
www.asahi.com/articles/ASQ9J...

タグ：

posted at 06:57:51

naocchin @naocchin1

別の報道も見ると

＞▼コロナを普通の病気として扱うためのロードマップをつくるべきとの意見が出た一方で

＞▼感染者数が増えれば死者もかなり増えるとの指摘や

＞▼インフルエンザとの同時流行を見据えた第8波対策を考えるべきとの慎重な意見も出たということです

approach.yahoo.co.jp/r/QUyHCH?src=h...

タグ：

posted at 07:04:15

naocchin @naocchin1

系外惑星・恒星bot @taiyou_keigai

↑
このキャプチャは切り抜きの意図を感じてしまうけど

とにかく、今まで尾身先生の会見と報道を見てきて、正確な専門家先生の考えや意見を知るには、自分の目と耳でノーカットを確認しなければならない

タグ：

posted at 07:56:02

【ティーガーデン星】
12.5光年の距離に存在する赤色矮星。地球サイズの2つの惑星b, cが見つかっており、4.9日と11.4日の周期で主星を公転している。いずれもハビタブルゾーンに位置するとされている。pic.twitter.com/AjKTRN6TFY

タグ：

posted at 09:01:20

ゾンビペンギン＠英検1級勉強中 @tamotamo_lang

#統計

ベイズ統計における「2次近似」=「(多変量)正規分布近似」

と

最尤法＋信頼区間などを定義するための正規分布近似

が同等になる場合については、Statistical Rethinkingも参照してください。

xcelab.net/rm/statistical...
xcelab.net/rmpubs/sr2/sta... pic.twitter.com/m06eSVrIOg

タグ：統計

posted at 09:02:22

あさくら（鰻より穴子派）スンデル @arthurclaris

たぶんやれてない。その教科の理解不足ゆえに間違ったことを教えてしまってるケースが多すぎる。いわゆる超算数がその典型的な例。

ただ、これは小学校の先生だけが悪いというより、小学校のシステムの方にも問題がある。 twitter.com/quattro_teache...

タグ：

posted at 09:33:39

あさくら（鰻より穴子派）スンデル @arthurclaris

黒木さんのツイートのリンク先、ウラン残土レンガに関してちょっぴり言及がありますが、話のネタにするためにウチの花壇に利用させてもらってます。
まあ、そんなどうでもいいレベルの放射能に騒ぐ人が関与してたってことですね。
twitter.com/genkuroki/stat...

タグ：

posted at 10:51:37

境界に人形峠ウラン残土レンガを使った我家の花壇。 pic.twitter.com/YuoA3Ya0d2

タグ：

posted at 10:54:14

@makemefree0813 >ただ学習指導要領の中での【算数】というものの掛け算の位置付けがあるので…

「あるので…、」の続きは何でしょうか？

タグ：

posted at 13:08:49

@makemefree0813 twitter.com/makemefree0813...

分岐を避けるためにこちらで返信します。

3つの関係が分からないのですが、どういう事でしょうか？

タグ：

posted at 13:10:08

@makemefree0813 twitter.com/makemefree0813...
あーさんは小学校教員をなさっていた時に、

「かけ算順序をきちんと指導」していたのでしょうか？

また、現在中学校教員とのことですが、数学を教えているのでしょうか？

タグ：

posted at 13:11:59

adhara_mathphys @adhara_mathphys

拳法学者 SATOH AKIRA @kodomokateicho

この論文が水素原子に潜むtwisted affine Kac-Moody代数(so(4)あるいはso(3,1)のどちらか作っても良い，twistするためのリー代数自己同型はパリティ演算子で定義する)というものです．
構築方法が自然(物理の考えとマッチする)ので紹介したいと思います． twitter.com/adhara_mathphy...

タグ：

posted at 16:19:39

みはじ　きはじ　発見
#超算数 pic.twitter.com/jf8BXoRqDF

タグ：超算数

posted at 16:25:24

#統計【信頼区間の定義はわかるんだけど、実用的にどういう時に使うんだってくらい説明しづらい、イメージしづらい量な気がするの気のせい？】のような感想が出がちな主な理由は、

　信頼区間警察(理解度の低い迷惑な指摘者達)

がおっそろしく低レベルな言説を広めているからだと思われます。続く

タグ：統計

posted at 17:37:07

#統計信頼区間警察は以下を強調する。

❌「95%信頼区間に真の値が95%の確率で含まれる」という解釈は誤りだが、ベイズ統計の95%信用区間についてそういう解釈は正しい。

❌仮に標本の無作為抽出と95%信頼区間の計算を繰り返せば、真の値を含む区間の割合は95%になる。

これはどちらも誤り。続く

タグ：統計

posted at 17:37:08

#統計そういう信頼区間警察のどこがひどいのか？その手の信頼区間警察は、

* 信頼区間の計算に使った統計モデルが妥当でない可能性に無頓着である。

* 通常の95%信頼区間についても、ベイズ統計の95%信用区間についても、95%は統計モデル内でのみ成立している数値に過ぎないことがわかっていない。

タグ：統計

posted at 17:37:09

上松正和 @Uematsu1987

無報酬での取材って確かに事件などの目撃情報などでは嘘ついて報酬を得ようとする人が出ないようにするっていうお題目は成り立つと思うけど、專門家が専門知を提供するのに無料じゃないと本当の事を話さないっていうのは流石に無理がある。「専門家」になりたがる人が無料で応えそう。

タグ：

posted at 17:44:21

#統計さらに、統計学入門で出会うシンプルな統計モデルの場合には、通常の95%信頼区間とベイズ統計の95%信用区間は近似的に一致し、それらを必死になって区別する必然性はない。

タグ：統計

posted at 17:49:53

#統計信頼区間警察達は、

* シンプルなモデルにおいて区別する必然性がない95%信頼区間とベイズ統計の95%信用区間の区別に必死になっている

というミスリーディングな行為をしながら、

* 95%信頼区間の95%は現実の母集団と無関係に決まる統計モデル内部での値に過ぎないことが分かっていない。

タグ：統計

posted at 17:49:54

#統計モデルの妥当性に関する議論が常に必要であるという科学的な常識を無視して、

❌現実の母集団から無作為抽出を繰り返して95%信頼区間を計算し直せば、その中の95%の区間に真の値が含まれる

というようなデタラメを語る一方で、区別無用の場合にベイズ95%信用区間との区別を他人に強要する。

タグ：統計

posted at 17:49:55

#統計モデルと現実の区別を曖昧にする議論は非科学的な議論の典型例なので、信頼区間警察達は非科学的であると言ってよい。

単に非科学的なだけならまだましなのだが、3×4と4×3の区別が無用なのと同じ理由で区別無用な場合にまで、信頼区間とベイズ信用区間の区別を他人に強要する。

タグ：統計

posted at 17:49:56

#統計 A×BとB×Aの区別はかけ算が非可換な場合にだけ行えばよいのと同じように、通常の信頼区間とベイズ的な信用区間の区別はそれらが大きく異なる場合にのみ行えばよい。

タグ：統計

posted at 17:49:57

#統計 95%信頼区間もベイズ的な95%信用区間も

　現実に得られたデータの数値

と

　統計モデル+パラメータ値

の相性の良さ(両立性、compatibility、整合性、consistency)の様子を閾値を設けて見ているに過ぎない。

タグ：統計

posted at 18:04:54

#統計例えば、標本の数値から正規分布の標本分布モデルを使って計算した平均の95%信頼区間が[L, U]であるとき、

　正規分布の標本分布モデルと
　信頼区間に含まれるパラメータ値の組と
　データの数値について
　5%の閾値で整合性がないと判断されない

と解釈されます。整合性の指標がP値です。

タグ：統計

posted at 18:04:55

#統計要するに、95%信頼区間に含まれるのは、現実の母集団に関する値ではなく、モデルのパラメータ値が含まれているのです。これはベイズ信用区間でも全く同様です。

例えば正規分布は平均μと分散σ²をパラメータとして持つが、平均の信頼区間には正規分布モデルのパラメータμの値が含まれる。

タグ：統計

posted at 18:04:56

#統計 P値や信頼区間やベイズ統計での事後分布や信用区間が、

❌現実の母集団に関する何かを表している

のように性急に考える傾向がすべてをダメにしているのです。それらは

⭕️データの数値とモデルの両立性(compatibility)の様子を表している

に過ぎないのです。

現実とモデルの混同は非科学的。

タグ：統計

posted at 18:04:57

#統計パラメータ値θが95%信頼区間や95%信頼区間に含まれないことは、

　相性の良し悪しの判断に関して5%の閾値を設けたときに、
　統計モデルとパラメータ値θの組がデータの数値と
　めっちゃ相性が悪い

ということを意味しています。

モデル+パラメータ値

と

データの数値

の相性を見ている。

タグ：統計

posted at 18:09:01

#統計統計モデルの存在が見えている人にとっては

　統計モデル+パラメータ値

と

　現実で得たデータの数値

の相性の良さ(両立性、整合性)を見ているという解釈の仕方は、本当は単純でで分かりやすいはず。

分かり難くなっている理由は、デタラメな考え方にすでに洗脳されているからでしょう。

タグ：統計

posted at 18:12:43

#統計

⭕️統計モデル+パラメータ値と観測データの数値の相性の良さ(両立性、compatibility、整合性、consistency)を見ている

という解釈の強調は、私個人の考え方ではありません。

P値の正しい使い方に関する専門家達の間ではスタンダードになっています。

以下、その証拠となる文献を挙げます。

タグ：統計

posted at 18:16:19

#統計まず、アメリカ統計学会が出した『P値に関するASA声明』。日本語訳を

www.biometrics.gr.jp/news/all/ASA.pdf

で読めます。その最初の原則に、P値はデータと統計モデルが矛盾する程度を示す指標だと書いてあります。「統計モデル」にはパラメータの値に関する仮説が含まれています。 pic.twitter.com/kOzb7mGh1b

タグ：統計

posted at 18:20:35

#統計 natureに掲載された統計的有意性への反対に800人の科学者の署名があったというこれまた有名な記事

www.nature.com/articles/d4158...

ではconfidence interval (信頼区間)をcompatibility interval (両立区間)に言い換えています！

P値の使用に反対していないことにも注意。 pic.twitter.com/Soukk1ymJs

タグ：統計

posted at 18:36:51

#統計偏見に心が支配されているせいで、論理的に考えることができなくなっている人達の多くが、『P値に関するASA声明』や『科学者達による統計的有意性に対する反対』について、「P値の使用はもうダメだと言われている」のようにひどく誤解しているので要注意。

P値の使用には誰も反対していない。

タグ：統計

posted at 18:36:52

#統計「違い無し」の型のたった1つの仮説のP値が5%を切るか否かで一喜一憂する明らかに非科学的な馬鹿げた行為が非難されているだけです。

そして、P値や信頼区間を正しく(=自信過剰にならないように)使うことが提案されているのです。キーワードの1つがcompatibilityです。

タグ：統計

posted at 18:39:54

#統計 3つめの文献。次の最近の論文はcompatibilityという解釈に関する最もよい解説になっていると思います。

journals.sagepub.com/doi/10.1177/02...

以下の図もこの論文より。

P-value = compatibility
CI = confidence interval = compatibility interval

となっていることに注目。 pic.twitter.com/zxmm42vmX3

タグ：統計

posted at 18:44:06

#統計 P値や信頼区間は、単にデータの数値とモデル+パラメータ値の両立性(または整合性)の様子を表しているに過ぎず、データを取得した現実の母集団に関する主張には直接繋がらないことが最重要ポイントです。

タグ：統計

posted at 18:48:32

#統計 P値や信頼区間をデータとモデルから計算しただけで、現実の母集団に関する結論が得られたかのような自信過剰にならずに、現実の母集団の話に繋げるために、P値や信頼区間とは別に、データとモデルと現実の母集団の間の関係について丁寧な議論を行う必要があります。

タグ：統計

posted at 18:48:33

#統計

* 取得したデータを見ることは調べたい母集団の様子を適切に見ていることになるか？

とか

* 使用したモデルは目的のために妥当であるか？

などは、科学的には当然議論しなければいけないことであり、P値や信頼区間を計算するだけでは、科学的にまともな議論にはなりません。

タグ：統計

posted at 18:52:01

#統計科学的に当たり前のことを当たり前にやることをサボる口実としてP値や信頼区間を使うことが非難されているだけで、難しい議論がされているわけではないという点が非常に重要だと思います。

難しい議論がされていないことが理解できれば、P値と信頼区間の解釈も易しくなります。

タグ：統計

posted at 18:54:15

#統計 P値や信頼区間を計算しただけで科学的お墨付きが得られたかのように振る舞う非科学的な連中をしばきあげることが必要なだけです。

P値や信頼区間の使用自体が非難されているわけではないです。

そして、科学的お墨付きとは違うcompatibilityによる解釈の普及が提案されているわけです。

タグ：統計

posted at 18:57:52

#統計以上で挙げた3つの文献

www.biometrics.gr.jp/news/all/ASA.pdf

www.nature.com/articles/d4158...

journals.sagepub.com/doi/10.1177/02...

を読めばわかるように、しばきあげ(批判)の部分よりも、P値や信頼区間の適切な使い方に関する丁寧な説明に多くの文字が費やされています。

添付画像は2つ目より。 pic.twitter.com/dsUJY1ruiI

タグ：統計

posted at 19:03:20

#統計以上で紹介した文献は非ベイズのP値や信頼区間に関する現在におけるスタンダードな考え方の代表例です。

私はその考え方はそのままベイズ統計の事後分布と信用区間にも拡張されると考えています。ベイズの場合はまだこの考え方は標準的でないですが、科学的には必要だと思います。

タグ：統計

posted at 19:06:45

#統計関連

通常の信頼区間とベイズ信用区間を区別する必然性がない場合については以下のスレッドにある例を参照してください。

例えば、以下のリンク先の場合に、2群の平均の差に関する信頼区間とベイズ信用区間の区別を強要することはナンセンスだと思います。

他にもそういう場合があります。 twitter.com/genkuroki/stat...

タグ：統計

posted at 19:20:52

#統計データの数値について、

　パラメータ値にP値を対応させるP値函数

とベイズ統計での

　パラメータ値に確率密度を対応させる事後分布

は似ており、どちらもデータの数値とモデル+パラメータ値の相性の良さの様子を表しているとみなせます。ベイズでは事後分布も含めて相性を見ている。

タグ：統計

posted at 19:24:26

いち @kanaya

足し算の順序問題まであるのか．気付かなかったな👉「かけ算の順序」なんてもう古い⁈　今や時代は「足し算の順序」‼︎ togetter.com/li/901635 #Togetter

タグ： Togetter

posted at 19:26:24

元素学たん @gensogaku

youtu.be/Z4eDGKyXZWE

この動画はかなりすごい。科学分析の目は欺くことができない。そしてこの周期表グッズを売り出した企業は倫理観が終わっている。

タグ：

posted at 19:59:04

adhara_mathphys @adhara_mathphys

水素原子の角運動量＆LRLベクトルの間の交換関係を計算すると，有限次元 Lie 代数を構成しないことがわかります． pic.twitter.com/bgzvvSxA5l

タグ：

posted at 20:48:31

逆になぜそんなものが必要なのか不思議。

a:b＝c:dなら、a/b＝c/d　b/a＝d/c　などが成り立つことを理解するのは重要だけど。

比の値は、前÷後ろ、であって逆ではない

などというのは、比の理解には何の役にも立たない。 twitter.com/w2Y3lkPhWhOwuq...

タグ：

posted at 21:12:42

#統計もしもχ²検定は正確なFisher検定の近似なので不正確という考え方をしているなら、誤解しています。

* Fisher検定のP値は過剰に高くなりがちで、検出力が弱くなり、その問題は小標本で特に悪化する。

* 意外なことにχ²検定の方がある意味正確な場合は結構多い。

実はトレードオフの問題。続く twitter.com/yoshiokatsuneo...

タグ：統計

posted at 21:37:13

やれてない。算数に関しては、かけ算の順序などいらんこと教えている。 twitter.com/quattro_teache...

タグ：

posted at 21:40:12

@senseioutdoor #超算数　塾で教えないでいても、学校でハジキだのミハジだの、かけ算の順序だの、等分除と包含除だの、有害なことを教わってしまうという、逆もあり得ますよね。

twitter.com/sekibunnteisuu...

タグ：超算数

posted at 21:44:25

#統計

添付画像は、標本が

①Bin(5, p)×Bin(8, p)
②Bin(10, p)×Bin(16, p)

で生成されているときの、P値がα以下になる確率のグラフです。その確率はαに近い方がよく、αを大きく超えるのもまずい。

Fisher検定ではαよりずっと小さくなります。

χ²検定はαに近い。

github.com/genkuroki/publ... pic.twitter.com/mz1xSG92v6

タグ：統計

posted at 21:47:55

#統計 Fisher検定のメリットは、P値がα以下になる確率を確実にα以下にできることです。

Fisher検定のデメリットは特に小標本でその確率がαよりずっと小さくなることです。その影響で検出力も下がります(添付画像)。

連続性補正無しのχ²検定は、以上と逆のメリットとデメリットを持ちます。 pic.twitter.com/WcTzK7076B

タグ：統計

posted at 21:51:26

@Dhukusi_Aigis @Z7Mv8pyqhdGNa5Y ＞なんでこんなに喧嘩腰なの？

散々喧嘩売る態度取った馬鹿の虎津がそれを言うかね？

しかも意味不明、支離滅裂。
twitter.com/Z7Mv8pyqhdGNa5...

タグ：

posted at 21:52:36

#統計 2×2の分割表でYatesの連続性補正を入れたχ²検定は、片側確率の2倍版のFisher検定の劣化版とみなせるので、現代のパソコンでは気にならない程度に計算が軽くなる以外のメリットがなく、使わない方が良いと思います。続く twitter.com/genkuroki/stat...

タグ：統計

posted at 21:54:20

#統計そして、χ²検定とFisher検定のどちらを使うかよりも、大事なことがあります。

Bin(m,p)×Bin(n,q)におけるpとqの違いの大きさと方向を測るための指標パラメータの取り方を決めて、最低でもその指標の信頼区間くらいは計算しておくべきだと思います。続く

タグ：統計

posted at 21:57:19

#統計 P値の使い方に関する現代の常識では、「違いがない」の型の仮説のP値を1つだけ計算して有意差の有無にこだわる態度はダメだということになっています→ journals.sagepub.com/doi/10.1177/02...

2×2の分割表の場合には、比率の差、比、オッズ比の3種の違いの指標がよく使われています。

タグ：統計

posted at 22:00:49

#統計単なる「有意差」を出して満足しないことが、常識にならないとまずいと思うのですが、このスレッドの上の方で指摘したようにRなどのよく使われている統計ソフトでの対応はまだ不十分であるように見えます。

タグ：統計

posted at 22:02:49

Hiromitsu Takagi @HiromitsuTakagi

おお、要説して頂いていた。「データは自然発生しない」は端的でいいですね。そこなんですよねえ。どこかで発生したもの（を取得したもの）の取扱規程というのが世間の誤解の最たるものなんですよねえ。発生させているのはデータ化した者であるわけで。
datasign.jp/blog/takagi1/

タグ：

posted at 22:04:36

#統計 Fisher検定は特に小標本においてP値が過剰に大きくなりまくるという意味でかなり不正確な検定であることは、論文でも指摘されており、専門家の間では常識になっているようです。

それに統計学教育が追いついていない感じ。

タグ：統計

posted at 22:05:34

Hiromitsu Takagi @HiromitsuTakagi

後編
datasign.jp/blog/takagi2/

タグ：

posted at 22:05:35

#統計 Fisher検定のフェアな評価については

連載第3回
医学データの統計解析の基本 2つの割合の比較
朝倉こう子・濱﨑俊光
www.jstage.jst.go.jp/article/dds/30...

も参考になります。

自分で使う統計学的道具の性質は自分で調べてから使う習慣にするのが良いと私は思います。 pic.twitter.com/RCBRHR3rjB

タグ：統計

posted at 22:08:43

#統計もう一度強調しておきますが、「有意差の有無」だけを出す方法は使わない方が良いと思う。最悪でも、違いの大きさと向きを測るための適切な指標を用意して、その指標の信頼区間も計算しておくべき。

論文 journals.sagepub.com/doi/10.1177/02... の解説がいろいろ分かりやすい。

タグ：統計

posted at 22:11:10

@yoshiokatsuneo #統計現実でのデータの取得法で、データのパターンが

4,0
0,4

3,1
1,3

2,2
2,2

1,3
3,1

0,4
4,0

しかなくなる場合は、ほぼ皆無なので、実践的にはこういう場合は無視しても問題ないと思います。

続く

タグ：統計

posted at 22:15:38

@yoshiokatsuneo その通りです。そういう場合を考えることはナンセンスです。 twitter.com/yoshiokatsuneo...

タグ：

posted at 22:16:13

@yoshiokatsuneo Fisher検定の方法は、P値がα以下になる確率を確実にα以下にするために、条件付き確率分布を経由してP値を定義する方法です。そのとき出て来る条件付き確率分布が超幾何分布になるわけです。

χ²検定の側は条件付き確率分布を経由せずに、最尤法の漸近論(Wilksの定理)から直接に得られます。

タグ：

posted at 22:19:21

@yoshiokatsuneo #統計

超幾何分布を経由すると超幾何分布の強い有限性によって誤差が増えます。

最尤法の漸近論は近似なのでやはり誤差が出る。

どちらも最初から不正確。

実際にコンピュータで計算して比較すると後者の方が誤差が小さい場合が多いという結論になります。

タグ：統計

posted at 22:21:47

主に仕事だけど、文章力つけたいなって思って、高校生様の文章の基本の本読んでるんだけど。意識高コンサル構文が、ボロカスにdisられてて草 pic.twitter.com/cUqbI89q0K

タグ：

posted at 22:22:00

😢

高校生様→高校生用

タグ：

posted at 22:25:14

@yoshiokatsuneo 念のために述べておくと、テイスティングティーの場合も誤差は出ます。

有限離散分布での検定の構成では、分布内での確率計算をどんなに正確に行なっても、可能なP値の値が有限種類しかなくなるという理由で必ず誤差が生じます。

タグ：

posted at 22:25:58

あ〜る菊池誠(反緊縮)公式 @kikumaco

こけおどし😢
【虚仮威し】
浅はかな見えすいたおどし。見せかけだけもっともらしく見せること。

虚仮威し（こけおどし）の意味 - goo国語辞書 dictionary.goo.ne.jp/word/%E8%99%9A...

タグ：

posted at 22:27:26

運営費交付金を毎年減らされて、ひとりあたりの年間研究費が5万だの10万だのという大学があるときに、大学にこれ以上改善の余地などありません。

日本の研究力が上がらないのはひとえに運営費交付金を毎年削るという財務省主導の「狂気の政策」によるもので、大学のせいではない。

敵は狂った財務省

タグ：

posted at 22:27:26

@yoshiokatsuneo 二項分布モデルの場合にも、確率を正確に計算しない方法の方がよりましになるという話があります。

Agresti-Coull 1998
Approximate is better than 'exact' for interval estimation of binomial proportions
scholar.google.co.jp/scholar?cluste...

タグ：

posted at 22:28:17

賛成同意を「アグリー」には、草

ビジネス用語の「アグリー」の意味とは? 使い方によっては誤解される? | マイナビニュース
news.mynavi.jp/article/201508...

タグ：

posted at 22:56:34

@yoshiokatsuneo 【フィッシャー検定もカイ二乗検定も正確でないとしても、、
nが小さいときはフィッシャー検定の方がマシ、
nが大きい時はカイ二乗検定の方がマシという感じのようですね。】

いいえ。その考え方はひどく間違っています。

トレードオフの問題にしかなりません。

根拠は既に示してあります。
↓ twitter.com/genkuroki/stat...

タグ：

posted at 22:58:59

@yoshiokatsuneo 以下のリンク先も参照(可能ならスレッド全体と示した資料全体も参照)。
↓ twitter.com/genkuroki/stat...

タグ：

posted at 23:01:54

@yoshiokatsuneo 【対立仮説の全パターンを洗い出して正確なp値を求めることならできる】

P値の計算に対立仮説は使用されないので、P値の定義自体を誤解していると思われます。

対立仮説の集合は検出力が高めのP値の定義を選択するときにのみ使われます。P値の定義を決めた後には対立仮説を計算では使わない。

タグ：

posted at 23:05:37

@yoshiokatsuneo 「正確なP値」という言い方自体が実は危険で、

　「統計モデルの分布内での確率の正確な値」

と

　「P値がα以下になる確率がαにより近いという意味でより正確なP値の構成法」

では意味が全然違っていて、検定で重要なのは、検出力にも影響する後者の意味での正確さです。

タグ：

posted at 23:17:56

@yoshiokatsuneo 既にソースコード全公開での計算によって、帰無仮説を満たす統計モデル内で(←この前提を以上で書くのを忘れていました)、Fisher検定のP値がα以下になる確率は特に小標本でαよりひどく小さくなり、χ²検定ではそうなり難いことを示しています。

χ²検定にも欠点があるのでトレードオフの問題になる。

タグ：

posted at 23:21:34

@yoshiokatsuneo Fisher検定は特に小標本では悪い性質を持つことが多いので、小標本でFisher検定を使う場合には、その悪い性質がどの程度であるかを自分で確認して、連続性補正無しのχ²検定と比較して、どれを使うかを決めればよいと思います。

タグ：

posted at 23:23:31

@yoshiokatsuneo そして、「有意差の有無」のような安易な2値的判断を避けるために、自分の目的のために適切な「違いの大きさと向きを測る指標」を定めて、最悪でもその指標の信頼区間ぐらいは計算しておくべきだと思います。P値函数のグラフ全体をプロットできるならそうした方がよい。 twitter.com/genkuroki/stat...

タグ：

posted at 23:26:14

@yoshiokatsuneo ABテストの文脈で使える「比率の差」「比率の比」「オッズ比」の指標に関するP値函数の私による実装例が

nbviewer.org/github/genkuro...

にあります。ベイズ的な方法まで実装してあります。

ただし #Julia言語

タグ： Julia言語

posted at 23:31:50

@yoshiokatsuneo #統計【検定は、有意水準を決めてから、p値との大小を比較するので、p値の正確な値自体は重要ではなく、(p値と比較される)有意水準の方が重要と理解しました。】

それは理解ではなく、誤解です。

タグ：統計

posted at 23:35:05

@yoshiokatsuneo #統計一般的に通用する議論を正確に行うことは難しいので、自分で複数のP値函数を実装してみて、適当な統計モデル内でP値がα以下になる確率のグラフを描くところまで行ければ、多くのことを理解できると思います。

私がソースコードを全公開している理由はそのときに役立てて欲しいからです。 twitter.com/genkuroki/stat...

タグ：統計

posted at 23:39:20

Ryo Suzuki @Reputeless

libc++ の std::hash が衝突しまくるケース 👀
github.com/llvm/llvm-proj...
任意の 8 文字の string の 4 文字目だけを変えると衝突しやすい。例: wandbox.org/permlink/qphzY... pic.twitter.com/q5jWykwsLA

タグ：

posted at 23:49:52