黒木玄 Gen Kuroki(@genkuroki)/2022年02月14日

#統計 1つ前のツイートにある定理の証明は結構非自明です。

定義が正しいかどうかの1つの判定法は「非自明な定理を満たしているか」です。

定義するだけなら何でもありなのですが、この意味で正しい定義は非常に稀。

タグ：統計

posted at 23:58:54

#統計このスレッドの意味での中央値 median(X) = quantile(X, 0.5) は次の定理を満たしています。

定理: median(X) = (E[|X - x|] を最小化するxの全体).

これは、Xの平均値μ=E[X]がE[(X - x)²]を最小化するxになっていることの中央値での類似です。上の定理の証明では微分を使えない。😁

タグ：統計

posted at 23:55:28

#統計以上の定義は、通常の標本中央値の定義を含んでいます。

添付画像上段は、標本サイズが奇数の場合に、中央値が一意的に決まることを示しています。

下段は、標本サイズが偶数の場合に、理論的には中央値が一意的に決まらない様子を示しています。中点を取れば「いつもの実装」になります。 pic.twitter.com/1vTkgJ5S0v

タグ：統計

posted at 23:50:25

#統計累積分布函数P(X≤x)の不連続部分を線分で結んでできるグラフと高さpの直線の共通部分の射影がquantile(X, p).

理論的にはquantile(X, p)が区間になる場合もあることにしておいた方が良さそうですが、コンピュータ上での実装では区間の中点を計算するようにしておいてもよいと思います。 pic.twitter.com/8Ox2h5uRy5

タグ：統計

posted at 23:38:01

#統計どこかで、

ℝ値の一般の確率変数Xのquantile(X, p)の定義をどうするべきか

という問題を見た感じがする。ヒストグラムの中央値の定義はその特別な場合。答えはこうだと思います：

quantile(X, p) = { x∈ℝ | P(X<x) ≤ p ≤ P(X≤x) }.

一般にquantileは区間になる。P( )は確率です。

タグ：統計

posted at 23:25:26

@genkuroki #超算数　「なにこれ！？」と言うのが多かったけど、最近は「うちにもいよいよ来たー😃」が多いですね^^

で「✖になっても気にしない」という人も増えてきて、頼もしい。

タグ：超算数

posted at 21:28:28

@sekibunnteisuu #超算数以前は、かけ算順序固定強制指導が日本の小学校で広く行われていると主張しても、全然信じてもらえなかった。

情報の拡散が加速しているような気がします。

みんなが本当の話であったことを知るようになり、「うちの子もこんな目にあった！」的な暴露が増えた感じがします。

タグ：超算数

posted at 21:24:14

心が乱れた時に見るgif @kokoromidaregif

#超算数

今年はもう秋到来です。 twitter.com/panpan10969/st...

タグ：超算数

posted at 21:11:08

#心が乱れた時に見るgif pic.twitter.com/J8gMc2YWQs

タグ：心が乱れた時に見るgif

posted at 21:08:12

佐々木徹 @tsukuba_tsasaki

立憲民主党内でhpvvについて正しい発言をされていた塩村さんが何か発言するか気になってましたが…

これはどういうこと？
うつることはないと否定しつつ、「後ろの世代に影響をしないという断言は難しい」とは。

これは、逢坂代表代行の発言を否定はしないということなのでしょうか。 twitter.com/shiomura/statu...

タグ：

posted at 19:42:47

panko@変態ホイホイ　7/9ミセスた @panpan10969

「掛け算の順序」に洗脳されているね。

こんなおかしな認識になってしまうのだから、掛け算の順序指導は恐ろしい😱 twitter.com/lingo66/status...

タグ：

posted at 18:36:27

出た、くだらん採点。 pic.twitter.com/up0zRuXZ6p

タグ：

posted at 17:02:16

グレッグ @glegory

黒田の前に金利を上げたいクズ野郎がひれ伏している。
いい気味だ。
デフレで賃金が上がらない状態で、ほぼノーリスクで金利収入を得ようなんて、とんでもなく厚かましい連中がいるんだよ。
黒田前は、これが常態化していた。
旧日銀はジャンクでなくてクレイジーだった。

タグ：

posted at 14:05:29

Haruhiko Okumura @h_okumura

（大島先生たちの「数学教育セミナー TeXによる教材作成」今年は3月5日Zoomか。Web上に情報はないのか）

タグ：

posted at 12:36:33

岸政彦 @sociologbook

銀杏(ぎんなん)@将棋ライター @ginnan81

74・1％と34・6％、、、、こんなに開きが。 twitter.com/ssimtok/status...

タグ：

posted at 12:22:35

『ハンター×ハンター』の架空の盤上競技『軍儀（ぐんぎ）』が驚きの商品化で本日より予約開始。作品内の描写をもとに駒や盤、ルールを完全再現 | ゲーム・エンタメ最新情報のファミ通.com www.famitsu.com/news/202202/14... @famitsuより

タグ：

posted at 12:18:58

こなみひでお @konamih

実はこのロジック。反ワクチンの高橋徳というトンデモ医師がYouTubeでトクトクと説明して，沢山の人を騙していたのと同じです。幸いにして，その動画は不適切な内容を含むとして削除されていますが。

タグ：

posted at 12:18:51

こなみひでお @konamih

コック：あの中村シェフ！塩加減は1.5%か0.5%とどっちがいいんですか？

中村シェフ：バカヤロウ，1%しか違わないだろうが🤖！

コック：じゃ 1.5%でいきます😅！

客：なんだこのスープ，塩辛くて飲めねえじゃねえか🤬🤬

こういうことですよね。

タグ：

posted at 12:15:46

非公開

タグ：

posted at xx:xx:xx

タビトラ @tabitora1013

宇野昌磨は900gの低出生体重児だし、ショーンナントカはファロー四徴症術後！医療者としては目の前の患者がオリンピアンになるかもと思って接しないと！って、いい話のようだけど、どの患者も同じように治療してくれや…何者にならずともええやんけ
非医療者ならともかく医療者でそれはちょっと…

タグ：

posted at 12:12:18

こなみひでお @konamih

悪意の嘘か頭が悪いのか。こんな「ワクチンの効果は数字のトリック」論。1億人でこの数字を考えてみます。

接種しなかったらー88万人が発症
接種したら―4万4千人が発症

一部の人は気の毒ですが，1/20に減って，84万人が発症しないで済むではないですか。だまされちゃダメ。
ameblo.jp/t-nakamura17/e...

タグ：

posted at 12:08:20

ヨッピー @yoppymodel

他にも「母乳よりミルクの方が腹持ちが良い」「睡眠時間の長さと成長の度合いはあんまり関係ない」とか色々と解明されつつあるらしい！

タグ：

posted at 12:05:58

ヨッピー @yoppymodel

おーい！
「育児の大変さって、赤ちゃんによってめちゃめちゃ変わるのでは！？」っていう記事を書いたよ！
ビッグデータの解析で赤ちゃんのことが徐々にわかるようになってきてるそうです！朗報！

睡眠時間、授乳回数、排泄回数...17万人のビッグデータで知る赤ちゃんのこと
lidea.today/articles/003175 pic.twitter.com/bBh4OZnND1

タグ：

posted at 12:03:10

#統計このフレッドのすぐ上野部分に書いた「例」達の説明は、大学での講義の内容とは違っていて、互いに矛盾している場合が多いと思います。

その場合にはどちらかが間違っています。

個人的には、私が間違っているなら、そのことがわかるような権威に頼らない批判があると非常にありがたい。

タグ：統計

posted at 11:45:19

#統計

* 2×2の分割表の独立性のFisher検定では、第一種の過誤の確率を確実に名目有意水準以下にできるという利点がある。

* 標本サイズが小さい場合の検出力は低くなる。この点では(小さな標本サイズで)χ²検定に劣る。

* χに検定とFisher検定をの使い分けではトレードオフの理解が必要。

タグ：統計

posted at 11:41:09

あ〜る菊池誠(反緊縮)公式 @kikumaco

#統計例

* 2×2の分割表の独立性のχ²検定は、本質的に中心極限定理を使っている。

* 中心極限定理による近似は結構小さな標本サイズでも有効なことをコンピュータで確認できる。コクランルールは誤りである。

* イェーツの連続性補正は過剰に保守的なのでいかなる場合も使うべきではない。

タグ：統計

posted at 11:36:09

感染防止の意味での新型コロナ対策は欧米諸国に比べればうまくいっているのですが、経済支援策があまりにもしょぼいと思います。
国が今金を出さずにいつ出すのか。
雇用を悪化させず、企業・商店を倒産させないために国は大規模な経済支援を行うべきです。
財務省の顔色を伺っている時ではありません twitter.com/kikumaco/statu...

タグ：

posted at 11:09:20

証拠になる計算例を作ることはとても楽しい。

タグ：

posted at 11:02:30

#統計私は統計学はど素人なので、批判的なコメントを歓迎します。有益な指摘は吸収するつもりです。

上手に指摘してくれれば、多分私の側は私が間違っていたことの証拠となるようなコンピュータによる計算例を示すことになると思います。

タグ：統計

posted at 11:01:51

#統計例

* Brunner-Munzel検定では、中心極限定理を使って、

p = P(X<Y)+P(X=Y)/2 = 1/2

という仮説をテストする。

* 中心極限定理を使っているので、標本サイズが小さ過ぎる場合には使わない方がよい。

* この検定を「中央値が等しい」という仮説の検定だと説明することは誤り。

タグ：統計

posted at 10:58:56

#統計 Mann-WhitneyのU検定についてコメントがあれば聞いて見たいです。

特に、どのような場合に有用なのか知りたい。

タグ：統計

posted at 10:53:37

#統計例

* Mann-WhitneyのU検定は、2つの標本が同じ分布の標本であるか否かの検定になっている。同分布の仮定は恐ろしく強く通常は成立していないと考えられる。

* 同分布の仮定が強過ぎて、実践的な場面では検定の結果の解釈が難しい。

タグ：統計

posted at 10:52:23

#統計例

* Welchのt検定における正規分布の仮定には必然性はない。さらにt分布は、正確な計算ではなく、大胆な近似の形で使用されている。

* 標本サイズを大きくすると、中心極限定理によって、正規分布の仮定の影響は小さくなり、t分布使用時の大胆な近似の誤差も小さくなる。

タグ：統計

posted at 10:46:49

#統計例:

* 2標本の平均に関するStudentのt検定における正規分布と等分散の仮定には必然性はない。

* 標本サイズが大きければ中心極限定理によって、正規分布の仮定の影響は小さくなる。

* しかし、2標本のサイズが異なるとき、等分散の仮定の影響は標本サイズを大きくしても小さくならない！

タグ：統計

posted at 10:42:46

非公開

タグ：

posted at xx:xx:xx

#統計入門的解説の段階から、そういうことから逃げない説明が必要。

しかし、過去の入門的教科書執筆者達はその辺に無頓着になり過ぎていた。

数学好きとしては結構悔しい現状になっているような気がします。統計学のややこしさは解説する側にとっても苦しい。

タグ：統計

posted at 10:35:02

#統計頻度論とかベイズ主義とか(尤度主義とか)言う暇があったら、

* モデルに含まれる必然性がない仮定をリストアップする。

* その必然性がない仮定の影響が小さくなる数学的仕組みはあるか？

のようなことを個別に地道に確認する方が健全だと私は思います。

タグ：統計

posted at 10:31:01

#統計例えば、さまざまな理由で検査対象の有病率がかなりよく分かっている状況は、事前分布がかなりよく分かっている稀有な状況であり、必然性が希薄な事前分布を採用するベイズ統計モデリングの典型的な状況とは全然違います。

混ぜると危険！

タグ：統計

posted at 10:27:24

#統計過去の経験がやデータが正規分布に近似的に従うことが分かっている場合には、正規分布モデルは(近似的に)正しいモデルになります。

そういう状況と平均値に関する中心極限定理を使う場合は区別が必要です。

これと同様の区別はベイズの場合も必要。その辺で雑な説明が結構多い。続く

タグ：統計

posted at 10:24:31

#統計純粋に統計学の範疇で「科学的なお墨付きが得られた！」となる場合はほぼないと思って問題がないと思う。

しかし、確率を完全に無視して麻雀を打っても勝てないのと同じように、統計学を無視するのも馬鹿げていると思います。

タグ：統計

posted at 10:16:29

#統計そして、どちらの場合にも共通していることは、「中心極限定理による近似が本当に有効になっているの？」とか、「事前分布の影響が本当に小さくなっているの？」という疑問は残るということです。

スッキリした議論にならない点が統計学の特徴だと思います。

ケースバイケースの話になる。

タグ：統計

posted at 10:13:26

#統計必然性のないパラメータθが一様事前分布に従うというベイズ的なモデルの設定も、サンプルサイズnが大きなときにベルヌーイ試行のモデルが良い漸近挙動を持つこと(n→∞で結果が事前分布によらなくなること)が使える場合には問題ではなくなります。(これも本質的に中心極限定理の帰結)

続く

タグ：統計

posted at 10:10:02

Tom Kwong @tomkwong

Pretty cool 😎
Have some fun with Makie.jl today!
#julialang #makie #fractals pic.twitter.com/P8cM0I96CG

タグ： fractals julialang makie

posted at 10:07:30

#統計この辺の事情を無視して、「正規分布を仮定できない場合にはその方法は使えない」と言うことは、事前分布の使用を異様に嫌うことに似ていると思います。

(頻度論とかベイズ主義というようなくだらない話と無関係に有効な方法の話をしたい)

続く

タグ：統計

posted at 10:06:49

#統計一見、正規分布を仮定しているように見える方法であっても、平均値の検定や推定のように中心極限定理が使える場合には、中心極限定理による近似が有効なときに十分に実用的な方法になります。

続く

タグ：統計

posted at 10:04:55

#統計そのモデルが「正しい」と言えるためには、現実で1と0のデータの列を得た行為自体が、パラメータθが一様分布に従って無作為に選択されたとみなされる状況であることの保証が必要です。現実的な状況では無理。

これは、現実的な状況で正規母集団の仮定に無理があることに似ています。続く

タグ：統計

posted at 10:00:26

#統計例えば、まずθを0〜1の一様乱数として生成して(θ=rand())、その後に0〜1の一様乱数列を生成して、

θ以上なら1、そうでないなら0

という函数を作用させる状況を考えると、パラメータθの事前分布が0〜1の一様分布のベルヌーイ試行の設定になる。これはベイズ統計のモデル設定で最も易しいもの。

タグ：統計

posted at 09:53:19

#統計 0〜1区間値の一様乱数列に、

θ以下ならば1、そうでないなら0

という函数を作用させると1と0の乱数列(ベルヌーイ試行)が得られ、

F(x) = ∫_{-∞}^x exp(-x’²/2)/√(2π) dx’

の逆函数を作用させると、正規分布の乱数列が得られる。

ベルヌーイ試行から入るより、こちらの方が発展性がある。

タグ：統計

posted at 09:45:42

Hiroharu Sugawara @hsugawa

本書を担当しました。本日発売です。 #julialang #Julia言語 twitter.com/DIGITALFOREST5...

タグ： julialang Julia言語

posted at 07:24:04

超勉強法でも、暗記数学を推奨していたので印象は良くない。 twitter.com/genkuroki/stat...

タグ：

posted at 07:20:34

Masahiro Hotta @hottaqu

芝浦工大の木村さんからお願いされた本日のトークですが、内容はこの話をさせて頂くことにいたしました。量子ゼノン効果は、「眼力」で量子系の運動を止めるものではなく、測定のために必要な相互作用が直接引き起こす物理現象に過ぎません。世間で言うところの「引き寄せの法則」とも関係ありません。 twitter.com/hottaqu/status...

タグ：

posted at 05:08:13

非公開

タグ：

posted at xx:xx:xx

Nithin Nithu @nithinnithu_m

Simpsons paradox through palmerpenguins dataset.. i love the plots in #julialang although customisation is easier in #RStats . pic.twitter.com/YquL5rd9rn

タグ： julialang RStats

posted at 02:20:20

Akiya Mizukoshi @Akiyah

アニメーションをoffにしてきびきび動くようにした。
akiyah.github.io/population_data/

しかし、あらためて2020年付近の出生数を見ると恐ろしくなる pic.twitter.com/RcH7n2lnDd

タグ：

posted at 01:14:34

非公開

タグ：

posted at xx:xx:xx

非公開

タグ：

posted at xx:xx:xx

#Julia言語の確率分布のフレームワークの1つであるDistributions.jlでは、自作したℝ上の連続的確率分布についてquantileメソッドを実装すれば、自動的にrandメソッドも使えるようになります。

それだと効率が悪い場合には多重ディスパッチでrandメソッドを独自に定義すればよい。

タグ： Julia言語

posted at 00:41:36

#統計 rand()の繰り返しについて親しみを持つことは

ℝ上の一般の連続的確率分布の乱数列
(≒独立同分布確率変数列)

に親しみを持つことに直結しているわけです。

rand()

と

cdf(dist, y) = F(y)
quantile(dist, t) = F⁻¹(t)
rand(dist) = quantile(dist, rand())

の関係は基本的。

タグ：統計

posted at 00:34:39

#統計 ℝ上の連続的確率分布distの累積分布函数の逆函数

F⁻¹(t) = quantile(dist, t)

が実装されている状況をイメージできれば、

rand()の実行結果の乱数列

にquantile(dist, t)を作用させて、

分布distの乱数列

が得られる様子もイメージできるはず。

タグ：統計

posted at 00:34:38

#統計累積分布函数の逆函数F⁻¹(t)はコンピュータではquantileという名前の函数として実装されていることが多い。

確率分布distのquantile(dist, t)函数が実装できれば rand(dist) = quantile(dist, rand())で確率分布distの乱数函数を作れる。1つ前のツイートで述べたことはこれを含んでいます。

タグ：統計

posted at 00:25:04

#統計任意のℝ上の連続的な確率分布に従う確率変数Yの累積分布函数を

F(y) = P(Y≤y)

と書くと(P( )は確率)、T=F(Y)は0～1区間上の一様分布の確率変数(≒乱数)になります。逆にTを0～1区間上の一様分布に従う確率変数なら、F⁻¹(T)はYと同じ分布に従う確率変数になります。

タグ：統計

posted at 00:25:03