黒木玄 Gen Kuroki(@genkuroki)/2020年11月15日

People are justifiably curious about this process—because it looks like magic. Here's a brief account from my book Healing Songs. pic.twitter.com/ebqA3g2PH4

タグ：

posted at 00:30:34

Iwao KIMURA @iwaokimura

Sageで計算していたら，種数が負の代数関数体を見つけてしまった :) pic.twitter.com/3pkyQrEecZ

タグ：

posted at 00:34:19

Ted Gioia @tedgioia

If you’re interested in learning more about Cymatics, this is the book to get. It’s expensive and hard to find—but an indispensable guide to Hans Jenny’s 14 years of meticulous experiments into the formative and organizing power of sound. pic.twitter.com/qdZ85OstUq

タグ：

posted at 00:45:03

Iwao KIMURA @iwaokimura

定義式が既約じゃないから，エラーになるのがほんとうなのである．

タグ：

posted at 00:47:06

nvidia-smi が出るようにしてこの通りやってみてGPU使ってRでの行列計算を速くできた：
Accelerated R with CUDA on Linux
clint.id.au/?p=1900
#rstats

タグ： rstats

posted at 01:07:13

こっちは試していないけれど参考になりそう：
Google ColaboratoryでRを使う
www.marketechlabo.com/google-colabor...

タグ：

posted at 01:09:34

Erik Engheim @erikengheim

I notice a lot of people don't seem to get how #REPL based #development works, meaning you develop using a command line. Here is an example of making a camel case to snake case function in #JuliaLang which can be pasted into text editor afterwards. #programming pic.twitter.com/Zv781wOUwi

タグ： development JuliaLang programming REPL

posted at 01:19:31

非公開

タグ：

posted at xx:xx:xx

#統計「伝統的な統計学」について、Fisher's exact testに関わるゴタゴタもウンザリさせられるような事態になっている。

* 2×2の分割表のχ²検定はFisher検定の近似に過ぎないので、可能ならば正確なFisher検定の方を使うべきだ(特に度数が小さい場合には)。

このデタラメを他人に教える人が多過ぎ。

タグ：統計

posted at 01:44:10

#統計一応念のためため述べておきますが、私は統計学についてはど素人。

そして、数学に関係した事柄については「教科書に書いてある」とか「査読論文に書いてある」のような事実を正しいことの証拠に挙げる人達を常日頃から「権威に基づいて正しさを判定するろくでもない奴らだ」と言っています。

タグ：統計

posted at 01:44:11

#統計

⭕️2×2の分割表のχ²検定の方法をサンプルサイズが大きな場合のFisher検定の近似によって導出できる。

という主張は正しいです。しかし、

❌χ²検定はFisher検定の近似としてしか導けない。
❌Fisher検定は正確である。
❌χ²検定の誤差をFisher検定との違いで測るのが正しい。

はどれも誤り。

タグ：統計

posted at 01:49:22

Massimo @Rainmaker1973

Hydodynamic levitation is not caused by the Bernoulli effect, which relies on the object being completely immersed in the upward-flowing fluid. It's more about Newton’s third law buff.ly/2OhUHd5 [source of the gif, Doseum, San Antonio, Texas, buff.ly/2Of2JDJ] pic.twitter.com/qhSDzADUF7

タグ：

posted at 01:50:01

StanもGPUに対応したみたいでアップデートはしたがまだ試してない。 twitter.com/katzkagaya/sta...

タグ：

posted at 02:02:54

直接リンクした方が良かったです。貼り直し。blog.mc-stan.org/2020/11/12/sta...

タグ：

posted at 02:04:16

サンプリングに使えるのか、よく分かってません。この辺かな？discourse.mc-stan.org/t/integrating-...

タグ：

posted at 02:26:27

明日読む…
mc-stan.org/math/opencl_su...

タグ：

posted at 02:34:49

Bruce Tate: grox.io @redrapids

@erikengheim @StefanKarpinski I like Julia's attention to making exploration like this easy.

タグ：

posted at 02:49:14

#統計 2×2の分割表のFisher検定が正確でないことは、コンピュータで以下を確認すればすぐに分かります。

* 固定された超幾何分布に従ってランダムに生成した2×2の分割表のP値がα未満になる確率がほとんどの場合にαより大幅に小さくなること。

* 特にサンプルサイズが小さい場合にそれは悪化する。

タグ：統計

posted at 03:17:57

#統計添付画像は a+b=7, c+d=13, a+c=9 を満たす分割表

a b
c d

の超幾何分布について、P値がx未満になる確率のグラフです。P値がx未満になる確率はxに一致して欲しいのですが、全然そうなっていない。

Fisher検定は強い有限離散性が原因でひどく不正確になります。

gist.github.com/genkuroki/085e... pic.twitter.com/K0H2X9GQQV

タグ：統計

posted at 03:21:31

#統計 a+b=7, c+d=13, a+c=9 を満たすサイズ20の超幾何分布に従うサンプルの場合には、Fisher検定において有意水準5%で第1種の誤りが生じる確率は1.7%を切っています(5%に近い方がよい)。 pic.twitter.com/Q39ZTHgHBV

タグ：統計

posted at 03:25:01

#統計添付画像は、a+b=7, c+d=13, a+c=9 を満たすサイズ20の超幾何分布に従うサンプルの場合の、χ²検定のP値がx未満になる確率のグラフです。

45度線に近いと正確なのですが、そこから大きく外れており、しかも有意水準5%で第1種の誤りが生じる確率は7%を超えている。

gist.github.com/genkuroki/085e... pic.twitter.com/O3yLWHvxCa

タグ：統計

posted at 03:28:59

Erik Engheim @erikengheim

@redrapids @StefanKarpinski Yeah, I find when working in other environment this kind of style of coding where you rapidly iterate towards a solution by adding one little thing at a time, is much harder. That Julia is very friendly towards functional programming helps a lot.

タグ：

posted at 03:30:09

#統計 a+b=7, c+d=13, a+c=9 を満たすサイズ20の超幾何分布に従うサンプルの場合の、χ²検定のP値がx未満になる確率のグラフだけを見ると、小サンプルにおいてχ²検定はひどく不正確で使うべきではないという俗説を信じてしまうかもしれない。

しかし、それは短慮であり、間違っています。 pic.twitter.com/0AlLxMS4tE

タグ：統計

posted at 03:31:07

#統計現実に得られる分割表

a b
c d

のデータを得るときには、周辺度数 a+b, c+d, a+c, b+d のすべてを固定することは通常不可能です。

現実には、分割表のデータは、予算の都合である期間内に得られた事例を集めたものかもしれない。その場合には周辺度数は何1つ固定されなくなる。続く

タグ：統計

posted at 03:34:28

#統計添付画像は、そのような周辺度数が何1つ固定されない場合(サンプルが独立性の帰無仮説を満たすPoisson分布の直積で生成されている場合)に、P値がx未満になる確率をプロットしたものです。a+b+c+dの期待値は20．

45度線に近い検定がより正確。

gist.github.com/genkuroki/085e... pic.twitter.com/rO4i0kvXZY

タグ：統計

posted at 03:38:42

#統計 a+b+c+dの期待値が20という小サンプルの場合に、データの生成のされ方についてより現実的な想定をしたならば、Fisher検定はひどく不正確であり、χ²検定の方がずっと正確であることが分かりました。

Fisher検定が正確だと書いてある教科書は間違っています。 pic.twitter.com/V2lcFqpAeA

タグ：統計

posted at 03:42:06

非公開

タグ：

posted at xx:xx:xx

#統計以上の計算で使った #Julia言語カーネルのJupyter notebook を

gist.github.com/genkuroki/085e...

で公開してあります。

そこで採用した数値を色々変えれば、特に小サンプルにおいてFisher検定は常にひどく不正確で、χ²検定は概ね正確である極端な場合にのみひどく不正確になることを確認できます。

タグ： Julia言語統計

posted at 03:45:31

#統計第1種の誤りの確率を名目有意水準より確実に小さくしたい場合にはFisher検定を使う価値がありますが、有望そうな知見を得るために使う場合には無用に検出力を下げてしまっているので注意が必要。

χ²検定は実際にコンピュータで確認すると想像以上に悪くない検定法であることも分かります。

タグ：統計

posted at 03:48:46

#統計私が #Julia言語を使ってやったのと同じことを #R言語でやりたい人は、Rのchisq.testがデフォルトでYates補正を入れてしまうことに注意を払う必要があります。

私が十分に正確であることを確認したχ²検定は補正なしのカイ検定です。Yates補正を入れるとFisher検定よりも不正確になります。

タグ： Julia言語 R言語統計

posted at 03:52:12

#統計率直に言って、2×2の分割表について「Fisher検定は正確である」とか「χ²検定はYates補正を入れるべきである」と他人に教えている人達は社会的に負の貢献をしていると思います。

教科書や講義に騙されて、教わったデタラメを次世代に伝える加害者側に転じている。

タグ：統計

posted at 03:55:14

#統計非常に残念なことに統計学は「お墨付きを得るための道具」として使われてしまっているだけではなく、2×2の分割表の独立性検定でχ²検定を使っている無実の人に対して、論文のレフェリーが教科書に載っている間違った考え方でいちゃもんを付けるというようなことが起こっているのではないか？

タグ：統計

posted at 04:00:09

#統計実際には、統計学を使った報告を行うところまで来れた人は論文のレフェリーに文句を言われずに済むように教科書の間違った説明に従うというようなことを行なっている場合が多いでしょう。

中には、面倒になって有益な知見を含むかもしれない報告をやめてしまう人もいるかもしれません。

タグ：統計

posted at 04:02:35

#統計 2×2の分割表の独立性に関する自由度1のχ²検定は、χ²検定の全体の基礎になっている非常に一般的な定理であるWilks' theoremから直接的に出ます。超幾何分布を経由する必要はありません。

Wilks' theoremについては私の過去ツイートを参照
twilog.org/genkuroki/sear...

コンピュータで遊べるネタ twitter.com/genkuroki/stat...

タグ：統計

posted at 04:09:17

#統計サンプルが独立性の帰無仮説を満たす各種の分布で生成されているときに、Fisher検定のP値がx未満になる確率がx以下になることの証明は、独立性の帰無仮説を満たす各種の分布の条件付き確率分布として超幾何分布が出て来ることから得られます。続く

タグ：統計

posted at 04:12:40

#統計 Fisher検定の理解を「サンプルのランダム化」という発想で済まそうとしている人達は不十分な理解にしか到達できません。条件付き確率分布として超幾何分布が出て来ることを経由したFisher検定の正当化についてもどこかで学ぶ必要があると思います。(私は自分で考えた。)

タグ：統計

posted at 04:15:59

#統計 2×2の分割表の独立性のFisher検定やχ²検定については、実践的にも理論的な理解についても、おかしな考え方をよく見かけます。

2×2の分割表の独立性検定は頻出の道具なので頭の痛い問題だと思います。

伝統的な教科書に書いてあるおかしな説明をそのまま次世代に伝える行為はやめるべき。

タグ：統計

posted at 04:19:51

#統計 Yates補正がダメなことについては以下のリンク先スレッドを参照。Yatesさん自身が1984年の論文にダメなことを書いているという事実を紹介しています。 twitter.com/genkuroki/stat...

タグ：統計

posted at 04:26:43

#統計私は統計学の専門的訓練を受けた経験が皆無のど素人に過ぎません。この点に注意して読むよう、お願い致します。

素人なので証拠に当たる情報は可能な限り出すようにしています。

例えばコンピュータを使った場合にはソースコードを全開示している。

タグ：統計

posted at 04:31:10

#統計 Fisher検定に付随する適切な信頼区間の話

Rでfisher.testを使うとP値と整合性のない不適切な信頼区間も表示されるのですが、Fisher検定に付随する適切な信頼区間の定義を知るためには、P値と信頼区間の表裏一体の関係を理解する必要があります。

タグ：統計

posted at 04:38:38

#統計 P値はモデルMとデータDで決まります。モデルがパラメータθで決まるとき、P値はパラメータθとデータDの函数だとみなせる。

データDから得られるパラメータθの信頼係数1-αの信頼区間を「P値がα以上になるパラメータθの範囲」と定義すると非常に便利です。

これをFisher検定でどう実装するか？

タグ：統計

posted at 04:43:22

#統計超幾何分布は期待値のオッズ比ωをパラメータに持つFisherの非心超幾何分布のω=1の場合に一致。

超幾何分布から作られる2×2の分割表AのP値は、Fisherの非心超幾何分布の場合に容易に一般化可能です。

これで、パラメータωと分割表AにP値を対応させる函数が得られ、ωの信頼区間も得られる。続く

タグ：統計

posted at 04:46:59

#統計以上のストーリーにおけるFisher検定におけるP値函数と信頼区間函数は #Julia言語ならば実質1行で書けます。詳しくは以下のリンク先を参照。 twitter.com/genkuroki/stat...

タグ： Julia言語統計

posted at 04:50:03

#統計 χ²検定における期待値のオッズ比ωのP値函数と信頼区間函数を定義するためには、Wilks' theoremを使う議論(最尤法の計算)をやり直す必要がある。

Wilks' theoremを使わずに超幾何分布経由でχ²検定を理解することにこだわると、こういうこともできなくなります。Wilks' theoremは基本中の基本。 twitter.com/genkuroki/stat...

タグ：統計

posted at 04:54:35

#統計 #R言語でデフォルトで使える fisher.test や binom.test が表示する信頼区間は表示されるP値と整合性がないので要注意。

どうしてそういう仕様にしているのか、私には理解不能。

おそらく「伝統に根差すろくでもない考え方」が原因だと思う。

みんな使っているソフトでさえ信用し切れない。

タグ： R言語統計

posted at 04:59:06

#統計データDから得られるパラメータθの信頼係数1-αの信頼区間を「P値がα以上になるパラメータθの範囲」と定義すると、多くの場合に教科書に書いてある標準的な信頼区間の定義に一致します。

この新たな信頼区間の定義はおそろしくクリアです。

続き

タグ：統計

posted at 05:09:54

#統計信頼区間の意味が分かりにくいのはこの定義を説明してくれないからだと思う。

αが有意水準なら、信頼度1-αの信頼区間は「検定で棄却されないパラメータθの範囲」でしかない。

使用したモデルについてパラメータθがこの範囲に入っていることを覚悟せよ、のような使い方をできる。

タグ：統計

posted at 05:13:19

泉智紀 @jsdfq43wtr

K値使うな

タグ：

posted at 05:23:32

非公開

タグ：

posted at xx:xx:xx

Massimo @Rainmaker1973

世界の動物図鑑@スマホケース販売中 @jamafra1243

John Bonner (1920-2019), was professor emeritus at Princeton and studied slime molds for 70 years. Beyond their remarkable ability to “think” and problem-solve, slime molds are just beautiful. This is a selection of molds films captured by young Bonner: buff.ly/2H1msZ8 pic.twitter.com/Zavd8MDiu2

タグ：

posted at 06:30:55

驚異的な富士山の影pic.twitter.com/NGYmUBwk70

タグ：

posted at 06:43:12

非公開

タグ：

posted at xx:xx:xx

大石雅寿 @mo0210

オカルト・疑似科学団体と密接な下村博文自民党政調会長。ワールドメイト系から500万献金の大臣も｜ニフティニュース news.nifty.com/article/econom... #経済総合 #ニフティニュース

タグ：ニフティニュース経済総合

posted at 09:04:33

カマキリ @t_kun_kamakiri

「FortranではじめるJulia set.」 twitter.com/t_kun_kamakiri...

タグ：

posted at 10:37:47

Takayuki Uchiba @utaka233

今日は、Statistician-ja の統計学勉強会第1回です。LTすることになったので、資料を作りました。1時間くらいの即席で作った資料ですが、発表を楽しんでもらえると嬉しいです。
speakerdeck.com/utaka233/stati...

タグ：

posted at 10:58:59

こいなぎ @naginyan135

【級位者向け実戦型詰将棋part316(佐藤大五郎先生作)】
この最難関７手詰めも

下の動画を見れば一瞬で解ける

◯参考動画
youtu.be/sDR-5rxv3n0 pic.twitter.com/To4IJ0k59q

タグ：

posted at 11:51:51

シカクガング @shikakugangu

リスこわ pic.twitter.com/7nutnUYnGK

タグ：

posted at 12:23:18

#統計信頼区間の復習

モデルM(θ) (θ∈Θ) のデータDに関するP値がpval(θ, D)のとき、データDから得られる信頼係数1-αの信頼区間ci(α, D)は

ci(α, D) = { θ∈Θ | pval(θ, D) ≥ α }

と定義される。αが有意水準のとき、

ci(α, D) = (データによって棄却されないパラメータθの範囲)

になる。

タグ：統計

posted at 12:40:16

#統計信頼度1-αの信頼区間ci(α, D)は、データDとP値函数pval(θ, D)によって有意水準α棄却されないモデルM(θ)のパラメータθの範囲なので、信頼区間を「その範囲にパラメータが入っている可能性が高い範囲」と安易に解釈してはいけないことが分かる。

タグ：統計

posted at 12:44:28

非公開

タグ：

posted at xx:xx:xx

#統計モデルM(θ)のデータDに関するP値は「モデルM(θ)内でデータD以上に偏った状態が生じる確率の近似値」として定義してやる。P値函数の定義は「モデルM(θ)」「データD以上に偏った状態」の定義と「モデルM(θ)内における確率の計算法」に依存して決まる。

タグ：統計

posted at 12:55:12

#統計こんな感じで、一般的なP値や信頼区間の定義を正確にした後では、P値や信頼区間の数学的定義から導出不可能な結論を俗説に従って出すことを防ぎ易くなる。

統計学を「お墨付きを得るための道具」として使って来た人達は「俗説」が通用しなくなると困るに違いない。科学的には困る方がよい。

タグ：統計

posted at 12:58:38

事後分布の現れ方もサンプルサイズ次第で変わりますよね。自分がベイズ統計学び始めたときこれは中々明確に捉えられなかったし入門段階では難しく感じると思うんですけど、そうでもない？

タグ：

posted at 13:03:42

#統計データとP値函数によって棄却されないモデルM(θ)の範囲をパラメータθの範囲で表示したものが信頼区間。

パラメータ値θでモデルM(θ)が棄却されないことは、検定のイロハより、パラメータ値θでのモデルM(θ)が確からしいことを意味しません。

こういうことを正確に議論することが大事。

タグ：統計

posted at 13:06:20

#統計統計学の「お墨付きを得るための道具」としての地位を守るために様々な「哲学っぽい響きを持つ俗説」を持ち出す議論はすべてずさんであり、まじめに相手をできるような議論にはなり得ません。

タグ：統計

posted at 13:08:46

#統計関連スレッド

以下のリンク先のスレッドではP値や信頼区間の解説をしている。 twitter.com/genkuroki/stat...

タグ：統計

posted at 13:10:44

ごまふあざらし(GomahuAzaras @MathSorcerer

#統計統計学がどのような数学的道具を利用しているかを明確にし、その数学的道具から導出できない結論を丁寧に排除して行くと、統計学が恐ろしく困難な不良設定問題を扱うために巧妙に作られた素晴らしい道具であることがより見え易くなります。

安易な俗説の使用は微妙な点を見えなくしてしまう。

タグ：統計

posted at 13:15:41

本当だこういう関数あったのか pic.twitter.com/BAAUvnN7X8

タグ：

posted at 13:17:48

#統計 1つ前のツイートのような言い方をすると、私の実際の感覚よりずっと堅苦しく聞こえてしまう。

このスレッド全体を眺めれば分かるように、コンピュータを気軽に使える現代においては、統計学で使われている数学的道具の性質をコンピュータによるシミュレーションを楽しみながら確認できます。

タグ：統計

posted at 13:18:28

Shogo Okamoto @shogookamoto

python遅すぎて捨てたい。Juliaとかいうのを使えばいいのか?

タグ：

posted at 13:18:41

もし自分がデータサイエンスなりの教育にかかわる場合（共同研究者に説明することも多いけれど）この確率変数列の関数値というところの例を多くして直観ができるようにできるだけ時間をかけたいとは思っている。

タグ：

posted at 13:39:11

積分定数 @sekibunnteisuu

#超算数

中日新聞11月13日(金)朝刊に岡崎勝氏　@umemoridai　のコラムが掲載されているらしい。掛け算の順序にも言及されているようだから、取り寄せて読んでみたい。

タグ：超算数

posted at 13:43:01

積分定数 @sekibunnteisuu

#超算数　 okazaki-oha.jugem.jp/?eid=74
＞渡辺靖敏さんという先輩に依頼されたからだ。渡辺さんは一時期一緒の職場にいていろいろと教えを請うた。数学・算数のプロで研究会にも参加させてもらったことがある。

タグ：超算数

posted at 13:44:37

積分定数 @sekibunnteisuu

#超算数　渡辺靖敏氏は、高校数学は「お手上げ」と言っているような人。「数学・算数のプロ」とは言い難い。19452051.at.webry.info/201801/article...

高校数学をまともに理解していない人が、

数学教育協議会の役員をやり、大学で教員志望の学生に算数指導法の講義をしていたというのも、凄い話ではある。

タグ：超算数

posted at 13:47:48

相互リンク twitter.com/genkuroki/stat...

タグ：

posted at 14:34:58

#統計添付画像2,3は『統計学を哲学する』の最初の部分より。

その本は、統計学の不適切な使用法である「お墨付き」の取得を正当化するために使用可能な哲学っぽい俗説を真面目な哲学の話題として扱ってしまっている極めてずさんな内容の本だと私は考えています。続く twitter.com/genkuroki/stat... pic.twitter.com/qYQdMpfUtF

タグ：統計

posted at 14:44:53

#統計実際には、標準的な事柄のまともな説明さえできておらず、どうしてこのような質の段階で出版されてしまったかについて疑問が出るような本になってしまっています。

この本を誉めている人達がこの本を順番に丁寧に読んだとは思えない。

例えば【期待値】【回帰直線】の説明が明らかにおかしい。 pic.twitter.com/XouFSw8fuN

タグ：統計

posted at 14:49:34

#統計『統計学を哲学する』については、文献を正しく引用していないのではないかという疑いも持っています。

実際には、『統計学を哲学する』の著者が書いているようなことが書かれていない文献をあたかも書かれているかのように引用している可能性がある。

どなたか確認して下さると助かります。 twitter.com/genkuroki/stat...

タグ：統計

posted at 14:54:34

#統計『統計学を哲学する』については、その中に大量に含まれているずさんな記述をきちんと訂正した後でないと、著者が本当にやりたかったことへの評価は不可能でしょう。

個人的には読者に大量の自力訂正を要求するような本が出版された時点でアウトだと思います。

タグ：統計

posted at 15:00:35

#統計個人的に数学の本によくある式の誤植や書き間違いの類は大目に見るべきだと思います。

『統計学を哲学する』の場合はそういうケアレスミスとは異なる誤り(著者の理解不足を示唆する誤り)が多いという印象があり、文献の引用も自分が理解していないことの丸投げをやっている疑いさえある。

タグ：統計

posted at 15:05:03

非公開

タグ：

posted at xx:xx:xx

非公開

タグ：

posted at xx:xx:xx

非公開

タグ：

posted at xx:xx:xx

TaKu @takusansu

@madfish19 つとむの数学の部屋
nakaguntta.main.jp/index.html
ページの下のほうにある、算数研究レポート第１弾・第２弾で、 #超算数情報が纏めてあります。
現在、１１号まであります。

タグ：超算数

posted at 15:29:53

Keno Fischer @KenoFischer

Somebody should write a @blender add-on that exposes the @MakiePlots scene graph and lets me do proper 2D animation of plots. Totally doable in pure #julialang code, but seems like it would be so much easier to just use a proper animation tool.

タグ： julialang

posted at 15:46:57

J. Ling @l_II_llI

@KenoFischer @Blender @MakiePlots I remember someone tried to make fluid simulation (?) with Julia and found it to be visibly faster than Python. Maybe this plug-in business is an immediately valid application.

タグ：

posted at 15:51:29

使う側が気にした方が勝ち目を増やしていけるから良いはずなんですよね。 twitter.com/nnunununun/sta...

タグ：

posted at 16:09:29

麻雀で「🀓が捨てられていればスジで🀐が通る可能性が高くなる」という推測の仕方を知っている人が、その推測法をどのように使うかについては、実際に麻雀を遊んでいる人の側が神経質になるべき事柄であるのは当たり前の話。

「スジだから🀐は通る！」などと安易に考える奴は負け組一直線だろう。 twitter.com/nnunununun/sta...

タグ：

posted at 16:19:11

#統計このスレッドに関係した事柄を私以外の人による解説で読みたい人には

www.jstage.jst.go.jp/article/dds/30...

がお勧め(添付画像)。

引用【いずれの手法にも一長一短があり、データ解析者は、よりよい判断をくだすために、適用する手法の特徴を十分に理解し、データの様相をよく観察せねばならない】 twitter.com/genkuroki/stat... pic.twitter.com/5qzEPJoKW3

タグ：統計

posted at 16:28:05

#統計学以下のリンク先の話題に限らず、

【いずれの手法にも一長一短があり、データ解析者は、よりよい判断をくだすために、適用する手法の特徴を十分に理解し、データの様相をよく観察せねばならない】

というアドバイスは、

　安易に「主義」の話にしてはいけないこと

を含むと思います。 twitter.com/genkuroki/stat...

タグ：統計学

posted at 16:33:03

#統計学各種の「主義」と無関係に確認できる統計学における数学的道具の性質をコンピュータの助けを借りて確認することによって理解を深め、自分が現在やっている仕事において、各方法がどのような長所と短所を持っていて、どれを選ぶと良さそうかについてはよく考えてみる。私はこれが普通だと思う。

タグ：統計学

posted at 16:36:57

#統計学「主義」と無関係に確認できる各道具の数学的性質を確認せずに、各方法ごとに異なる「主義」や「思想」があるというような考え方に陥るとずさんでダメな考え方になってしまう。

タグ：統計学

posted at 16:40:47

#統計学関連

ギャンブル(確率が絡むゲーム)での例えは多くの場合に適切。

統計学は決して「お墨付きを得るための道具」ではない。

社会的・制度的に「お墨付きを得るための道具」として使われてしまっていることは、「お墨付きを得るための道具」として適切であることを意味しない。 twitter.com/genkuroki/stat...

タグ：統計学

posted at 16:47:26

#統計既出の添付画像は『統計学を哲学する』の本文の最初の部分より。

【良かれ悪しかれ、～】の部分は正しくは「悪しかれ悪しかれ」であり、【お墨付き】へのろくでもない期待における哲学の重要性について説明することを出発点にした時点で、非常にまずい方向に進んでしまっていると思う。 pic.twitter.com/VGRNJQiMDr

タグ：統計

posted at 17:03:10

非公開

タグ：

posted at xx:xx:xx

サイズ固定でサンプルの現れ方で変わる事後分布のばらつき。サイズが小さくても推測はできるが情報は当然少なくなる。「ベイズだとサンプルサイズ設計は必要ない」という危険な文言を見たことがあるので注意が必要と思う。 twitter.com/katzkagaya/sta...

タグ：

posted at 18:10:03

Juliaの新しい入門書です！機械学習・深層学習関連パッケージとその使い方も解説されています。

『基礎から学ぶJulia ~基本文法からデータサイエンスまで』
「5-1 機械学習・深層学習関連パッケージとその使い方
　5-2 Knet.jl の使用例
　5-3 ScikitLearn.jl の使用例」
amzn.to/3nn3I5Z

タグ：

posted at 18:29:50

第１章 Julia をはじめよう
　1-1 Julia の特徴
　1-2 Julia のインストール
　1-3 Julia の起動と終了
　1-4 Jupyter Notebook にJulia を追加するには

タグ：

posted at 18:30:14

第２章プログラミング言語Julia
　2-1 Julia のREPL
　2-2 プリミティブデータ型と演算子
　2-3 関数
　2-4 Julia のデータ型
　2-5 コレクション
　2-6 モジュール
　2-7 メタプログラミング
　2-8 外部プログラムの呼び出し
　2-9 パッケージ
　2-9-1 パッケージの管理

タグ：

posted at 18:30:23

「本書は、Juliaに初めて触れる方を想定したJuliaの入門書です。基本的にプログラミング言語の使用経験のない方を想定して書かれています。」

タグ：

posted at 18:30:57

残り37件のツイートを見る

「しかし、Juliaを使用するにあたってPython や R など他のプログラミング言語のライブラリやパッケージをインストールして、パスを通す必要があることも紹介していますので、そのような部分は、Python や R など他の言語の知識が多少あれば便利です。」

タグ：

posted at 18:31:10

「実際には、データサイエンスを学ばれる方は、R か Python を使用されることが多いですし、また、データサイエンス言語として、R や Python に満足できずに、Julia の仕様を考える方圧倒的に多いと思われますので、」

タグ：

posted at 18:31:41

「R や Python を用いた Juliaの使用法の解説は、本書の読者として想定される一定の人たちのニーズに添うものと考えています。また、データサイエンスを使用するには、線形代数や、解析学、数理統計学の知識が必要になってきます。」

タグ：

posted at 18:31:54

「さて、Julia というプログラミング言語ですが、Python や R に較べて計算速度が速く、容易に習得できる次世代のデータサイエンス用のプログラミング言語として注目されています。大量のデータを計算処理するためにデータ分析では計算速度がどうしても必要になってきます。」

タグ：

posted at 18:32:20

「そのような場面では、速度の速い言語というのは選択肢に上がってきます。Julia は習得が比較的容易であることから、プログラミングの入門としても適していると思われます。本書はその観点から、Julia を取り上げ、解説を試みています。」

タグ：

posted at 18:32:27

#統計その引用はページ全体に拡張した方が意図がくみとり易いと思います。

x_1,…,x_nの平均は差の二乗和 Σ (x_i - a)² を最小にするaとして特徴付けられ、中央値(一般に一意に決まらない)は差の絶対値の和 Σ |x_i - a| を最小にするaとして特徴付けられます。

www.mext.go.jp/content/140707... twitter.com/f_sei/status/1... pic.twitter.com/sr2JQ4mWJF

タグ：統計

posted at 19:03:09

#統計私が、正直、理解できないのは、

【データの分布が非対称形の場合】には【代表値として平均値より中央値のほうが適切】である

という主張。

全体の平均を知りたい場合には平均値を知りたいし、順位的に真ん中の値を知りたい場合には中央値を知りたい(トートロジー)なら理解できるが、～続く pic.twitter.com/Xiz6E2BVd6

タグ：統計

posted at 19:03:12

#統計続き～、【データの分布が非対称形の場合】に【代表値として平均値より中央値のほうが適切】であるという主張は理解できない。

分布の非対称性をどこで使っているの？

中央値には左右の非対称性をケアする機能はありません。

タグ：統計

posted at 19:03:14

#統計例えば、年収の分布について、「仮に平等に再分配を行えば一人あたりの取り分は幾らになるか」を知りたい人にとっては平均値の値が必要だし、「年収の全体での順位」を気にする人には中央値の情報が役に立ちます。

どちらか片方が一方的にもう一方より優れているわけではない。

タグ：統計

posted at 19:03:15

#統計データの平均と分散の計算が正規分布によるデータの分布の最良フィッティング(所謂最尤法)と同値であるのと同じように、中央値および中央値との差の絶対値の平均の計算はLaplace分布によるデータの分布の最良フィッティングになっています。

Laplace分布も左右対称な分布。

タグ：統計

posted at 19:03:16

#統計「平均値より中央値の方が外れ値に強い」は私も正しいと思いますが、「分布が左右非対称ならば平均値よりも中央値の方がよい」という主張は根拠薄弱だと思う。

左右非対称なデータの分布の代表値に、左右の非対称性を測っている統計量を入れておくべきだという意見なら理解できる。

タグ：統計

posted at 19:03:17

#統計統計学のよく見る教えの中には「それって根拠あるの？」と感じられるものが多数あって、「それをそのまま次世代に伝えることは社会的に負の貢献になるのではないか？」と感じられることが実に多い。

タグ：統計

posted at 19:03:19

ｶﾀﾀﾞﾏﾁｺ @machiko798

全国の齋藤さんに捧ぐ。
PILOT G-2 ノック式 0.7㍉にて。 pic.twitter.com/8dWnovGsQY

タグ：

posted at 19:22:12

#統計関連の話題

「2×2の分割表のχ²検定は正確なFisher検定の近似なので、特に小サンプルではχ²検定ではなくFisher検定を使うべきである」のようによく教えられているようですが、昔からなぜかそう教えられているだけで、コンピュータで確認するとひどいデタラメであることが分かる。 twitter.com/genkuroki/stat...

タグ：統計

posted at 19:28:49

清　史弘 @f_sei

この「それって根拠あるの？」は、本当にそうだと思う。 twitter.com/genkuroki/stat...

タグ：

posted at 19:33:22

#統計 2×2の分割表の独立性検定に関するデタラメは1970年代以降にきちんと正式に出版された文献で指摘されているのだが、ノーダメージの「無敵な人達」が堂々と居座っていたりする。 twitter.com/genkuroki/stat...

タグ：統計

posted at 19:33:54

#統計みんな使っている統計ソフトでも、表示されるP値と信頼区間のあいだに整合性がないことが結構普通。

#R言語の binom.test と fisher.test はそのような典型例。fisher.test については以下のリンク先スレッドを参照。 twitter.com/genkuroki/stat...

タグ： R言語統計

posted at 19:38:03

まるまる @EZX2FOFxVpvStIK

@genkuroki 私の人生のなかで、統計的手法の妥当性についての例として一番しっくりきました

タグ：

posted at 19:42:54

#統計デルタδじゃなくてシグマσです。

もはや「シグマσ」はジャーゴンになっていて、定義を説明しなくても「シグマ」と言うだけで通じる場合がある。 twitter.com/f_sei/status/1...

タグ：統計

posted at 20:07:20

#統計箱ひげ図に関する添付動画は

www.autodesk.com/research/publi...
Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing

より。

箱ひげ図が同じデータで全然違うものを幾らでも作れることを示す動画(笑) twitter.com/f_sei/status/1... pic.twitter.com/rLztFvn7fg

タグ：統計

posted at 20:12:38

高原ユウ（不撓不屈のシンデレラ） @you_takahara

#統計同ブログ記事

www.autodesk.com/research/publi...

では、代表地を変えずにデータを好きな形に変える方法が解説されている。添付動画はその作品の1つ。素晴らしい！

代表値による要約によってもとのデータの情報がどれだけ失われるかを知っていることは非常に重要だと思います。 twitter.com/genkuroki/stat... pic.twitter.com/KkKJ6ii7Zr

タグ：統計

posted at 20:18:26

今回の竜王戦の延期については不戦敗にすべきではないかという声もありますが、この告知を知らない人が大半なようで、考慮の上で判断すべきでしょうね。
実際に延期の前例もありますので、羽生九段だからと唐突に出てきた対応ではないです。
匙加減が難しい案件ですが……

www.google.com/amp/s/www.shog...

タグ：

posted at 20:29:36

とりさん @biochem_fan

Julia で Pkg.test("PackageName") とすると test/runtests.jl が実行されるが、この中で using Test しても Package Test not found in current path エラー。

docs.julialang.org/en/v1.0.0/stdl...
にあるように Test への依存関係を追加したら直った。パッケージの名前解決の仕組みを理解する必要がありそうだ

タグ：

posted at 20:32:19

tomo @tonagai

スパイダーバースに出てきた数学（微分方程式）。
dy/dx=5x√(y²+3) /yをx=2,y=1を通るとして解く。
z=y²+3と置くと簡単に解けて
√(y²+3)=5x²/2-8
になる。がちょっとホワイトボードに誤植がある。 twitter.com/AlainGoriely/s...

タグ：

posted at 21:17:47

#統計

「外れ値」の意味はケースバイケースで違う。

www.mext.go.jp/content/140707... の同ページ(添付画像1)の添付画像2の部分のプロットで箱ひげ図を使っているが、現代的には添付画像3のようなプロットが普通だと思う。

箱ひげ図使用へのこだわりは異様な感じ。 twitter.com/f_sei/status/1... pic.twitter.com/MkTAOK5qum

タグ：統計

posted at 21:19:06

#統計

 www.mext.go.jp/content/140707...
高等学校学習指導要領解説平成30年7月

条件付き確率の定義を書き直しただけの自明でつまらない(知らなくても自然に使えないと困るレベルで自明な)結果に過ぎない「ベイズの定理」に「主観確率を計算する」ものとして不当な権威を与えているクズのような説明がある。 pic.twitter.com/zuoPpgP86J

タグ：統計

posted at 21:50:42

#統計半可通のお馬鹿さん達が、「ベイズの定理」という自明でつまらない定理について、「ベイズ統計における主観確率の計算で使うから重要だ」と高校生に教えて、社会的に負の貢献をしまくる未来が見える。

モンティホール問題のような自明な確率計算を「ベイズ統計」で説明するバカも増えるだろう。

タグ：統計

posted at 21:54:17

tomo @tonagai