黒木玄 Gen Kuroki(@genkuroki)/2017年09月25日

@genkuroki 黒木さんすみません、先程のツイートは無視してください。てっきり、昔の、なんでも掲示板で活発にやってたときの話だと思っていたら、掲示板は無関係でした。お騒がせしました。

タグ：

posted at 23:37:31

闇のapj @apj

@genkuroki お忙しいところ済みませんが、過去ログどこかで見られないでしょうか。随分前に掲示板は見なくなって（まだ運営されてた間だったけど）、次に遭遇したのがツイッターだったので、何年か間があいてると思うんですが。

タグ：

posted at 23:22:20

闇のapj @apj

書道家　青柳美扇（Aoyagi Bise @aoyagibisen

@genkuroki こういうツイートがされてるので掲示板の過去ログ見に行った（黒木さんとの接点てあの掲示板しかないはずだし）ら過去ログが見れないんですが……　 RT @kagamin_hr @apj 私と黒木先生との間に一悶着あったとき余計なことしてくれましたよね。

タグ：

posted at 23:20:15

最も複雑と言われる漢字の一つ。
中国の漢字です( ´ ▽ ` )ﾉ！
「ビィアン」と読みます。麺の種類のひとつで「ビャンビャン麺」と呼ばれる麺を漢字で書く場合に使われるようです(^ ^)！美扇筆ー半紙用ーを使用してます。 pic.twitter.com/GXMxPCmBro

タグ：

posted at 23:17:08

@GrkNaoki 【式だけではわからないという意味です】
としていながら、
【定義に従っていない計算式は考え方が惜しかろうと間違いなのでバツ】
となるのですか？　#掛算

タグ：掛算

posted at 22:43:52

koji hasegawa @myfavoritescene

増税やめてくださいお願いします
@AbeShinzo
@sugawitter

タグ：

posted at 22:25:14

ぼくでさえ、AtomでLaTeX使っているし。

タグ：

posted at 22:19:41

質問者2 @shinchanchi

YCCとは「物価安定目標達成は任期中に難しいけど、Zへの愛で国債金利は完全に制御！物価安定目標先送り&現状維持決定会合でも平気だぉ」の略だとばかり(@_@) / “【WSJで学ぶ経済英語】第296回イールドカーブ・コントロール…” htn.to/eBSbXnEQ1Jm

タグ：

posted at 22:18:23

#数楽 #統計階層ベイズモデルは計算が重くなる要素が満載な感じ。

予測分布の精度の指標(例えばWAIC、LOOCVなど)も含めて計算してくれる誰でも気軽に使えるパッケージ(ライブラリ)はまだ存在しません。

誰か作るといいと思います。

タグ：数楽統計

posted at 21:02:45

#数楽 #統計サイズnのサンプルY_1,…,Y_nが与えられると、積分した後の尤度函数の定義は

p(Y_1|w)…p(Y_n|w)

であり、積分で書き直すとn重積分になる。

積分する前の階層モデルを直接MCMCで解く場合にはn個の積分変数に対応するn個の鎖も計算します。

タグ：数楽統計

posted at 20:59:40

#数楽 #統計もしも積分した結果のp(y|w)を高速に計算できるなら

y～p_1(y|r)
r～p_2(r|w)
w～p_3(w) (事前分布)

をMCMCで解くより、

y～p(y|w)
w～p_3(w)

をMCMCで解く方がずっと速いです。続く

タグ：数楽統計

posted at 20:53:15

#数楽 #統計問題続き。この問題を、階層ベイズモデルのMCMCによる解法に適した方法で解決せよ。

非常にテクニカルな問題ですが、上手に解決した人は、階層ベイズモデルを使っている多くの人達に感謝されることになると思います。

タグ：数楽統計

posted at 20:46:04

#数楽 #統計以上の話はこういう問題：函数p_1(y|r), p_2(r|w)が与えられていて、積分

p(y|w)=∫p_1(y|r)p_2(r|w)dr

で定義される函数 p(y|w) が大量に呼び出されるとき、このような数値計算を効率的に行うにはどうすればよいか？続く

タグ：数楽統計

posted at 20:42:50

#数楽 #統計数値積分が必要な階層ベイズモデルにおけるWAICの計算を十分効率的に自動的にやってくれるパッケージを作ることは結構非自明な問題なのではないかと思いました。素朴にやるとサンプルサイズとMCMC鎖の長さの積に比例した回数の数値積分が必要になる。😱

タグ：数楽統計

posted at 20:37:50

#数楽 #統計続き。階層ベイズモデルをMCMCで数値的に解いたとき、予測分布の精度の指標であるWAICの計算をするためには、膨大な回数の数値積分が必要になり、数値積分の精度を上げるとものすごく計算が重くなります。これは自分でやってみればすぐに気付くことです。続く

タグ：数楽統計

posted at 20:33:29

#数楽 #統計続き、理想的には0～∞で連続的に積分するところを、0.001から50までの区間を200個に区切ってシンプソンの公式で計算しても十分な制度が出ることが不安だったのですが、同サンプル、同モデルで再検証する限りにおいて大丈夫な感じでした。続く

タグ：数楽統計

posted at 20:29:23

#数楽 #統計 #JuliaLang
statmodeling.hatenablog.com/entry/waic-wit...
でもモデル1(2)Stanコードの中では、0.001から50までの区間を200個に区切って、シンプソンの公式で数値積分しています。私はJuliaで再検証したのですが、続く

タグ： JuliaLang 数楽統計

posted at 20:26:15

#数楽 #統計原理的にはインプットと最終アウトプット以外のパラメーターは積分して消せるのですが、一般にその結果がよく知られた分布で書けるとは限らず(一つ前のツイートで紹介した「モデル1(2)」では負の二項分布になる)、数値積分する必要があるかもしれません。数値積分結構重い！続く

タグ：数楽統計

posted at 20:20:30

#数楽 #統計階層ベイズモデルのWAICについては

statmodeling.hatenablog.com/entry/waic-wit...

のモデル1(2)がシンプルでわかりやすいかも。

変数rについて積分すれば階層モデルでない場合に帰着。この場合が重要。

タグ：数楽統計

posted at 20:15:28

たつき／irodori @irodori7

突然ですが、けものフレンズのアニメから外れる事になりました。ざっくりカドカワさん方面よりのお達しみたいです。すみません、僕もとても残念です

タグ：

posted at 20:00:43

母数が増えるに従い、正解率が下がってきました。
母数が増えればより正確性の高いデータになるので、回答後にRTしていただけたら幸いです。

タグ：

posted at 18:51:34

生徒が目の前にある問題を解けないときに「説明の仕方が悪かったなあ」と思う指導者がいても、生徒の理解の歪みをキャッチして（この時点でハードル高い）「四年前の俺の教え方が悪かったなあ」と思う指導者は滅多におるまい。現場の人たちは気づくこともできないんだろーなー

タグ：

posted at 18:38:29

Hiroyasu Kamo @kamo_hiroyasu

高等教育無償化するなら、一律給付で経費をケチりましょう。所得制限を入れたりすると、そのための事務経費がもったいないです。

タグ：

posted at 18:35:04

どれもこれも、反論するのも馬鹿馬鹿しい。掛け順の問題って要はこんな感じになってるんですよ

タグ：

posted at 18:08:12

「放物線のグラフを書くときにx切片の座標を逆に書いてもいいのか」

タグ：

posted at 18:07:17

「中等教育（中学・高校）の数学と高等教育（大学）の数学は違う」

タグ：

posted at 18:05:39

「二次方程式の解の順序がどうでもいいとかいう人は、１と２のどちらが大きいのか分からなくてもいいと言っている」

タグ：

posted at 18:04:22

子どものADHDと大人の「ADHD」 —ダニーディンのコホート研究から— - A Fickle Child Psychiatrist www.afcp.jp/entry/2015/05/...

タグ：

posted at 18:03:36

「二次方程式の解を『小さい順、または大きい順に書く』と指導するのは生徒を混乱させる」

タグ：

posted at 18:03:12

そうすると現場の人間やその盲信者や逆張りマンから以下のような反論（？）が来るわけだ

タグ：

posted at 18:02:11

そして、現にそのような指導が行われている実例を見たら、「ナンセンス極まりない。そのような指導は即刻やめるべき」と言い出す私のような人間もいる

タグ：

posted at 18:00:46

大抵の教科書や問題集では二次方程式の解を小さい順に書いてあるが、それを理由に二次方程式を解く度に解の大小関係をチェックして小さい順に書け（そうでないと×）などと言われたら、「馬鹿馬鹿しい」と思う人が多いのではなかろうか

タグ：

posted at 17:59:03

鰹節猫吉 @sunchanuiguru

違いますな。「学者の専門知識だ」と主張しているのではなく、「算数教育学者の偉い先生たちはアホだらけ」だったことを発見してしまったのです。 #掛算 #超算数 twitter.com/katuohm/status...

タグ：掛算超算数

posted at 17:53:41

教科書は昔から「１つ当たり×個数」で掛け算を導入しているのだろう。それは別におかしなことではない（一部の人はこれをもって「そう教わったはずだ。忘れているだけ」などと言うのだろう）。気になるのは、いつから今のような要素の判別と順序によるそれの明示を強制するようになったのかということ

タグ：

posted at 17:53:00

私は確かに「ひとつ当たり×個数」で掛け算を教わっていると思うのだが（そのイメージは私にもある）、掛け算の要素においてその両者を明確にすべしとか、またそれを式で表すときの順序によって示すべしとかそのような指導は受けていない。これは昔のノートやテストを発掘して確認した

タグ：

posted at 17:52:27

@prueko 突然変異の問題とか、神経発達障害や各診断カテゴリーの中での異質性とかいろいろあるので、「遺伝するのか」というご質問には簡潔にお返事するのが難しいのですが、遺伝子の関与がかなり大きいということまでは言えると思います。

タグ：

posted at 17:40:35

もう大人になった子供世代は、経済政策については親の世代を説得した方がいいよね。説得できなくても、「そういう政策やられたらマジ困る」という話をしておくことは大事。

このタイミングで財政絞るのほんとやめて欲しい。

日銀法を改正して日銀が逆噴射する可能性を完全に潰して欲しい。

タグ：

posted at 16:52:08

#数楽 #統計この発言の返答連鎖中の数値実験はまだやるべきことを十分にやっているわけではないので、取り扱い注意。新データが得られれば意見を変えるかもしれません。

サンプルを生成する分布が独立性の条件を満たしていない場合の様子も知る必要があります。

タグ：数楽統計

posted at 16:38:20

#数楽眠くない頭で冷静に考えてみると、バグって無かったかも。x>0 なら x*log(x/0)は自然に∞=Infになる。

タグ：数楽

posted at 16:31:38

@izmktr ちゃんと問題文読んで考えて、正しく文意を理解できるかどうかのテスト。

タグ：

posted at 16:17:45

bex @prueko

@afcp_01 このような神経発達障害は遺伝していくものなのでしょうか。この病気の方々への遺伝相談の問題になるので興味があります。

タグ：

posted at 16:13:54

#数楽 #統計
 statmodeling.hatenablog.com/entry/comparis...
の数値実験を見ても、サンプルサイズに比例してStanで記述のパラメーター数が増える階層ベイズのケースでも、サンプルサイズが大きくなるとWAICの精度が上がる様子を確認できます。漸近論の成立が数値的に確認できている。

タグ：数楽統計

posted at 16:04:59

#数楽 #統計解答：Stanで記述されたパラメーター数と漸近論を証明する文脈での確率モデルのパラメーター数の定義が違うので自明に誤り。

違うものに同じ名前が付いていることはよくあること。

タグ：数楽統計

posted at 15:57:06

#数楽 #統計問題：階層ベイズモデルをStanで記述するとパラメーター数はサンプルサイズに比例して増える。WAICの漸近論は確率モデルのパラメーター数が一定の場合にしか有効ではない。「ゆえに階層ベイズモデルでWAICの漸近論は有効ではない」という主張が誤っている理由を述べよ。

タグ：数楽統計

posted at 15:53:39

出水 @izmktr

@ord_realdgame 一問だけ出されて正解率が低いです、って言われるとちゃんと応えられるけど、多数の問題があって急いでやっていたら、同じ5文字で語感のにているやつ選びそうになる…

タグ：

posted at 15:47:46

このテーマはやっぱり関心のある方が多いんですね。便乗して自分のブログの最新記事 www.afcp.jp/entry/2016/06/... をご紹介させてください。書いたのは1年3ヶ月前だけど最新記事……。

タグ：

posted at 15:44:01

#数楽 #統計その辺の事情については

watanabe-www.math.dis.titech.ac.jp/users/swatanab...

の注4が詳しいです。そして、渡辺澄夫さんの数値実験を支持する結果が

statmodeling.hatenablog.com/entry/comparis...

でも得られています。このブログは非常に勉強になります。おすすめ。

タグ：数楽統計

posted at 15:32:26

"この見方がおおむね主流になっている" は言い過ぎかな。 "研究者の間ではこの見方がおおむね主流になっている" くらいかも。

タグ：

posted at 15:27:07

神経発達障害としての統合失調症。この見方がおおむね主流になっている、ということでいいのかな。知的障害、自閉スペクトラム症、ADHD、統合失調症、双極性障害まで連続体と考えてよいか、と。 World Psychiatry 。 htn.to/9nyp4W

タグ：

posted at 15:23:50

#数楽 #統計その辺のことについては、大家のゲルマンさんも誤解していて、ゲルマンさん達の交差検証のある変種が渡辺澄夫さんのWAICよりも交差検証のよい近似になっているという内容の論文を書いていて、KL情報量+定数との比較が本質的であることをわかっていない感じ。続く

タグ：数楽統計

posted at 15:23:46

きょうがき @kyougaki

@ord_realdgame へー。じゃあ読解力ってどーやったら身につくんやろか

タグ：

posted at 15:21:14

#数楽 #統計その辺の数学的事柄のベイズ統計の場合に関する解説は、渡辺澄夫著『ベイズ統計の理論と方法』第6.3節にあります。ポイントはLOOCVが予測分布のKL情報量+定数に漸近するから、LOOCVが予測精度の指標になること。予測分布のKL情報量と比較することが重要。

タグ：数楽統計

posted at 15:20:19

@kyougaki それがねえ、元記事は科学的に検証を行った結果を元に書かれていて、「読書習慣が読解力と無関係である」という結果が示されてるんだ。

タグ：

posted at 15:18:57

きょうがき @kyougaki

@ord_realdgame 最近の子は本読まないっていうしその弊害かなぁ？

タグ：

posted at 15:15:21

@kyougaki 公立中 9%
私立中 27%
公立高 33%
しか正解率がない問題だとさ。
俺のTLのみだと正解率高くなりそうだけど。

タグ：

posted at 15:13:15

#数楽 #統計続き。一方、データ(サンプル)を生成した未知の分布q(x)の分布p(x)による予測誤差はKL情報量D(q||p)で測られます。だから、LOOCVとKL情報量の関係がわかれば、LOOCVの方法が予測分布の精度の大小を測る適切な手段であることがわかります。続く

タグ：数楽統計

posted at 15:09:53

きょうがき @kyougaki

@ord_realdgame 既に票が別れてて自分が入れたのが正しいのか不安になるな

タグ：

posted at 15:07:19

pic.twitter.com/MXa6FTMh7L

タグ：

posted at 15:05:33

#数楽 #統計ただし、交差検証の有効性の数学的基礎は結構ややこしいです。データX_1,...,X_nをX_iとそれ以外に分けて、X_i以外の部分から作った予測分布でX_iの分布をどれだけよく予測できるかを測ることは、1個抜き出し交差検証(LOOCV)と呼ばれています。続く

タグ：数楽統計

posted at 15:05:06

リプの画像の設問に真剣に答えてください。謎解きではありません。読解力テストです。
こんなの間違える人いるの？と、思うかもしれませんが、間違える人はいます。
知識の問題ではなく、読解力の問題です。
本当にこの問題の正解率が低いのかを検証してみたいのです。

タグ：

posted at 15:04:49

#数楽 #統計続き。「交差検証」(cross validation)はバカでも思いつきそうな単純なアイデアに過ぎないのですが、パラメーター注視の発想では決して出て来ないアイデアだと思います。交差検証はデータから予測分布を作る方法の優劣の比較法の基本だと思う。続く

タグ：数楽統計

posted at 15:00:41

#数楽 #統計パラメーター注視から、予測分布への思考のチェンジで触れることのできる最初の有用なアイデアは所謂「交差検証」だと思います。得られたデータA,Bに分割して、Aから作った予測分布の予測性能をBを使って確認することは「交差検証」と呼ばれています。続く

タグ：数楽統計

posted at 14:55:48

#数楽 #統計私は数学が専門なので、抽象的一般論だけを述べて、具体例を説明しようとしない人達の理解度を徹底的に疑う傾向があります。数学者は常に「例を挙げよ」と要求する。

だから、「視界が具体的にどう広がるか」についても説明しないと、理解度を当然疑われると思ってしまいます。

タグ：数楽統計

posted at 14:51:45

#数楽 #統計そして、もう一つの原因は、特別に良い性質を持つ指数型分布族(正規分布、ガンマ分布、…)に頼り過ぎていて、パラメーターの推定と確率分布の推定を区別する必然性を認識し難くなっているということがあると思う。(「特別に良い性質」の解説は返答連鎖の上の方にある)

タグ：数楽統計

posted at 14:42:59

koji hasegawa @myfavoritescene

ですですw

タグ：

posted at 14:31:34

Yusuke Hayashi 林祐輔 @hayashiyus

#数楽 #統計現実世界の未知の分布を推定する仕事をしている人にとっては「なにをいまさら」な話しかしていないと思うのですが、パラメーターだけに注目し、未知の分布の推定としての予測分布には目を向けない解説は多いと思う。そうなってしまう原因はSanovの定理が十分普及していないから。

タグ：数楽統計

posted at 14:23:30

非公開

タグ：

posted at xx:xx:xx

@genkuroki ご指摘のポイント、非常によくわかりました。勉強になります。有難うございます！！！

タグ：

posted at 14:19:09

#数楽 #統計パラメーターしか見えない人がベイズ統計を勉強すると「パラメーターも確率変数になる」という理解で止まってしまう。事後分布によるモデルの平均で求めた予測分布がどれだけ未知の分布を近似しているかという発想ができれば納得できることが増えて視界が一挙に広がる。

タグ：数楽統計

posted at 14:18:35

#数楽 #統計パラメーターしか見えない人が最尤法を勉強すると「尤度を最大にするパラメーターを求める」という理解で止まってしまう。しかし、最尤法で求めたパラメーターをモデルに代入して得られる予測分布が未知の分布をどれだけよく近似しているかという発想をできれば視界が一挙に広がる。

タグ：数楽統計

posted at 14:15:30

#数楽 #統計「頻度主義者 vs. ベイジアン」とかの歴史は、「未知の分布の推測」という普遍的な発想のもとでは、くだらない黒歴史に過ぎない。くだらないことに価値があるかのような解説は次の世代に悪影響を与えるのでやめるべきだと思う。「偉い人達」が結構やっているように見える。

タグ：数楽統計

posted at 14:10:24

#統計 #数楽以下の3つが基本的

(1) 大数の法則

(2) 中心極限定理

(3) Sanovの定理 (Kullback-Leibler情報量=-相対エントロピーの意味)

パラメーターの推定に(1),(2)は役に立つ。確率分布の推定のためには(3)が必須。

タグ：数楽統計

posted at 14:05:21

#数楽 #統計「パラメーター(の推測値)に限らず、得られたデータが、未知の分布q(x)の予測にどのように役に立つか」という発想の方が普遍的で好ましいと思われる。

そういう意味で、Sanovの定理の理解はとても基本的な話だと思うのです。次の若い世代に期待しています。

タグ：数楽統計

posted at 14:01:08

#数楽 #統計指数型分布族を扱う場合にはパラメーターに注目する発想が自然です(その理由の一端は上に示した)。

しかし、我々が現実世界で真に欲しいのはパラメーター達に関する情報ではなく未知の分布q(x)の予測の方だと思う。

だから、パラメーターしか見ない発想はよくない。

タグ：数楽統計

posted at 13:58:09

非公開

タグ：

posted at xx:xx:xx

#数楽 #統計特別な f_i(x) の平均はよく「パラメーター」と呼ばれます。xの平均は平均という名のパラメーターだし、(x-(xの平均))^2の平均は分散という名のパラメーターだし、ガンマ分布のパラメーターには log xの平均が含まれている。続く

タグ：数楽統計

posted at 13:54:18

#数楽 #統計正規分布やガンマ分布のような指数型分布族が便利な道具としてよく使われて来ているのは、以上のような特別によい性質を持っていて扱いやすいからということがあると思う。

「自然に出て来る場合が多いから」だけではなく、「扱いやすいから」という理由でもよく使われている。

タグ：数楽統計

posted at 13:49:25

#数楽 #統計より一般に

p(x)∝exp(-Σβ_i f_i(x))

の形の指数型分布族でも同様です。特別なf_i(x)たちのq(x)による平均を求めることは、対応する指数型分布族の範囲内でのq(x)の最良近似を求めることと同じです。

タグ：数楽統計

posted at 13:46:19

#数楽 #統計続き、expの中身の x と log x の平均について特別な性質を持っています。

正規分布は

p(x)∝exp(ax+bx^2), b<0

の形で x と x^2 の平均について特別な性質を持っている。続く

タグ：数楽統計

posted at 13:41:28

#数楽 #統計 q(x)の台が x>0 に含まれるとき、q(x)とxとlog xの平均が等しいガンマ分布は、ガンマ分布の中でq(x)を最もよくシミュレートする分布になっています。ガンマ分布の密度函数は

p(x)∝exp(-ax+b log x)

の形をしていて、続く

タグ：数楽統計

posted at 13:38:04

#数楽 #統計もちろん、一般の分布q(x)は正規分布とは限らないので、正規分布によるシミュレーションは近似的なものにならざるを得ないのですが、そういう制限された状況ではベストを尽くすには、q(x)の平均と分散を知れば良いのです。

この話は指数型分布族一般に拡張されます。

タグ：数楽統計

posted at 13:34:00

菅未里(文具ソムリエール) @misatokan

#数楽 #統計続き。すなわち、q(x)を(制限された分布の範囲内で)最大の精度でシミュレートする分布p_0(x)は相対エントロピーB(q,p)を最大化するp(x)になるわけです。

q(x)の平均と分散を知ることは、q(x)を最もよくシミュレートする正規分布を知ることと同じ。

タグ：数楽統計

posted at 13:31:01

めいっこが遊びに来るから気合い入れてアヒルさん100匹列べたんだけど大泣きされた🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥🐥 pic.twitter.com/1887zJk7tG

タグ：

posted at 13:30:03

#数楽 #統計続き。Sanovの定理より、相対エントロピー B(q,p)=-D(q||p)を(ある制限の下で)最大化するp(x)は、p(x)に従う独立試行でサンプルサイズを大きくするときq(x)に近い経験分布が生じる確率が最大になるp(x)になります。続く

タグ：数楽統計

posted at 13:26:57

#数楽 #統計 Sanovの定理には別の使い方もある。

我々は、未知の確率分布q(x)の平均と分散を推定することがよくあります。一般にq(x)と同じ平均と分散を持つ正規分布p_0(x)は、正規分布p(x)達の中で相対エントロピーB(q,p)を最大化するものになっています。続く

タグ：数楽統計

posted at 13:22:34

#数楽 #統計長くなったので、別の話をメンションを切って続けます。続く

タグ：数楽統計

posted at 13:07:45

@hayashiyus #数楽 #統計まとめ：カノニカル分布が自然に出て来ることはSanovの定理もしくはその一般化である大偏差原理の仮定によって正当化される。Sanovの定理(もしくは大偏差原理)が使える状況を設定せずにいきなり「(相対)エントロピーの条件付き最大化」を扱っても説得力はない。

タグ：数楽統計

posted at 12:50:41

@hayashiyus #数楽 #統計物理的に大偏差原理を仮定してしまえば、熱浴を使ったよくある議論でカノニカル分布を導出できるわけです。

その辺の話は私の解説の第7節にもあります。
genkuroki.github.io/documents/2016...

タグ：数楽統計

posted at 12:44:42

@hayashiyus #数楽 #統計より一般の大偏差原理は、具体的な式で書けるとは限らない量 s があって、

log(確率)～ s×(系のサイズ)

のような漸近挙動が成立することです。系のサイズを体積で測るときに、sはエントロピー密度とでも呼ぶべき量になります。続く

タグ：数楽統計

posted at 12:40:54

@hayashiyus #統計 #数楽続き～、物理的に大偏差原理を仮定して、カノニカル分布を導出していました。

Sanovの定理はi.i.d.の状況で

log(確率)〜相対エントロピー×サンプルサイズ

が成立するという主張です。これは大偏差原理が成立している最も簡単な例になっています。続く

タグ：数楽統計

posted at 12:36:35

@hayashiyus #数楽 #統計なぜならば、物理的に普通の状況は、(相対)エントロピーが出て来るi.i.d.(独立試行によるサンプル生成)の状況ではないからです。

その辺の処理を統計力学の教科書がどのように処理しているかを見てみると(私は信頼できる田崎晴明さんの教科書を参照しました)、続く

タグ：数楽統計

posted at 12:32:13

@hayashiyus #数楽 #統計統計と同様に専門外の物理の話を追加。

(相対)エントロピーの条件付き最大化で(一般化)カノニカル分布が得られるという計算はとても易しくクリアなので、大変印象的。

しかし、そのような説明は、物理的にカノニカル分布が普遍的に得られる理由の説明として不十分です。続く

タグ：数楽統計

posted at 12:27:12

@hayashiyus #数楽 #統計だから「確率分布q(x)に従う独立試行で生成されたサンプルの経験分布(の近似)としてp(x)が得られている状況であること」を明確にしないと、「(相対)エントロピーを最大化しているようだけど、それに何か意味あるの？」という質問に答えることができないわけです。続く

タグ：数楽統計

posted at 12:22:17

@hayashiyus #数楽 #統計確率分布q(x)に従う独立試行で生成されたサンプルの経験分布(の近似)としてp(x)が得られている状況では、以上のようにして(Sanovの定理によって)「相対エントロピーが最大のp(x)のみが実現される」という主張が正当化されます。続く

タグ：数楽統計

posted at 12:18:52

@hayashiyus #数楽 #統計確率分布q(x)のもとで経験分布としてp(x)が実現される確率の大きさの程度は「(相対)エントロピーのサンプルサイズ倍の指数函数」でほぼ決まっている。だから、(相対)エントロピーが相対的にほんの少しでも小さなp(x)の相対的な実現可能性はほぼゼロになる。続く

タグ：数楽統計

posted at 12:15:23

@hayashiyus 「先生」やめましょう😁

#数楽 #統計 (相対)エントロピー B(p,w)=-∫p(x)log(p(x)/q(x))dxは確率分布q(x)の独立試行で生成されたサイズnのサンプルから得られる経験分布がほぼp(x)になる確率の対数のn分の1の近似値です(Sanovの定理)。続く

タグ：数楽統計

posted at 12:09:43

SUZUKI Jiro @szkjiro

同じブログに1960年は1％とあるので，二項分布で双生児（正確には多胎児）出生率p=1%のもと年代人口ラフに100万人中2％（2万組）誕生する確率を計算すると，ほぼ0．多胎児の出生率は変わっていないとする仮説は否定されますね． twitter.com/szkjiro/status...

タグ：

posted at 11:29:23

SUZUKI Jiro @szkjiro

「二項分布とポアソン分布」東京大学出版会，1981年のポアソン分布の例題に「双生児の出生率が1/150」とあった．最近では2％くらいらしい．RT半世紀で2倍になった双子の出生率　増え続ける理由｜ウートピ wotopi.jp/archives/38112

タグ：

posted at 11:16:42

BuzzFeed Japan Medic @BFJMedical

WELQ閉鎖から約半年、検索結果は今、どうなっているのか。推移をまとめたデータを発表したSEO専門家の辻正浩さんを取材しました。（朽木誠一郎 @amanojerk） www.buzzfeed.com/jp/seiichiroku...

タグ：

posted at 11:00:24

結城浩 / Hiroshi Yuki @hyuki

Yusuke Hayashi 林祐輔 @hayashiyus

昨晩作った「結城浩の連ツイ」紹介用のマストドンアカウントがちゃんと動いていてうれしい。(^^) Twitterで結城が連ツイすると、一時間後くらいに連ツイのまとめページのURLを最初のツイートと共にトゥートします。

social.hyuki.net/@rentwi/33449

タグ：

posted at 10:51:27

残り38件のツイートを見る

あ〜る菊池誠(反緊縮)公式 @kikumaco

@genkuroki 黒木玄先生、リプライ有難うございます。赤池弘次先生のこの論文を読むと、シャノン・エントロピーは対数尤度の期待値として解釈できると書いてありますね。汎関数微分によって尤度を最大化する確率の関数形を求めていると解釈できないでしょうか。
www.jstage.jst.go.jp/article/butsur... pic.twitter.com/EGAm623Rug

タグ：

posted at 10:32:29

「人づくり」とかいう言葉はだいたいが教育を否定するために使われるので期待できん。教育がだいじだよ。「掛け算の順序を子どもに叩き込む」だの「重傷者が出ても組体操」だのくだらない「教育」をやってる場合じゃないんだよ

タグ：

posted at 10:10:20

非公開

タグ：

posted at xx:xx:xx

@GrkNaoki 受験研究社の記述について、GrkNaokiさんの判断は
a「単位が明示されていない以上、正しい考えなのか間違った考えなのかわからない」
b「一種類の足につき30本の足があってそれが右と左の2種類あるので30×2=60(本)なのでこれは間違いではない」
のどちらなのですか？　#掛算

タグ：掛算

posted at 08:24:00

あおの @aono_show

財務省の一般税収推移を見ればわかるのですが、税収は金融緩和以降回復してきています。しかし中身を見れば、高額所得者への累進課税は下がったまま、法人税に関しても十分とは言えない。なのに消費税だけ上げようというのは安易かつアンバランス。
ow.ly/RX0530fobX5

タグ：

posted at 06:48:53

グレッグ @glegory

アベノミクスが富裕層に利得が多い？歴代政権は低所得層に浮上のチャンスさえなかったことを見落としてるのでは？安倍政権では就業者数の上昇、非正規の賃金の上昇、子供の貧困率の改善何より国民の生活満足度は歴代１位だ。富裕層に利得が行かないことが低所得層に満足を与えるわけじゃない。

タグ：

posted at 06:23:03

非公開

タグ：

posted at xx:xx:xx

非公開

タグ：

posted at xx:xx:xx

非公開

タグ：

posted at xx:xx:xx

#数楽 #統計以上のバグの件、n=25のG検定で周辺確率が0.1以下の場合以外には大差ないです。

タグ：数楽統計

posted at 03:03:02

#数楽 #統計

 gist.github.com/genkuroki/7c52...
複数の確率分布でカイ二乗検定とG検定とFisherの正確検定を比較
黒木玄
2017-09-19～20

も訂正しておきました。

nbviewer.jupyter.org/gist/genkuroki...

も直に訂正されると思います。

タグ：数楽統計

posted at 02:59:59

非公開

タグ：

posted at xx:xx:xx

#数楽 #統計バグ発見！！！ G検定のプログラムがバグっていました。
x log(x/y) で x≠0、y=0 の場合の処理をサボってた。
以下のリンク先は訂正済み。

gist.github.com/genkuroki/1dd6...
2x2の分割表での独立性検定の比較 2017-09-25

タグ：数楽統計

posted at 02:56:12

@GrkNaoki また、先ほどの受験研究社の本に関して
「良くない」「うっかりミス」
などとする人もいます。
#掛算の順序を守れという人でも、足並みはバラバラですね。
twitter.com/katuohm/status...

タグ：掛算

posted at 02:48:27

非公開

タグ：

posted at xx:xx:xx

@GrkNaoki 【小学校の算数の掛け算では単位を明示するべきです】
と、単位を書かせたうえで・しかし順序も守れ、とするのは、珍しいパターンですね。#掛算

タグ：掛算

posted at 02:37:17

#数楽 #統計超幾何分布でサンプルを生成している場合は、周辺度数がすべて前もって固定可能な場合に対応しています。これは普通にはありえないので、この場合については考慮する必要はないでしょう。

しかし、この場合にしか、Fisherの正確確率検定での確率計算は正確にならない。

タグ：数楽統計

posted at 02:33:43

非公開

タグ：

posted at xx:xx:xx

#数楽 #統計 2つの二項分布の組み合わせでサンプルを生成している場合は「真薬と偽薬を与える人の数を前もって決めているというような場合」に対応しています。この場合にももう一方の周辺度数はゆらぎます。

タグ：数楽統計

posted at 02:30:50

#数楽 #統計多項分布でサンプルを生成している場合は「サンプルサイズ n だけを最初に固定してある場合」に対応しています。サンプルサイズが固定されていても、周辺度数は揺らぎます。

タグ：数楽統計

posted at 02:28:42

#数楽 #統計サンプルをポアソン分布で生成している場合には n (サンプルサイズ)も揺らぎます。これは「期間内にアンケートをどれだけ収集できるかが前もってはっきりわかっていないような場合」に対応しています。続く

タグ：数楽統計

posted at 02:27:20

@GrkNaoki ご回答ありがとうございます。
【マルではないでしょうか】
では、以下のように「３×２　と書いたら、３本耳のウサギが２匹いるという意味になってしまう」というのは間違いでしょうか？　#掛算
 ultramarutti.blog26.fc2.com/?no=595

タグ：掛算

posted at 02:26:08

koji hasegawa @myfavoritescene

そういえば財務省と日銀が悪いといつも話していたお陰か、80の老母と昨日電話で話したら、いきなり選挙やる安倍もけしからんが不景気なのに税金も医療費も上げるしか能がない霞が関はもっと悪い、若い人が可哀想、と言っていた。田舎の老人会の集まりでも刷らない国が悪いと言ってきたらしいw

タグ：

posted at 02:25:11

非公開

タグ：

posted at xx:xx:xx

#数楽 #統計一般に小さな n ではFisher's exact testの使用が結構推奨されているのですが、結果を眺めると小さなnで濃い青が出まくっており、有意差がものすごく出難くなっています。自前でFETの函数を書いたのですが、個人的にはちょっと使う気にはなれません。

タグ：数楽統計

posted at 02:10:57

#数楽 #統計私は今回の計算で、2×2の分割表における Σ(O-E)^2/E 型のカイ二乗検定を相当に見直しました。本当に「白くなり易い」。もちろん、幾つか見える濃い赤になっている部分での使用は避けた方が良さそうですが。
gist.github.com/genkuroki/1dd6...

タグ：数楽統計

posted at 02:06:53

#数楽 #統計 p値に頼るのは明らかに時代遅れなのですが、p値による簡便な検定はそれなりに便利な点があると思うので、その性質を正しく理解しておきたいところだと思います。過去の論文の解釈にも影響すると思う。

タグ：数楽統計

posted at 02:01:27

#数楽 #統計補足説明

暗い赤は、p値が5%以下に5%よりも高い確率でなることを意味し、有意差を不当に出し易くなっていることを意味します。G検定はそうなりやすい。

暗い青は、p値が5%以下になる確率が5%よりずっと小さいことを意味し、有意差が出難いことを意味しています。

タグ：数楽統計

posted at 01:58:58

#数楽 #統計 #JuliaLang
nbviewer.jupyter.org/gist/genkuroki...
リンク先のJulia言語のコードは誰でも自由にコピペして利用して構いません。 juliabox.com でコピペして利用すればさらなる解析が可能です。

タグ： JuliaLang 数楽統計

posted at 01:55:11

#数楽 #統計 #JuliaLang
リンク先を見て頂ければわかるように、χ^2-testは「白く成り易い」(p値が5%以下の確率が5%に近く成り易い)です。カイ二乗検定のこの頑健さは個人的にちょっと意外でした。G検定は不安定。

nbviewer.jupyter.org/gist/genkuroki...

タグ： JuliaLang 数楽統計

posted at 01:53:44

斉藤久典 @saitohisanori

内閣支持の理由が「他よりも良さそうだから」なんだから、当然だけど安倍内閣より良さそうなところがあれば有権者は他に乗り換えるだろう。いま野党が宣伝してる「モリカケ」とか「増税は避けられない」とか、そういう話は乗り換え先として評価されてないってこと。そんなことオラにも解るだよ。

タグ：

posted at 01:51:13

#数楽 #統計添付画像は多項分布でサンプルを生成した場合でのn=100, 200の場合です。カイ二乗検定のカラーメッシュがほぼ真っ白になっているので、n=100以上ではカイ二乗検定の使用は正当化されると思いました。個人的な意見ではG検定は避けた方が良さそう。 pic.twitter.com/qoWJblj76O

タグ：数楽統計

posted at 01:50:44

#数楽 #統計添付画像は超幾何分布でサンプルを生成した場合。これは通常ではありえない場合です。

以上ではn=50の場合を扱いましたが、n=25,100,200 の場合も次のリンク先では扱っています。

nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/O9KHJiflzg

タグ：数楽統計

posted at 01:45:48

#数楽 #統計添付画像は二項分布でサンプルを生成した場合

色はp値が5%以下になる確率を意味し、横軸と縦軸は「周辺確率」を意味しています。独立性を満たす確率分布は横と縦方向に足して得られる周辺確率で決まります。横と縦の双方を0.05から0.50まで0.05刻みで動かした。 pic.twitter.com/csUykJ64Qg

タグ：数楽統計

posted at 01:43:00

#数楽 #統計添付画像は多項分布でサンプルを生成した場合

2×2行列を独立性の条件を満たす多項分布で1万個生成して、p値が5%以下になる割合を計算してプロットしています。白いほど5%に近くてよいわけです。独立性の条件を満たす多項分布を決めるパラメーターを動かしてプロット。 pic.twitter.com/UMT6Ynvjup

タグ：数楽統計

posted at 01:39:16

#数楽 #統計 #JuliaLang
2×2の分割表の独立性検定でp値が5%以下になる確率をカラーメッシュでプロットしてみました。白いほど5%に近い。赤いと大きい、青いと小さい。

nbviewer.jupyter.org/gist/genkuroki...

添付画像はポアソン分布でサンプルを生成した場合。 pic.twitter.com/dEDcm6qWH7

タグ： JuliaLang 数楽統計

posted at 01:34:48