Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
Favolog ホーム » @genkuroki » 2019年10月11日
並び順 : 新→古 | 古→新

2019年10月11日(金)

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 自分なりにFIsher検定のP値を補正した実験結果も公開しておきます。結構がんばった(笑)。しかし、満足できるほどうまくは行かなかった。

nbviewer.jupyter.org/gist/genkuroki...
複数の確率分布でカイ二乗検定とG検定とFisherの正確検定を比較
2019-10-10版

タグ: 統計

posted at 00:07:44

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 シンプルな補正無しのカイ二乗検定は確かに使っちゃいけない場合があります。しかし、頑健な範囲は非常に広い。

タグ: 統計

posted at 00:07:44

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 Fisher検定では超幾何分布でサンプルを生成するときの正しく確率を計算しているので、多項分布や二項分布×2でサンプルを生成するときにはどうしてもずれる。

カイ二乗検定ではどの分布でサンプルを生成しても漸近的には正しい確率を計算するが、漸近論を使った近似になってしまっている。

タグ: 統計

posted at 00:15:45

(「・ω・)「ガオー @bicycle1885

19年10月11日

Nemo,ちょっと前に予算獲得したから開発者募集!みたいなことしてたよな。いいなぁ。

タグ:

posted at 00:36:28

騎士王 king_lzy @king_lzy

19年10月11日

#台風19号 やばくない?🙁
家は小岩にあるけど。。。どうする、冠水はめちゃくちゃ心配してます。。。。🙁
ちなみに聞きたいですが 小岩ならどこに避難しに行ったほうがいいか? pic.twitter.com/RspRLaLpTM

タグ: 台風19号

posted at 00:46:04

非公開

タグ:

posted at xx:xx:xx

RochejacMonmo @RochejacMonmo

19年10月11日

皆さま、どうぞお気を付けください。
earth.nullschool.net/jp/ pic.twitter.com/mjLFfuvrbZ

タグ:

posted at 03:36:26

文春将棋 @bunshun_shogi

19年10月11日

「私は今年で46歳になりましたが、40代の半ばを過ぎて伸びしろがあるとは思わなかったです。ここ数年は現状維持のためにずっと頑張っていたというのが正直なところですね」
木村一基九段
bunshun.jp/articles/-/12630

タグ:

posted at 08:20:01

左巻健男(サマキタケオ) @samakikaku

19年10月11日

ファラデー「ロウソクの科学」山形浩生訳 が「縦書き文庫」で無料で読める!
tb.antiscroll.com/novels/library...
*ぼくはファラデーが講演したロンドンの王立研究所の講堂やファラデーの実験器具・ノートを見て感激した。「現代版ロウソクの科学」を書いてもいいなあ。

タグ:

posted at 08:24:18

あ〜る菊池誠(反緊縮)公式 @kikumaco

19年10月11日

甲状腺検査は百害あって一利なしです。検査の中止を提言していますので、ぜひご一読ください。この問題に関心を持って下さい。特にジャーナリストの方々に期待しています /

福島の甲状腺検査は即刻中止すべきだ(上) - 菊池誠|論座 - 朝日新聞社の言論サイト webronza.asahi.com/national/artic...

タグ:

posted at 08:56:19

Haruhiko Okumura @h_okumura

19年10月11日

平均評価だから中心極限定理で正規分布になる,というわけではない(iidじゃないので無理)。全国学力テストやセンター試験の得点分布もたくさんの小問の点数の合計点だから正規分布になる,というわけではない(実際ならない) scrapbox.io/okumura/%E6%AD...

タグ:

posted at 08:59:17

Re:file(リファイル) @gbbbsjp

19年10月11日

気象予測精度が最も高いイギリス気象庁が公開した台風19号の進路 - re-file.com/01/1598/ pic.twitter.com/hlcO4yZe2v

タグ:

posted at 10:09:34

勝俣範之 @Katsumata_Nori

19年10月11日

抗がん剤は医師の中でもいまだに誤解されている面は多い。やはり専門医でないと現状はわかりません。今やほとんどの抗がん剤は外来通院可能、ステージ4でも長生きできる時代、高齢者でも抗がん剤で長生きできるなどなど。

タグ:

posted at 11:21:50

日野 浩 @firetalking

19年10月11日

ブラックな研究室を匿名で晒したらなぜか消せ、とリプを送ってきた教授がいるようです。
なにか関係があるのでしょうか。 pic.twitter.com/q574BHKJnB

タグ:

posted at 12:33:47

アバンギャルド河津 @makotokawazu

19年10月11日

11日昼の最新データで台風19号の雨と風を見える化。

気象庁は会見で昭和33年狩野川台風に匹敵する記録的大雨になると言及しました。固有名の付けられた台風は数えるほどしかありません。

特別警報も示唆されていますが、これは重大な災害の起こるおそれが著しく高まっている時に発表されるものです。 pic.twitter.com/ML0sGsZhaF

タグ:

posted at 12:48:53

あ〜る菊池誠(反緊縮)公式 @kikumaco

19年10月11日

ジャーナルのサイトを見てみたけど、これは結構ヤバげなジャーナルです。出版社のサイトはもっとヤバい。日本人のエディターもいるけど、どういうつもりなんだろう twitter.com/dr_kinugasa/st...

タグ:

posted at 13:59:27

JAXAサテライトナビゲーター @satellite_jaxa

19年10月11日

JAXA地球観測研究センターが現在日本に接近中の台風19号の変化と動きを #ひまわり 8号の11um輝度温度で追いました
期間は2019/10/5 9:00(JST)~2019/10/11 11:10(JST)

#台風19号 #天気 pic.twitter.com/2QJRtZvroB

タグ: ひまわり 台風19号 天気

posted at 14:21:22

(「・ω・)「ガオー @bicycle1885

19年10月11日

Julia 1.3もRC4がそろそろ来るし、正式リリースも近そうだ。github.com/JuliaLang/juli...

タグ:

posted at 14:22:07

☔️ @nardtree

19年10月11日

私はデータもスクレイピングのコードも集計したコードも全部公開しますよ
gist.github.com/GINK03/8826e84...

タグ:

posted at 14:33:53

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 #数楽 その通りです、二項分布の中心極限定理はスターリングの公式を突っ込むだけで示せる。その計算もしくはその多項分布への一般化は

Kullback-Leibler情報量に関するSanovの定理

を経由して

中心極限定理

を出すようにすると、計算がきれいになる。

twitter.com/y_kobayashi_24... pic.twitter.com/bPU7ZrUYwf

タグ: 数楽 統計

posted at 16:08:30

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 nとp_iで決まるk_i達に関する多項分布の確率は、q_i = k_i/n とおいてStirlingの公式を適用するだけで、Kullback-Leibler情報量が出て来る!

KL情報量をその最小値q_i=p_iの周辺でq_i=p_i+x_i/√nとおいてTaylor展開して、2次の項で打ち切る近似を行なうと、中心極限定理が得られる。

タグ: 統計

posted at 16:08:30

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 多項分布の中心極限定理をKullback-Leibler情報量経由で出す計算は色々な意味で教育的な例になっています。

多変量正規分布の密度函数のexp(-(1/2)(2次式))における2次式の部分がχ²分布に従う統計量になるので(χ²分布の定義)、多項分布のχ²検定の話も出せる。

タグ: 統計

posted at 16:08:31

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 多項分布の中心極限定理の計算のポイントは k_1+…+k_r = n を使って、k_r を n-(k_1+…+k_{r-1})で置き換えて計算しないことです。

k_i達の対称性を崩さずに最後まで計算をやり切るようにしないと、非本質的な形で無用に計算が複雑になり、何をやっているのかが分からなくなります。 pic.twitter.com/6mo4rk4ar4

タグ: 統計

posted at 16:13:29

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 x_i = (k_i - n p_i)/√n で書いた中心極限定理におけるexp(-(1/2)(2次式))の2次式部分は

Σ_i x_i^2/p_i = Σ_i (k_i - n p_i)^2/(n p_i)

で、右辺がPearsonのχ²統計量と呼ばれるものになっています。多項分布の多変量正規分布による近似によって、それは近似的に自由度r-1のχ²分布に従う。

タグ: 統計

posted at 16:18:46

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 Taylor展開を2次の項で打ち切る前の「2次式」部分に対応する量は q_i = k_i/n に関するKL情報量の2n倍

2n Σ_i q_i log(q_i/p_i)

になっています。この統計量も近似的に自由度r-1のカイ二乗分布に従います。これは対数尤度比検定と関係がある。

このように対数尤度比検定とKL情報量が繋がる。

タグ: 統計

posted at 16:23:38

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 多項分布の確率の式にStirlingの公式を代入するだけのシンプルな計算なのですが、普遍的に重要な事柄を理解するために必要なヒントが自然に得られます。

シンプルな計算をよく眺めて深く理解しようとすることは、数学的事柄を理解するための最も基本になる方法です。

非常に楽しいです。

タグ: 統計

posted at 16:27:13

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 r項の多項分布のrを大きくすれば、任意の分布を近似できます。連続的な分布も領域をr個に区切れば多項分布で近似できる。

だから、多項分布に関する様々な事柄を直観的に理解しておくことは、任意の分布という訳の分からないものについての理解にも繋がっていると思います。

タグ: 統計

posted at 16:31:41

非公開

タグ:

posted at xx:xx:xx

荒木健太郎 @arakencloud

19年10月11日

台風19号が迫ってきています.
関東と東海では,日常を脅かす歴史的な大雨・暴風が予想されています.高波や高潮も極めて危険な状況になりえます.現象が始まってしまうと避難が困難になります.必ずお住まいの地域のハザードマップを確認し,外出不能になる前に適切な避難判断・行動をお願いします. pic.twitter.com/CSZgbAZKfP

タグ:

posted at 17:44:44

非公開

タグ:

posted at xx:xx:xx

増田雅昭 @MasudaMasaaki

19年10月11日

明日の関東は、台風の嵐になります。朝から雨が強弱を繰り返して降って、風は徐々に強まります。夕方~夜が嵐のピークで、外に出るのが危険な暴風雨に。身の安全を。昼間は今日より高い25℃前後で、少し蒸します。 pic.twitter.com/ZTtC9Tci1s

タグ:

posted at 20:35:14

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 「k_1+…+k_r = n を使って、k_r を n-(k_1+…+k_{r-1})で置き換えて計算しないこと」の自然さは、r項分布はr個のPoisson分布の積

Π_{i=1}^r (e^{-λ_i} λ_i^{k_i}/k_i!)

で λ_i = n p_i とおいて、k_1+…+k_r=n という条件で制限した条件付き確率分布に等しいことからも分かる。続く

タグ: 統計

posted at 21:05:34

黒木玄 Gen Kuroki @genkuroki

19年10月11日

#統計 続き。Poisson分布にStirlingの公式を代入すると

e^{-λ}λ^k/k!
≈ e^{-λ}λ^k/(k^k e^{-k} √(2πk)
= (1/√(2πk)) exp(-k log(k/λ) + k - λ)

となり、さらに λ=np, k=np+√n xとおくと、

= (1/√(2πp)) exp(-(1/2)x²/p + O(1/√n)).

これの積を制限すれば多項分布の場合になる。

タグ: 統計

posted at 21:05:35

レレレ @ll_lrrr

19年10月11日

鬼滅の刃3人
最初のイメージと、原作17巻まで読んだイメージ pic.twitter.com/BrtT0fUv55

タグ:

posted at 21:21:22

非公開

タグ:

posted at xx:xx:xx

帷子ノ辻しろっこー @ultimatile

19年10月11日

Juliaプログラミングクックブック ―言語仕様からデータ分析、機械学習、数値計算まで Bogumił Kamiński www.amazon.co.jp/dp/4873118891/...

タグ:

posted at 21:43:02

非公開

タグ:

posted at xx:xx:xx

非公開

タグ:

posted at xx:xx:xx

非公開

タグ:

posted at xx:xx:xx

Daisuke KATO @Dsuke_KATO

19年10月11日

Makieの3D plotでalphaが期待した通りに動いてくれない悲しみ。colorをRGBAでそれぞれのピクセルに指定するしかないのかな・・・。
discourse.julialang.org/t/transparent-...

タグ:

posted at 22:36:00

えくすわいえくす / xyx @xyx_is

19年10月11日

すっかり台風の話題で食べログ3.8問題は忘れられた感じはありますが、以下の調査に触発されて、自分でも調査してみました。
clean-copy-of-onenote.hatenablog.com/entry/tabelog3...
konkon3249.hatenablog.com/entry/2019/10/...

タグ:

posted at 22:50:00

Daisuke KATO @Dsuke_KATO

19年10月11日

こういうふうにsurfaceを重ねて、下も見えるようにalphaを使いたかったのです。 pic.twitter.com/M4GMqP7Y32

タグ:

posted at 22:56:18

えくすわいえくす / xyx @xyx_is

19年10月11日

上に挙げた2つの調査では、u874072eさんの調査は大阪と東京の口コミ数上位1200店、konkonさんの調査は全国の口コミ数100以上の6852店を収集したとのことでした。しかし、食べログには、ランキング上位にも口コミ数が2桁の店が少なくないため、実態が反映できているか疑問に思いました。

タグ:

posted at 22:57:11

えくすわいえくす / xyx @xyx_is

19年10月11日

まずは、先行調査の再現をするために、u874072eさんと同じく口コミ数上位1200店について、東京・大阪・神奈川・京都について調査し、結果が再現するかを確認しました。 pic.twitter.com/MczSgfT9eR

タグ:

posted at 22:59:44

Daisuke KATO @Dsuke_KATO

19年10月11日

この絵を保存するのにsave("temp.png", scene)ってやったんだけど、表示Windowがお亡くなりになってしまう・・・。

タグ:

posted at 23:00:38

えくすわいえくす / xyx @xyx_is

19年10月11日

4エリアすべてについて、3.58にピークが見られ、東京・大阪はそのピークが特に鋭く、東京は3.79と3.8の間に大きな落差があるが、大阪は緩やかで、神奈川・京都は3.8以上がそもそも少ないが減少は漸減的ということが観察できました。

タグ:

posted at 23:05:26

えくすわいえくす / xyx @xyx_is

19年10月11日

続いて、4エリアについて、ランキング順にデータを取得しました。 pic.twitter.com/mcR8qkJIi2

タグ:

posted at 23:07:10

えくすわいえくす / xyx @xyx_is

19年10月11日

東京の3.79と3.8の間の落差は、口コミが少ないところまで含めると少し緩やかになることが分かります。口コミ数が多い店に絞ると、落差が大きくなるようです。
大阪・神奈川・京都は、口コミが少ないところまで含めると3.58のピークは見られず、点数が少なくなるにつれて店数も漸減するようです。

タグ:

posted at 23:12:06

えくすわいえくす / xyx @xyx_is

19年10月11日

都道府県ごとの上位1200だと問題の3.6や3.8周辺がきちんと観察できないため、さらに細かいエリアでデータを収集してみました。

タグ:

posted at 23:14:51

えくすわいえくす / xyx @xyx_is

19年10月11日

まずは大阪について。大阪は大阪市のランキング上位1200店目が3.4のため、3.41以上の5710店のデータを収集することができました。 pic.twitter.com/m7T98M5ilV

タグ:

posted at 23:16:48

えくすわいえくす / xyx @xyx_is

19年10月11日

口コミ数が少ない店も含めると、3.58にピークは見られないが3.58と3.59の間に大きな落差があるものの、その落差は3.48と3.49などの分布のばらつきの差とあまり変わらないようにも見えます。
口コミ数50件だと3.45にもピークが見られます。

タグ:

posted at 23:25:34

えくすわいえくす / xyx @xyx_is

19年10月11日

口コミ数100件以上の3.58のピークは、より口コミ数が多い店に絞っても見られ、むしろ3.6,3.61,3.63に口コミ数が多い店が少ないのが目につきます。

タグ:

posted at 23:25:41

えくすわいえくす / xyx @xyx_is

19年10月11日

続いて、食べログの会員の種類ごとの割合の変化を見てみます。
検索結果欄をもとに「休日の注意書きがあるか(=ある場合非公式)」「公式だが店舗PR文・予約欄がない(=無料会員とみなせる?)」「店舗PR文があるが予約欄がない(=有料会員?)」「予約欄がある(=有料会員)」で分類してみました。

タグ:

posted at 23:30:14

えくすわいえくす / xyx @xyx_is

19年10月11日

大阪の店舗の結果が以下になります。非公式・無料会員でも上位に結構いるのは分かりますが、傾向が分かりにくいので、もう少しbinを太くしてみます。 pic.twitter.com/BvEppwAtnF

タグ:

posted at 23:31:46

えくすわいえくす / xyx @xyx_is

19年10月11日

0.05ごとの点数ごとの分布です。 pic.twitter.com/TbusWEwQ6U

タグ:

posted at 23:33:16

えくすわいえくす / xyx @xyx_is

19年10月11日

非公式・無料会員の店舗は、3.75--3.79にピークがあり、3.8以上は非公式の割合が少ないように見えます。
口コミ数が少ない店については絶対数が少なすぎるため傾向がつかみにくいですが、非公式・無料会員が3.8以上にも多いように見えます。

タグ:

posted at 23:38:31

えくすわいえくす / xyx @xyx_is

19年10月11日

続いて、東京の点数3.28以上の27366店について調べてみました。 pic.twitter.com/jG22sBCLJa

タグ:

posted at 23:40:21

ごまふあざらし(GomahuAzaras @MathSorcerer

19年10月11日

@julialangisthe FF から失礼します.ラズパイでJulia1.2動きますか!?

タグ:

posted at 23:40:53

えくすわいえくす / xyx @xyx_is

19年10月11日

口コミ数の多寡で分けたものです。 pic.twitter.com/gnePsl5Fqp

タグ:

posted at 23:40:54

非公開

タグ:

posted at xx:xx:xx

えくすわいえくす / xyx @xyx_is

19年10月11日

口コミ数が少ない店も含めると、3.48以下は店数のばらつきが大きいものの、3.48以上は店数が漸減し、3.79と3.8の間だけ落差が大きいのが分かります。

タグ:

posted at 23:47:09

えくすわいえくす / xyx @xyx_is

19年10月11日

また、口コミ数が多い店は、3.45と3.58にピークがあり、3.47、3.61に大きな谷があり、3.79と3.8の落差が非常に大きいのが分かります。
逆に、口コミ数が少ない店は、3.57と3.58に谷があるのが分かります。

タグ:

posted at 23:47:15

えくすわいえくす / xyx @xyx_is

19年10月11日

続いて、食べログの会員の種類ごとの割合です。 pic.twitter.com/Yb9LBorYsm

タグ:

posted at 23:49:09

えくすわいえくす / xyx @xyx_is

19年10月11日

3.45のあたりが有料会員が多く、3.8--3.84に非公式・無料会員のピークがあり、3.85以上は有料会員の割合が増えているように見えます。

タグ:

posted at 23:52:30

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました