Twitter APIの仕様変更のため、「いいね」の新規取得を終了いたしました

黒木玄 Gen Kuroki

@genkuroki

  • いいね数 389,756/311,170
  • フォロー 995 フォロワー 14,556 ツイート 293,980
  • 現在地 (^-^)/
  • Web https://genkuroki.github.io/documents/
  • 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
並び順 : 新→古 | 古→新

2019年08月25日(日)

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 しかし、一つだけ自信を持って言えることがあって、それは

サンプル(標本、数値列になる)の分布の様子(例えばヒストグラムや散布図など)は必ず見ておいた方が良い

ということである。様子が正規分布から程遠ければ正規分布モデルの使用には疑いを持った方が良い。

タグ: 統計

posted at 23:57:07

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 この辺についてクリアな説明が無ければ、正規母集団という数学的モデルについての解説をしても、それをどのように現実世界に応用して良いのか分からなくなると思う。

正直な話、私はその辺についてまだ十分理解できていない。

タグ: 統計

posted at 23:57:07

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 要するに

* 母集団分布が正規分布でなければ、正規分布モデルで推定してはいけない。

* 母集団分布が正規分布でなくても、正規分布モデルで推定しても大丈夫である。

のどちらも誤りなのです。実際には、誤差が十分小さな場合と誤差が大きくなる場合の両方がある。

タグ: 統計

posted at 23:57:06

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 一部が全体の平均点に影響を与えるくらい外れ値的な高得点を取る場合の正規分布モデルを使った通常の区間推定の数値実験については以下のリンク先を参照。

twitter.com/genkuroki/stat...

タグ: 統計

posted at 23:57:05

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 そして、母集団分布がほんのちょっとしか離れていないように思ってしまいそうな場合であっても、正規分布モデルによる推定が大外しする場合もあることが分かります。

例:一部が全体の平均点に影響を与えるくらい外れ値的な高得点を取り、例外的な外れ値を除けば正規分布になっている場合。

タグ: 統計

posted at 23:57:04

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 色々条件が揃えば、現実の母集団分布が正規分布でない場合であっても、正規分布モデルを使った推定が悪くなさそうな誤差で済む場合が結構あることが、コンピューターで数値実験してみれば分かります。

タグ: 統計

posted at 23:57:03

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 「数学的モデルとしての確率分布を分布として持つ仮想的な母集団」の例としてよく出て来るのは、

* 正規分布を分布として持つ仮想的な母集団。

これを「正規母集団」と呼ぶこともある。

正規母集団は現実の母集団ではなく、数学的モデル。

これらは当然明瞭に区別されるべき。

タグ: 統計

posted at 23:57:02

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 現実の母集団分布の例は

* S市の小学6年生全員分の身長の分布

* ルーレットを回したときの出目の確率分布

などがある。前者では乱数を使って1人を無作為抽出したときの身長の確率分布を扱う。後者では集団はないが、母集団分布と呼んでよい。数学的定式化はどちらも独立同分布確率変数列。

タグ: 統計

posted at 23:57:01

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 続き

もしかしたら「母集団」という用語も要注意かも。

まず、「現実の母集団」とそれを近似しているかもしれない「数学的モデルとしての確率分布を分布として持つ仮想的な母集団」の区別が必要。

統計学入門の解説の多くがその辺をクリアに書いていない。

twitter.com/genkuroki/stat...

タグ: 統計

posted at 23:56:50

galacta @galacta_dm

19年8月25日

@genkuroki 物理でも同じですね。「熱エネルギー」とか。

タグ:

posted at 23:11:53

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 注意:現実の母集団分布(未知)の平均や分散も「母数」と呼ぶ場合には、「母数」を「パラメーター」と言い変えても分かり難い。母集団の平均や分散は未知の母集団分布を決めるためのパラメーターではないのに!

この辺は数学的モデルと現実の区別を曖昧にする傾向と関係があると思う。

タグ: 統計

posted at 23:04:54

kh @nishiarai_d10

19年8月25日

その確率分布に従うデータを生成する「母なる数」だからね。母数が決まるとその分布が決まるから。 twitter.com/genkuroki/stat...

タグ:

posted at 22:52:33

おばけ @triwave33

19年8月25日

@genkuroki ありがとうございます。broadcastの他に、function宣言しない関数定義ができることやbenchmarkの使い方など大変参考になりました。

タグ:

posted at 22:04:57

Xbox kyrie @kyrie16

19年8月25日

1914年から2018年の軍事費、世界ランキング
pic.twitter.com/SF7E4eqMxp

タグ:

posted at 21:55:31

Haruka Ozaki (尾崎遼) @yuifu

19年8月25日

学生さんの教育用に簡単な例がたくさん載っているページを探していたので、これは便利 #Julia言語
juliabyexample.helpmanual.io/#Arrays

タグ: Julia言語

posted at 21:48:19

Ken-Ichi Sakakibara @quesokis

19年8月25日

本当に日本語の伝統的な統計の教科書は読みにくくて耐えられない,と云うのが正直な感想.統計はいまや数理科学であるのに,日本語の教科書を読んでるとすごく疲れるのは何故だろうとずっと思っていた. twitter.com/genkuroki/stat...

タグ:

posted at 21:47:23

江口某(粗忽要介護2級) @eguchi2018

19年8月25日

まとめを更新しました。「optical_frog先生といっしょにCappelen & DeverのBad Languageを読んで概念工学について学ぼう」 togetter.com/li/1393686

タグ:

posted at 21:24:07

Integrable Systems, @integrablesys

19年8月25日

Did you know that a highly influential Japanese mathematician Tosio Kato was born in 1917 #OnThisDay? To celebrate, read for free his seminal paper on the Navier--Stokes equations at rdcu.be/bPval @adhara_mathphys @genkuroki
Link made using HT ➡️twitter.com/OpenScienceR/s... pic.twitter.com/TzLzMdI4wD

タグ: OnThisDay

posted at 21:00:44

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#Julia言語 #JuliaLang

broadcast を使った

@. x - y'

でも同じ結果が得られます。dot-syntax を使うとシンプルに書けて非常に便利です。速度的には同じ程度。

twitter.com/triwave33/stat... pic.twitter.com/lCMQFtQEll

タグ: JuliaLang Julia言語

posted at 21:00:39

optical_frog @optical_frog

19年8月25日

「経済学101」の更新をチェックするには,公式アカウントをフォローやよー.twitter.com/econ101jp

タグ:

posted at 20:13:23

optical_frog @optical_frog

19年8月25日

あと,OBR のExcelファイルを見つけてグラフを確かめるのもちょっとめんどかった.

タグ:

posted at 20:05:34

optical_frog @optical_frog

19年8月25日

大半の方々には果てしなくどうでもいいことですが,wellbeing の訳に悩んで「健康で平穏な生活」と言い換えたのが今回のがんばりです.econ101.jp/%e3%82%b5%e3%8...

タグ:

posted at 20:03:02

Shuhei Kadowaki @kdwkshh

19年8月25日

1.3のマクロのinterpolationのバグ、解決されたっぽい。
CIのnightly buildでも動いてた。

github.com/JuliaLang/juli...

タグ:

posted at 19:48:29

Shuhei Kadowaki @kdwkshh

19年8月25日

そういえば先々週にJuliaComputingからinvitationをもらって、Junoのメンテナーになった。
このままJuliaたくさん書いてそのままデイワークにしてしまいたい。

#julialang #juno

github.com/orgs/JunoLab/p...

タグ: julialang juno

posted at 19:41:12

abacha @abacha93435322

19年8月25日

@sekibunnteisuu @hoshi1221 @Yossy_K @UFOprofessor @genkuroki @nekohanahime @xin1zu2zhai1 @mizu150529 @open_tyabouzu 報告有り難うございます。特に問題ないようなので、遠慮なく使い下さい!

タグ:

posted at 19:27:27

Massimo @Rainmaker1973

19年8月25日

At first it looks like cloth, but it's dough that will be turned into croissants buff.ly/2p8o8E0 pic.twitter.com/NE4WpbVbLO

タグ:

posted at 19:23:33

須山敦志 Suyama Atsushi @sammy_suyama

19年8月25日

「ベイズ深層学習」を執筆したものの、今までの深層学習自体のアプローチや考え方には驚きもしないし、将来的な期待も一切ないです。どちらかというと、「複雑な統計モデルの設計と推論の効率化」が重要で、実際それが本の裏テーマになっている。

タグ:

posted at 19:23:32

積分定数 @sekibunnteisuu

19年8月25日

「「二月の勝者」の中の授業風景から」をトゥギャりました。 togetter.com/li/1395119

タグ:

posted at 19:20:20

abacha @abacha93435322

19年8月25日

@sekibunnteisuu @nekohanahime こう、擬人化でも、『押しくらまんじゅうが均衡している場合に、一部の人をマッチョマンあるいは子供に入れ替えると均衡が崩れる。均衡を保つには「同じ力で押し返す人」が必要』みたいな説明ならまだましかもしれませんね。

タグ:

posted at 19:14:01

須山敦志 Suyama Atsushi @sammy_suyama

19年8月25日

長く研究していた人からすれば、ずっと固執していたラベル付き問題の予測精度が深層学習によって劇的に向上したからイノベーションだと騒ぐ。一般の人から見ると、そもそもデータ解析やAIで今までできたことなんてまるでキャッチアップしていなかったから、やはりイノベーションだと騒ぐ。

タグ:

posted at 19:13:22

須山敦志 Suyama Atsushi @sammy_suyama

19年8月25日

「アノテーションされているデータの中」だけで「深層学習がイノベーションを起こしている」イメージ。実情は丸暗記ベースのアルゴリズムに毛が生えた程度の印象ですね。

タグ:

posted at 19:10:02

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 母集団から小割合のn人を無作為抽出して統計分析を行うと、その誤差は、抽出した人数の全体に対する割合ではなく、抽出した人数のnで決まる。

典型的な状況で、誤差はnを増やすとき 1/√n のオーダーで小さくなる。例えば精度を1桁上げたければ抽出する人数を100倍に増やす必要があって大変!

タグ: 統計

posted at 19:09:27

(「・ω・)「ガオー @bicycle1885

19年8月25日

みんな数値計算してる。してへんのは俺だけ。

タグ:

posted at 19:05:58

abacha @abacha93435322

19年8月25日

@sekibunnteisuu @nekohanahime 「変な喩えだなぁ」と思う生徒がでてしまうという デ メ リ ッ ト  でした。すみません。

タグ:

posted at 19:03:05

optical_frog @optical_frog

19年8月25日

グラフはこっちを参照らしい.www.gender.go.jp/about_danjo/wh...

タグ:

posted at 19:01:07

abacha @abacha93435322

19年8月25日

@sekibunnteisuu @nekohanahime まあ、比喩の仕方自体や擬人化はあまり褒められないですけどね。まあ、全然聞いてくれない生徒のうち一人でも「え、なんか面白そう」と思ってくれれば良いかな、とは思います。その一方で、「変な喩えだなぁ」と思う生徒がでてしまうというメリットは否定しませんです。

タグ:

posted at 18:58:48

積分定数 @sekibunnteisuu

19年8月25日

@abacha93435322 @nekohanahime 擬人化しているのがよくないし、比喩としてもかなりずれていて、デメリットの方が大きいでしょう。

タグ:

posted at 18:50:58

積分定数 @sekibunnteisuu

19年8月25日

水中では水圧が生じる、水圧はあらゆる方向に力がかかる、深いほど水圧は大きい、深く潜ると耳が痛くなる、深海魚を釣り上げると目玉や内臓が飛び出す、

というような説明をして、じゃあ水中に物体を入れたら圧力がどうかかるか?

という具合に、普通に教えればいいだけだと思うが

タグ:

posted at 18:44:38

非公開

タグ:

posted at xx:xx:xx

積分定数 @sekibunnteisuu

19年8月25日

@sunchanuiguru 私の知り合いもそこから出版している左系の出版社^^

タグ:

posted at 18:41:32

abacha @abacha93435322

19年8月25日

@sekibunnteisuu @nekohanahime なんというか、「むずかしそうな理屈だと最初から拒絶する」生徒もいますから、その壁をこじ開けるためなら悪くないかと。勿論、こういうのばかりだと効き目がなくなるのでピンポイントで使うことが前提。その後はちゃんと理論を説明して欲しいですけど。

タグ:

posted at 18:40:44

積分定数 @sekibunnteisuu

19年8月25日

水の密度が1g/㎝^3だから、100㎝^3と100g重が対応しているのであって、密度が異なる液体だと値は違ってくる。

100人入ってきたら100人分の力で追い出そうとする

というのは、比喩としても極めて駄目な代物。

タグ:

posted at 18:40:36

黒木玄 Gen Kuroki @genkuroki

19年8月25日

これすごすぎ。

gnuplotとアニメーション slpr.sakura.ne.jp/qp/gnuplot-ani... @sikinoteより

タグ:

posted at 18:37:13

積分定数 @sekibunnteisuu

19年8月25日

#超算数
「こんなに違う! アジアの算数・数学教育」田中義隆 明石書店

を図書館で借りてきた。読み始めたばかりだが、等分除、包含除、求残、求差などの用語が満載で香ばしい。

タグ: 超算数

posted at 18:37:06

積分定数 @sekibunnteisuu

19年8月25日

@nekohanahime 講師自身はちゃんと理解していて、敢えて子供だましの授業をしているのでしょうかね?それとも、そうやってごまかすことしかできないのでしょうかね?

タグ:

posted at 18:34:27

黒木玄 Gen Kuroki @genkuroki

19年8月25日

おお!これはすごい! gnuplot特有のきれいさも楽しめる。必見!

twitter.com/cloez_uya/stat...

タグ:

posted at 18:33:12

非公開

タグ:

posted at xx:xx:xx

積分定数 @sekibunnteisuu

19年8月25日

@nekohanahime それはいろいろつらいものがある。子供だましもいいところ。

タグ:

posted at 18:21:51

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 無作為抽出でデータが得られている場合には、データに基く分析では無作為抽出で使った乱数の出目の確率的揺らぎに配慮する必要があります。統計学ではこのようにして確率論が必須の道具になる。無作為抽出の統計学で必要な確率論の三種の神器は

* 大数の法則
* 中心極限定理
* Sanovの定理

タグ: 統計

posted at 18:18:04

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 母集団から小さな割合の人数を無作為抽出することは、確率論における独立同分布確率変数列として定式化されます。確率が登場する理由は無作為抽出で乱数を使っているから。

独立同分布確率変数列を数学的に分析すれば、無作為抽出で運悪く母集団の様子からかけ離れる様子が分かる。

タグ: 統計

posted at 18:13:47

optical_frog @optical_frog

19年8月25日

江原せんせいのこの記,どのページにもグラフは見当たらないけど,当初はなんかグラフが掲載されてて,削除されたってことかな.それとも,べつの文章? gendai.ismedia.jp/articles/-/66706

タグ:

posted at 18:08:40

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 以上の話は(実は当たり前の話なのですが)、ベイズ統計にも当てはまります。

ベイズ統計による推測の信頼度も、無作為抽出した人数で決まり、抽出した人数の全体に対する割合は考慮しなくてもよい。

タグ: 統計

posted at 18:08:19

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 無作為抽出の仮定は数学的に強い結論を導きます。

しかし、現実の統計分析では「無作為抽出だとみなして良いのか?」が常に問題になります。単純に「無作為抽出」だと思って統計分析して良いデータが得られることは稀です。

そこは工夫が必要になる。結構ややこしい。

タグ: 統計

posted at 18:04:19

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 無作為抽出になっていると仮定できるならば、選んだ人数が重要になり、選んだ人数の全体に対する割合はどうでもよいことであることを数学的に確認できるのです。これこそが

無作為抽出の威力

なのです。

タグ: 統計

posted at 17:59:22

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 無作為抽出を行なっているならば、統計的推測の信頼度は、抽出した割合の1.5%強という数値ではなく、抽出した人数の100人で決まることが数学的にわかっています。

無作為抽出した人数が100人なら、母集団の人数が6543人であろうが、100万人であろうが、100人分から得られる精度の推定をできる。

タグ: 統計

posted at 17:56:53

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 以上で説明した無作為抽出の設定では、S市の小6全員6543名から100人を乱数で選ぶとなっています。全体の1.5%強しか選んでいない。

よくある誤解は「全体の1.5%強だけの調査なので全く信頼できない」と判断してしまうことです。

タグ: 統計

posted at 17:54:02

あ〜る菊池誠(反緊縮)公式 @kikumaco

19年8月25日

多発してない。普通の発症数 twitter.com/okei75/status/...

タグ:

posted at 17:52:05

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 上では、知りたいことがS市の小6全体の平均身長と分散としたのですが、S市の特殊事情のせいで、身長の分布が1つ山ではなく、2つ山になっている可能性が高いならば、平均と分散で身長の分布の様子を表そうとすることは適切ではありません。

タグ: 統計

posted at 17:46:45

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 もちろん、現実のS市の小6全体の身長の分布が正規分布からかけ離れていることが確からしいならば、別の方法を考える必要があります。

例えば、S市の小6全体の中に飛び抜けて背が高い児童が何らかの理由で無視できないくらい大きな集団として含まれている場合にはそうなるかもしれない。

タグ: 統計

posted at 17:42:47

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 S市の小6全体の身長の分布が正規分布からそう離れていなければ、正規分布に従う乱数を100個生成したときにその100個の分布が元の正規分布の様子からかけ離れるリスクを計算することによって、S市に小6全体から100人だけを無作為抽出したときのリスクの大きさを大まかに把握できます。

タグ: 統計

posted at 17:37:21

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 S市の小6全体6543人の身長の分布は未知ではあるが確定しいると考えられます。

しかし、そこから100人を乱数で抽出したとき、乱数の出目によっては身長の高い子が偏って選ばれてしまう危険性があります。

統計学の入門ではそういう危険性を確率論的な計算で評価することを学びます。

タグ: 統計

posted at 17:32:02

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 知りたいことが、S市の小6全体の平均身長と分散であるとき、無作為抽出した100人の身長のデータから推定するというようなことが、統計学の入門的解説でされることなわけです。

タグ: 統計

posted at 17:32:01

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 姉妹編:無作為抽出について

例えばS市の全小学6年生の人数が6543人だとします。そこから100人を無作為抽出するときには、児童に1から6543の番号を付けて、1から6543までの数が等確率で出る乱数を100個生成して、100人を選びます。

twitter.com/genkuroki/stat...

タグ: 統計

posted at 17:31:59

@cloez_uya

19年8月25日

gnuplotの可能性を感じるのはこれ。FGOと魔女の宅急便が好き。あたまおかしい
slpr.sakura.ne.jp/qp/gnuplot-ani...

タグ:

posted at 17:15:44

プレタポルコ @PretaPorco

19年8月25日

弟、甥っ子のためにトーマスも作ってたんだけど!!!!www
引っ張って遊ぶらしい‼️ pic.twitter.com/gOjTbadpfr

タグ:

posted at 17:11:24

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 主観が入って来てもよいが、「あなたの主観は、わたしの主観ではない。あなたの主観も私の主観も無関係の基準で互いの推定結果の優劣を競いましょう」とならなければ、我々の社会の中で適切に役に立てることはできないと思う。

タグ: 統計

posted at 17:05:47

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 いずれにせよ、【確率の主観的解釈】はベイズ統計が有効な道具であるということの論拠のためには不必要です。

もちろん「俺は事前分布で俺の信念を表現した」と言う人が出て来ることは許容しますが、その「俺」さんの推定結果が「俺」さんの主観によってみんなに受け入れられるわけではない。

タグ: 統計

posted at 17:01:48

非公開

タグ:

posted at xx:xx:xx

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 ベイズ統計の数学的仕組みで、我々人間の主観の更新を適切にかつ簡単に表現できるという考え方自体が大いに疑問。

ある程度以上モデルが複雑になると、その挙動を人間は簡単には理解できなくなる。

タグ: 統計

posted at 16:58:29

積分定数 @sekibunnteisuu

19年8月25日

二月の勝者 第5巻より

こういうのが、「面白い授業」なんですかね? pic.twitter.com/B0zvkzJ9Fj

タグ:

posted at 16:49:36

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 ある人達の主観確率を適切に再現するベイズ統計モデルを作ることに成功したとしても、その人達の主観が現実から乖離していたなら、そういうモデルをリスクマネジメントやリスクアセスメントに使うことは社会的な損失をもたらす危険性があります。こういうJIS規格はやめて欲しいです。

タグ: 統計

posted at 16:48:53

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 このスレッドで指摘している問題はJIS規格

www.jisc.go.jp/app/jis/genera...

で「ベイズ統計」を検索しても見つかります。添付画像は

JISQ31010 リスクマネジメント-リスクアセスメント技法

より。さすがに

【ベイズ的アプローチは確率の主観的解釈を論拠にしている】

という主張は時代錯誤。 pic.twitter.com/54zeIAd9JJ

タグ: 統計

posted at 16:47:59

ceptree @ceptree

19年8月25日

G N U P L O T 最 強 伝 説 pic.twitter.com/qc6EOCCOUZ

タグ:

posted at 16:43:50

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 まとめ

* 「標本数」と言いたくなったら、「標本サイズ」と言い直すと統計学用語警察に逮捕されずにすむ。

* 「母数」は「パラメーター」と言い直すと誤解される可能性を減らせる。

* 数学的モデルと現実の母集団(母集団分布は未知)を厳密に区別しよう!

タグ: 統計

posted at 16:19:36

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 統計学の入門的解説では、数学的モデルと現実の母集団の区別が曖昧なものが多いので、読者は常に「数学的モデルと現実の母集団のどちらを扱っているのだろうか?」と問い続ける必要があります。

私もそれは非常につらいと感じていて、解説内容を理解できずに、強い疑問が残ることが多いです。

タグ: 統計

posted at 16:17:05

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 数学的モデルとしての正規分布の平均や分散のような母数(パラメーター)と現実の未知の母集団分布の平均や分散のような母数(パラメーター)は厳密に区別されなければいけません。

数学的モデルと現実を混同した途端に非科学的な考え方に落ち込む。

タグ: 統計

posted at 16:15:07

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 統計学の文脈では「現実の母集団の分布は未知である」という設定を通常採用します。現実の母集団分布が既知なら統計分析に出番はありません。

現実の母集団の平均や分散(それらは未知)をも母数(パラメーター)と呼ぶことがあります。

母数は母集団サイズという意味ではありません。

タグ: 統計

posted at 16:10:32

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 統計学用語としての「母数」はparameterの訳語のようです。

例えば、平均μ分散σ²の正規分布には、μとσ²の2つのパラメーターが入っているのですが、それらを母数と呼んだりするわけです。この場合は単に正規分布を決めるパラメーターを母数と呼んでいるだけであり、母集団とは無関係です。続く

タグ: 統計

posted at 16:07:17

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 他にも、統計学には

母数

という用語があります。「母数」の「母」を「分母」の「母」の意味だと__誤解__する人が非常に多い。個人的な意見では、「母数」という用語は日本語話者にとって無用な負担を強いる悪しき専門用語だと思う。しかし、広まってしまったので、知らないと困る場合がある。

タグ: 統計

posted at 16:03:59

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計

標本=数列

なので「標本数」は「標本の個数」=「数列の個数」という意味になり、「数列中の数値の個数」を意味しないと解釈されてしまいます。

「標本サイズ」(サンプルサイズ)と言えば、数列の長さの意味になり、発音筆記コスト的にも「標本数」(←誤り)とそう変わらないのでよいと思う。

タグ: 統計

posted at 16:03:58

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 統計学用語で

標本(サンプル)

と言えば、現実の観測や調査で得た数値の列を意味します。例えばサイコロを5回ふって得られた数列

1, 3, 5, 5, 2

はサイズ5の標本です。

標本(サンプル)は数列を意味し、数列中の各々の数値を標本(サンプル)と呼ぶのではないことに注意する必要があります。

タグ: 統計

posted at 16:03:58

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#統計 日本語での統計学用語は、歴史的経緯によって、日本語話者が誤解し易いスタイルで固定されてしまっているものが少なくないと思う。より一般に数学用語にはそういうパターンが結構あるので、「どうしてそう呼ぶか」を余り気にしない癖をつけておかないと誤解する場合が増えてしまうと思う。続く

タグ: 統計

posted at 16:03:57

プレタポルコ @PretaPorco

19年8月25日

“ボールひとつを追って撮って欲しい”というリクエストたくさんいただきました‼️
結構すぐみえなくなっちゃうし何通りもルートがあるので、短い動画では難しい…。ボールのルートが主役ではないのがピタゴラスイッチとは違うのかも‼️
でも、ちゃんと映像に残そう、って思いました!ありがとうございます

タグ:

posted at 14:43:01

小嶋 徹也 @coJJyMAN

19年8月25日

これホントにわざとじゃなかったんですよね。。参ったな?ちょっと整理しとこ。。 twitter.com/genkuroki/stat...

タグ:

posted at 13:42:28

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki ありがとうございました。。色々と間違えていました。
やっとわかりました。改めて謝罪&撤回致します。(記録は残しておきます)

タグ:

posted at 13:21:27

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN さすがに開票速報と当確発表について

「母集団データに結果的にムラがあったとしても、抽出作業が無作為であれば無作為抽出なので、(選管に違反がなければ)選挙結果は無作為抽出の結果である。」

などと言うのは論外だと思います。

「当確発表」の話題なのに「選挙結果」とか言っているし。

タグ:

posted at 13:02:23

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN その回答が間違っていることを認めたかどうかを私は質問しています。

選管が違反していなくても、開票速報は開票規模の小さな地域の方が先に出て、都市部は遅れます。だから、開票速報の初期での得票数の集計結果は無作為抽出の結果とみなせません。

以上です。

twitter.com/coJJyMAN/statu...

タグ:

posted at 13:00:26

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 開票速報の結果を無作為抽出だとみなして解釈してよいと本気で思っている?

への、小島さんの回答は

「母集団データに結果的にムラがあったとしても、抽出作業が無作為であれば無作為抽出なので、(選管に違反がなければ)選挙結果は無作為抽出の結果である。」

続く

twitter.com/genkuroki/stat...

タグ:

posted at 12:55:38

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 謝罪訂正:以下のリンク先の「Yes」を「No」に訂正します。混乱させたと思います。ごめんなさい。続く

twitter.com/genkuroki/stat...

タグ:

posted at 12:53:07

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN どうして報道機関が出す当確の話題に【(選管に違反がなければ)】と言えるのか理解不能だったのですが、小島さんは当確発表を選管がやっているのだとひどく誤解していることが後で判明しました。

twitter.com/coJJyMAN/statu...

続く

タグ:

posted at 12:46:17

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 小島さんの回答

【「母集団データに結果的にムラがあったとしても、抽出作業が無作為であれば無作為抽出なので、(選管に違反がなければ)選挙結果は無作為抽出の結果である。」と思っています。】

「母集団データ」という意味不明の用語については目を瞑りましょう。続く

twitter.com/coJJyMAN/statu...

タグ:

posted at 12:43:29

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 私は

【開票速報の結果を無作為抽出だとみなして解釈してよいと本気で思っている?】

と質問しました。続く

twitter.com/genkuroki/stat...

タグ:

posted at 12:40:44

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki よろしくおねがいします。

タグ:

posted at 12:39:29

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 以下の連続ツイートでリンクを貼って説明します。

twitter.com/cojjyman/statu...

タグ:

posted at 12:39:07

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 統計学では、無作為抽出によってサンプル(例:取り出した玉の色の列)に生じる偏り方を分析しておく必要があるので、コンピューターである特定の確率分布に従うサンプルを沢山生成(玉の色の列を沢山生成)して、どうなっているかを見ることがあります。「サンプルの集まり」だとそういう意味になる。

タグ:

posted at 12:36:48

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 「サンプル」と同じ意味で「データ」という言葉を使うことはあっても、「サンプル」=「データ」を「サンプルデータの集まり」と呼ぶことは統計学の文脈ではないです。

これが専門用語の側の質が悪いことが原因で生じているよくある誤解。続く

twitter.com/cojjyman/statu...

タグ:

posted at 12:33:02

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 補足:例えば膨大な数の様々な色の玉が入っている袋から無作為で取り出した玉の色が

赤, 白, 赤, 青, 白, 白, 白

のとき、この

(赤, 白, 赤, 青, 白, 白, 白)

がサンプル=標本の例になっており、これを「サンプル集団」とは普通呼ばないと思います。

twitter.com/genkuroki/stat...

タグ:

posted at 12:30:30

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki はいすみません。サンプルデータの集まりです。いやはや、ほんとに。。

タグ:

posted at 12:27:26

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN それでは、サンプルのことをサンプル集団と呼んだんですか?

「サンプル集団」を「母集団」と解釈したのはひとまずのものです。

タグ:

posted at 12:25:02

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 間違いを認めたかどうかを明瞭に述べて下さい。

タグ:

posted at 12:22:28

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 無作為抽出の結果偏りが生じてしまうこと(例:赤い玉と白い玉がそれぞれ500個ずつ入っている袋から無作為に10個取り出したら8個が赤で2個が白だった)と、最初から偏った抽出であることが分かっている場合は異なります。

たぶん、それらの区別で混乱しているのだと思いました。

タグ:

posted at 12:21:39

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki どう訂正しろと。。?(笑)
「出口調査は無作為にサンプリングしていたと予想される。」とか?

タグ:

posted at 12:16:58

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN しかし【そうですそうです】と答えたということは、私の【開票速報の結果を無作為抽出だとみなして解釈してよいと本気で思っている?】という質問にYesと答えることができなかった小島さんが間違っていたことを認めたわけですよね?

続く

twitter.com/coJJyMAN/statu...

タグ:

posted at 12:14:42

弁護士 小口 幸人 @oguchilaw

19年8月25日

め、めまいがしてくる。

スカートの長さが決められているが56.96%で下着の色が決められているが15.82%

教育委員会と学校の先生はなにを考えているんだろうか。下着の色はマジ意味不明

「ブラック校則」改善要求6万筆 荻上チキ氏ら、文科省に署名提出 : J-CASTニュース www.j-cast.com/2019/08/233657...

タグ:

posted at 12:12:28

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN だから、

宮城県での開票前の票全体の集合については無作為性が確保されていた

のように述べることは、無作為抽出の意味での「無作為」とは異なる意味で「無作為」という用語を使っていることになります。

この点は訂正した方がよいと思います。続く

タグ:

posted at 12:11:13

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki サンプル集団がなんで「母集団」意味なんですか?!

タグ:

posted at 12:09:20

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 【無作為性が確保されていたのは、開票前のサンプル集団だけだったと思います】

無作為抽出=random samplingの意味での無作為性は、抽出の仕方に関する条件であり、宮城県での開票前の票全体の集合の状態に関する条件ではありません。続く

タグ:

posted at 12:08:37

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 【無作為性が確保されていたのは、開票前のサンプル集団だけだったと思います】

私は小島さんが無作為抽出についてひどく誤解している可能性を心配しています。

「サンプル集団」の意味が理解できないのですが、以下ではそれを「母集団」の意味だと解釈します。続く

twitter.com/cojjyman/statu...

タグ:

posted at 12:05:14

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki どうもです。ぼくも、れいのスレッドの記事のすぐ下に、「ご注意」としてwikipedia:出口調査をさっきぶら下げておきました。

タグ:

posted at 12:04:58

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN ついさっき見つけた資料

web.archive.org/web/2019072114...
【「Nスタ×NEWS23 選挙スペシャル」を担当する嶌さんによると、午後8時の「当選確実」を誰に出すかは、その1時間ほど前の会議でほとんど固まっているそうです。~つまり、まだ投票が続いている段階で「当選確実」を決めていることになります。】w

タグ:

posted at 11:56:55

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki この場合は、地方票の開票前情報と開票後の情報が一致していれば無作為性は追認できるので、開票前の偏りが終盤で決定的な要因になったのでしょう。テストケースとして、とてもいいですね。教材に使えそうです。ありがとうございました。

タグ:

posted at 11:50:11

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 事前の報道機関でも、当確が出るのは最終までまつれこむと予想される。という記事を見つけました。そもそも、サンプリングに構造的な偏りがあることが知られていたんですね。

タグ:

posted at 11:48:07

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki そうですそうです。100万票のうち、1万票の差で決着がついたのですよね。無作為性が確保されていたのは、開票前のサンプル集団だけだったと思います。

タグ:

posted at 11:33:55

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 開票速報初期の正確な数字は覚えていないですが、大体の状況はすでに何度も説明しています。

twitter.com/cojjyman/statu...

タグ:

posted at 11:18:25

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 開票規模が小さな地域の方が早めに開票速報が出る傾向があります。そして、先の参議院選挙ではそういう地域の方で与党候補が強いことが分かっていました。

で、実際に開票速報が始まった直後に与党候補の票が伸びて野党候補に結構大きな差をつけた。

この状況を無作為抽出扱いするのは論外。

タグ:

posted at 11:17:14

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 個別具体的なお話ですね。確認ですが、最終結果は
当474,692 石垣のり子 立新(1)(社推)
 465,194 愛知 治郎 自現(公推)
  36,321 三宅 紀昭 諸新
ですね。
それで、初期の様子というのはどうだったのでしょうか?教えて下さい。黒木さんはご存知なんですよね?

タグ:

posted at 11:13:54

あ〜る菊池誠(反緊縮)公式 @kikumaco

19年8月25日

野党は消費税増税阻止に向けてあらゆる手段で戦ってください。なんのために野党に投票したとおもっているのか

タグ:

posted at 11:13:00

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 選管から開票地区の開票率の情報を情報を報道機関が得ているのでしょう?

タグ:

posted at 11:11:17

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN それは別の話。

先の参議院選挙での宮城県選挙区の開票速報の初期の様子を無作為抽出された状態だとみなせないこと

を小島さんが認めたかどうかを問題にしています。小島さんがどう考えているかを問題にしている。

twitter.com/cojjyman/statu...

タグ:

posted at 11:10:25

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 【選管から報道機関がその情報を得ていて、報道機関が当確を出せなかった】???

もしかして【抽出方法に偏りがあったこと】という情報を報道機関が選管から得ていると思っているのですか?続く

twitter.com/coJJyMAN/statu...

タグ:

posted at 11:05:45

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 待ってください。宮城野県に限らず、どんな状況でも開票に偏りがあると見なわれる状態では、当確は出さないですよ。僕が何を勘違いしていると、黒木さんは思っておられるのでしょう?

タグ:

posted at 11:03:35

CZK(カレー先生) @TSEXh8qR9MMqhvo

19年8月25日

@RochejacMonmo 昨日RSTを受験したものです。知識を問わないテストと言いながら学校で習うレベルの知識があれば「読まなくても解ける」問題があって驚きました。全否定はしませんが改良は必要だと思います。このテストが正当性を持って大学入試に関わって来るとしたらまた揉めますね🤔

タグ:

posted at 11:01:14

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki あ!そうですね。すみません。選管から報道機関がその情報を得ていて、報道機関が当確を出せなかったに、訂正させてください。

タグ:

posted at 11:00:00

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN なんか色々勘違いしているようですが、せめて、つい先日の参議院選挙の宮城県選挙区での開票速報の初期の状況を無作為抽出された状態とみなしてはいけないことくらいは早く認めた方がよいと思います。

twitter.com/cojjyman/statu...

タグ:

posted at 10:56:22

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki そういう場合ですと、期日前投票と、出口調査で開票前に母集団分布を推定します。「出口予想」ですね。それと、当日の開票サンプルから得られる母集団分布の推定を別に行って、出口予想との分布が、同じ母集団分布からのサンプルだとはとても考えられない(適合度検定)状態では当確は出せません。

タグ:

posted at 10:54:59

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN まず

当確発表は報道機関が行なっており、選挙管理委員会が行なっているのではない

という事実を指摘しておきます。

twitter.com/cojjyman/statu...

タグ:

posted at 10:53:17

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 母集団が簡単のため様子が異なるAとBの2つに分かれているとします。そのとき、Aの側のみから無作為抽出することは、母集団全体からの無作為抽出にはなりません。

先の参議院選挙の宮城県選挙区での開票速報の初期の様子はまさにそういう状態でした。

twitter.com/cojjyman/statu...

タグ:

posted at 10:49:30

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 宮城県の件は、抽出方法に偏りがあったことが明らかになっているのですか?それが事実なら、選管が開票中にその点を考慮して、偏りが減るまで当確を出せなったのだと思います。

タグ:

posted at 10:47:28

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 私によるより詳しい説明↓

twitter.com/genkuroki/stat...

タグ:

posted at 10:39:41

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN #統計

* 無作為抽出(もしくは独立試行)をしたが偏りが出ること



* 偏った抽出の結果偏りが出ること

を混同していると思いました。

先日の参議院選挙の宮城県選挙区の開票速報の初期の状況は「偏った抽出の結果偏りが出ること」の典型例でした。

twitter.com/cojjyman/statu...

タグ: 統計

posted at 10:38:12

Akinori Ito @akinori_ito

19年8月25日

試しに初音ミクの消失をトラッキングしたら推定BPMが118に。BPMを60~180に設定したからなあ

タグ:

posted at 09:45:44

Akinori Ito @akinori_ito

19年8月25日

しかしトラッキング結果が裏拍になっちゃう問題は解決してないんだよなあ。なにかいい方法はないだろうか

タグ:

posted at 09:22:02

Akinori Ito @akinori_ito

19年8月25日

出来てみれば特に新規性のない普通の方法になった。

タグ:

posted at 09:21:11

Akinori Ito @akinori_ito

19年8月25日

ビートトラッキングができた。使用楽曲はおなじみのこちら www.nicovideo.jp/watch/sm3128145 pic.twitter.com/RTwrhiI2dk

タグ:

posted at 09:17:25

RochejacMonmo @RochejacMonmo

19年8月25日

これは蛇足だが、新井氏はもしかしたら、論理だけに依拠しているなんて言ってないと主張するかもしれない。しかし、論理以外の"文脈"を考慮して良いとするとこれまた際限なく一義性が崩れたりする。デンプン問題もその典型。

タグ:

posted at 08:27:47

RochejacMonmo @RochejacMonmo

19年8月25日

読解力を要素還元的に捉えようとすればするほど、その一義性を支えているものが「論理的」なるものからこぼれる危険が増すということもありうる。そういうことに無自覚なままRSTの結果を称揚して「教科書が読めない」とか「サイコロ並みの能力」とかを宣伝しだす/影響力を持ちだすと危ない。

タグ:

posted at 08:15:20

RochejacMonmo @RochejacMonmo

19年8月25日

新井紀子氏やRSTを薦める人たちは、答の一義性を利点とみており、これができることを事実上「読解力」の定義にしているし、そこに「論理国語」や「論理的思考力」を見出す議論も多い。しかし、純粋に論理だけに依拠しようとすると、多くの問題に「答えられない」事態に陥る危険がある。Alex問題もそう

タグ:

posted at 08:15:07

RochejacMonmo @RochejacMonmo

19年8月25日

「AlexはAlexandraの愛称である」⇒「Alexandraの愛称はAlexである」
という言い換えを許すのに
「巨人軍の選手はプロ野球の選手である」⇒「プロ野球の選手は巨人軍の選手である」
はダメだという区分はどこから生じるか。
そのことに新井氏が十分に自覚的か。
eigo-no-sekai-no-tankyu.hatenablog.jp/entry/2018/12/...

タグ:

posted at 08:14:33

RochejacMonmo @RochejacMonmo

19年8月25日

「AlexはAlexandraの愛称である」⇒「Alexandraの愛称は( )である」
という例題に限らず、RSTの例題として取り上げられたものの多くが、
実は短文以外の"文脈"によってかろうじて一義性を保っているに過ぎないのではないか。
例えば選択肢・現実・知識・忖度あるいは出題者の思い込みなど。

タグ:

posted at 08:14:16

おばけ @triwave33

19年8月25日

記事でコメントいただいた。juliaでは内包で2次元配列を作るときには、各変数ごとに内包を使ってネストすることは不要で1発でできるみたい。便利

#julialang pic.twitter.com/L8XKGHu8iz

タグ: julialang

posted at 08:11:03

☕ @EADGCGDA

19年8月25日

個人的な数値計算の方針 pic.twitter.com/dOql75E6uw

タグ:

posted at 07:53:46

新帯秀樹 Hideki Shintai @hs_heddy

19年8月25日

Juliaで反復数値計算をしたらPythonよりも圧倒的に速かった話
#Julia言語

qiita.com/triwave33/item... #Qiita

タグ: Julia言語 Qiita

posted at 07:43:15

非公開

タグ:

posted at xx:xx:xx

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki そうですか。こういうこともありますね。(笑)
だた、ネットの記事については、ご指摘された点はまあ思われるだろうなとは思いますけれど、統計学については、僕はJIS規格でしか勉強していないので、黒木さんもJIS規格とか見てみるといいと思いますよ。素直にオススメします。

タグ:

posted at 02:17:59

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 現実の開票速報を「全ての票がしっかり混ざっていた」と「認識」することは僕も論外と思いますが、そういう仮定で考察することまで論外となると、ちょっと立場が違いますね。極端な事例を考えることを、非現実的な仮定で無意味で無駄とまでは、ちょっと思えないです。

タグ:

posted at 02:09:11

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 悪いけど、この件では論外確定。

タグ:

posted at 02:08:46

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki なら答えれますね。「母集団データに結果的にムラがあったとしても、抽出作業が無作為であれば無作為抽出なので、(選管に違反がなければ)選挙結果は無作為抽出の結果である。」と思っています。だから、母集団のムラが判定の遅さになったのでしょう。
。。「論外の者」ですか?

タグ:

posted at 02:04:05

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 「当確が出るのが遅くなるのは、バラツキが収束する速度が遅かったということを意味します」という発言と整合性のある回答と説明を期待。

文脈的に現実の宮城県での開票速報で当確が遅れた理由と解釈されます。

タグ:

posted at 02:00:59

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 引用するときに、読者が間違った認識にならないようにフォローする責任があるということですね。肝に銘じておきます。もう少しいい記事があったら、、というか自分で書くべきかもですね。現場は教科書よりも面白いので。

タグ:

posted at 01:58:59

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN もちろん、主語は小島さんでもよいです。

タグ:

posted at 01:58:43

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 主語は「小島さんが合理的だとみなせる人」です。誰かの行動について聞いているのではなく、事実認識について聞いているつもりです。

タグ:

posted at 01:57:55

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 現実の開票速報を「全ての票がしっかり混ざっていた」と仮定して分析することは論外であるという点については同意して頂けたでしょうか?

タグ:

posted at 01:56:16

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN そういう見方であれば一理あります。

しかし、あの記事は現実の当確発表を話題にしているので、どこかで「全ての票がしっかり混ざっていた」という仮定は非現実的であり、もうちょっと複雑なことをやらないと当確予測を外してしまうという正直なコメントが必要。

引用する人にもその責任あり。

タグ:

posted at 01:54:37

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 「開票速報の結果を無作為抽出だとみなして解釈してよい」の主語は僕ですか? 文章の意味がよく分からないのですが。

タグ:

posted at 01:54:02

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 僕の反対意見は「ミスリーディングではなく、単純な仮定で単純な結果を提供しているに過ぎない。紙面の都合である」です。

タグ:

posted at 01:51:23

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 一部の地域の開票速報の情報しか得られていない状況で、開票速報以外のデータも使っていたのは確実だと思います。

実際に当確を出している人はどういう統計モデルを使っているんですかね?まだググっていない。

先の参議院選挙での宮城県選挙区の開票速報は非常に面白かったです。

タグ:

posted at 01:48:23

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki それは、事前情報から得られた予想を、ウェイトをかけて加算しているという計算式が、もともとあったということなんじゃないでしょうか?事前予想と開票内容が相反していたので、判定がなかなか出なかった。

タグ:

posted at 01:43:53

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 私の主張は「あの解説記事はミスリーディングである」です。

タグ:

posted at 01:43:43

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 小島さんに質問しています。

開票速報の結果を無作為抽出だとみなして解釈してよいと本気で思っている?

回答がノーであればすでにした発言との整合性を改めて問うことになります。イエスなら論外。

タグ:

posted at 01:42:44

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 少し前にも言いましたが、実際の選挙速報でも僕の仕事の統計的品質管理でも、「いったん出した判定を取り消して全数確認」することはあります。終盤でバラツキなく偏りが出た場合です。さっきの記事はそういう可能性を無視した内容です。

タグ:

posted at 01:40:00

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN しかし、宮城県人は、地域Aでは与党候補が強く、地域Bでは野党候補が強いことを知っていたので、開票がもっと進まないと当確を出せそうもないことを多くの人が知っており、速報で先に票が大幅に伸びた与党候補が負ける可能性が高いことも知っていた。

もちろんメディアも外しそうな当確発表はしない。

タグ:

posted at 01:39:07

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 僕がですか?それとも、あの記事がですか?
あの記事は、数分で理解できる程度の簡単な理屈で例示しただけで、僕の理解があの記事止まりということはないです。ただ、「さてここで、全ての票がしっかり混ざっていたとします。」という仮定は、ためにする話であって実際は不要な仮定です。

タグ:

posted at 01:35:38

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN そして、これが実際に分かりやすい形で起こったのが、先の参議院選挙での宮城県選挙区での開票速報です。

地域Aの開票速報が先行したせいで、地域Aで優勢な候補の票数がその速報では先に大きく伸びました。

無作為抽出を仮定できるなら、当確を出せるくらい差がついた。続く

タグ:

posted at 01:35:37

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 真の無作為抽出は地域Aと地域Bを合わせた全ての票からランダムに選ぶことです。

ランダムに選ぶ対象を地域Aに大きく偏らせた状況は、無作為抽出から程遠い状態になっている可能性が高いのです。続く

タグ:

posted at 01:33:02

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 簡単のため、地域がAとBの2つしかないとします。そして、開票速報が地域Aのみについて次々に発表され、地域Bでの開票速報が出るのが遅れていたとします。

このような状況は無作為抽出とはみなされません。続く

タグ:

posted at 01:30:59

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 「全ての票がしっかり混ざっていた」というのは、仮想の話ですね。

タグ:

posted at 01:28:09

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN ええと、もしかして、開票速報の結果を無作為抽出だとみなして解釈してよいと本気で思っている?

論外。無作為抽出の定義を復習するべき。

タグ:

posted at 01:27:53

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 「無作為抽出扱いすることが誤りである事柄」って、現実の母集団データのことですよね? 別に誤りじゃないでよ。母集団データに結果的にムラがあってもいいんです。抽出に作為がなければ。

タグ:

posted at 01:24:49

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 現実の選挙での開票速報の結果を「全ての票がしっかり混ざっていた」という仮定のもとで分析してよいという考え方が、論外に間違っていることを理解しておかないとまずいと思います。

タグ:

posted at 01:18:03

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 実際の開票では、全開票数が小さな地域ほど結果が早めに公開される傾向があります。そういう地域で強い候補の票が先に伸びることになるわけです。

そのときに「全ての票がしっかり混ざっていた」と文字通りに仮定すると予測を外すことになります。

先の参議院選挙での宮城県選挙区では良い例です。

タグ:

posted at 01:15:49

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 誰が個人的にどのようなモデルを考えていようと、件の解説では、無作為抽出扱いすることが誤りである事柄について、無作為抽出の仮定が成立しているがごとくの解説なので、ミスリーディングであることは確かです。

実際の当確発表用の統計モデルはもうちょっと面白いことをやっているはず。

タグ:

posted at 01:11:39

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 件の記事がその程度の表現しかできていないのは仕方ないなかなと思います。教科書でもないし。よく混ざっていない母集団があって、同じ母集団を無作為に何回もサンプリングしたデータ列の集合は、よく混ざった母集団のサンプリングデータと同じなので、いずれにせよ「無作為」になります。

タグ:

posted at 01:11:20

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 当確の精度を上げるために、開票前の情報を使っていることは、僕も存じております。しかし、開票前の情報だけで「当確」を出してはいけないでしょう?開票が始まってから当確を出さないといけないので、母比率の区間推定が使えるということです。(僕個人は、確率過程でモデル化してるんですけど)

タグ:

posted at 01:03:04

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 件の記事は完全にランダムな無作為抽出の状況が成立しているという前提で解説を書いています。「全ての票がしっかり混ざっていたとします」とはっきり書いてあります。

私が自前で当確情報を出すなら、発表されている各地域のアンケート情報や出口調査の結果もデータとして使用します。

タグ:

posted at 00:56:45

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki それは言いすぎだと思います。母集団をいくつかの小集団に分割したときに、全ての小集団で標本標準偏差が「バラツキなく揃っている」ことのほうが現実離れしています。「無作為」というのは完全にランダムであることまで要請しません。

タグ:

posted at 00:52:04

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 無作為抽出の仮定がもっともらしくない選挙の開票については、最初からそういうことに配慮した「当確」の統計モデルを作ってそのために必要な事前データ(地域別のアンケート調査など)の取得の計画も立てていると思います。

件の記事の単純な方法ではまともな当確情報を出せません。

タグ:

posted at 00:51:44

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 選挙速報の理論もそうですが、僕が仕事で使う統計的品質管理でも、一度結論を出した後、「バラツキがなく偏りのあるデータが連続で抽出されたため」、あわてて予測を引っ込めて「全数検査」に移行することがままあります。そういう手順も数式化されてまして、米国企業のマニュアルなどは面白いです。

タグ:

posted at 00:47:05

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 少なくとも、選挙の開票については、無作為抽出とは全然違うので、「全ての票がしっかり混ざっていたとします」という件の解説記事の仮定は全然成立していない場合があることは理解しておくべきです。

無作為抽出から程遠いものをあたかもそうであるかのように語ることは統計学的には重大な誤り。

タグ:

posted at 00:44:17

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki その指摘は当たらないと思います。計算機で集計するときには、サンプルデータを1つずつ積み重ねていきます。

タグ:

posted at 00:37:46

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 統計学で分かる「選挙の『当確』がめちゃくちゃ早く出てしまう理由」

の解説で仮定している数学的条件は現実には近似的にも全然成立していない場合もあることが、実際の宮城県選挙区の当確の出方を見れば分かるという話の方が面白いと思う。

分かる理由も統計学。

タグ:

posted at 00:31:16

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 開票は地域ごとに行い、地域ごとにどの候補が強いかに偏りがあり、地域ごとに開票スピードは違う。

そういう状況と、開票がほぼ無作為抽出とみなせる状況は全然違うので、

統計学で分かる「選挙の『当確』がめちゃくちゃ早く出てしまう理由」

の解説はミスリーディングだと思います。

タグ:

posted at 00:28:54

小嶋 徹也 @coJJyMAN

19年8月25日

@genkuroki 「仮に無作為抽出の開票なら当確が出そうかどうか」について、簡単な算出式がある。ということが大事なんじゃないでしょうか? 当確が出るのが遅くなるのは、バラツキが収束する速度が遅かったということを意味します。地域ごとに偏りが異なっていた場合、まさにそうなります。

タグ:

posted at 00:23:11

黒木玄 Gen Kuroki @genkuroki

19年8月25日

#Julia言語 整数格子上のランダムウォークであれば

X = cumsum(hcat(rand([[1,0],[-1,0],[0,1],[0,-1]], n)...), dims=2)

の一行で作れる. pic.twitter.com/iMKPONQlph

タグ: Julia言語

posted at 00:15:56

黒木玄 Gen Kuroki @genkuroki

19年8月25日

@coJJyMAN 「仮に無作為抽出の開票なら当確が出そうかどうか」は平方根を暗算すればすぐにわかります。宮城県選挙区で、当確が出るのが遅くなった理由は、宮城県内の地域ごとにどちらの候補が強いかに大きな偏りがあったからのようです(私の推測)。

twitter.com/genkuroki/stat...

タグ:

posted at 00:03:00

@genkurokiホーム
スポンサーリンク
▲ページの先頭に戻る
ツイート  タグ  ユーザー

User

» More...

Tag

» More...

Recent

Archive

» More...

タグの編集

掛算 統計 超算数 Julia言語 数楽 JuliaLang 十分 と教 モルグリコ 掛け算

※タグはスペースで区切ってください

送信中

送信に失敗しました

タグを編集しました