黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2019年08月25日(日)
#統計 一部が全体の平均点に影響を与えるくらい外れ値的な高得点を取る場合の正規分布モデルを使った通常の区間推定の数値実験については以下のリンク先を参照。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 23:57:05
#統計 続き
もしかしたら「母集団」という用語も要注意かも。
まず、「現実の母集団」とそれを近似しているかもしれない「数学的モデルとしての確率分布を分布として持つ仮想的な母集団」の区別が必要。
統計学入門の解説の多くがその辺をクリアに書いていない。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 23:56:50
GNUPLOTによる数値計算
#数値計算勢と繋がりたい #gnuplot #gnuplot芸
twitter.com/i/moments/1146...
タグ: gnuplot gnuplot芸 数値計算勢と繋がりたい
posted at 23:47:31
@genkuroki ありがとうございます。broadcastの他に、function宣言しない関数定義ができることやbenchmarkの使い方など大変参考になりました。
タグ:
posted at 22:04:57
学生さんの教育用に簡単な例がたくさん載っているページを探していたので、これは便利 #Julia言語
juliabyexample.helpmanual.io/#Arrays
タグ: Julia言語
posted at 21:48:19
本当に日本語の伝統的な統計の教科書は読みにくくて耐えられない,と云うのが正直な感想.統計はいまや数理科学であるのに,日本語の教科書を読んでるとすごく疲れるのは何故だろうとずっと思っていた. twitter.com/genkuroki/stat...
タグ:
posted at 21:47:23
まとめを更新しました。「optical_frog先生といっしょにCappelen & DeverのBad Languageを読んで概念工学について学ぼう」 togetter.com/li/1393686
タグ:
posted at 21:24:07
Integrable Systems, @integrablesys
Did you know that a highly influential Japanese mathematician Tosio Kato was born in 1917 #OnThisDay? To celebrate, read for free his seminal paper on the Navier--Stokes equations at rdcu.be/bPval @adhara_mathphys @genkuroki
Link made using HT ➡️twitter.com/OpenScienceR/s... pic.twitter.com/TzLzMdI4wD
タグ: OnThisDay
posted at 21:00:44
#Julia言語 #JuliaLang
broadcast を使った
@. x - y'
でも同じ結果が得られます。dot-syntax を使うとシンプルに書けて非常に便利です。速度的には同じ程度。
twitter.com/triwave33/stat... pic.twitter.com/lCMQFtQEll
posted at 21:00:39
大半の方々には果てしなくどうでもいいことですが,wellbeing の訳に悩んで「健康で平穏な生活」と言い換えたのが今回のがんばりです.econ101.jp/%e3%82%b5%e3%8...
タグ:
posted at 20:03:02
1.3のマクロのinterpolationのバグ、解決されたっぽい。
CIのnightly buildでも動いてた。
github.com/JuliaLang/juli...
タグ:
posted at 19:48:29
そういえば先々週にJuliaComputingからinvitationをもらって、Junoのメンテナーになった。
このままJuliaたくさん書いてそのままデイワークにしてしまいたい。
#julialang #juno
github.com/orgs/JunoLab/p...
posted at 19:41:12
@abacha93435322 @hoshi1221 @Yossy_K @UFOprofessor @genkuroki @nekohanahime @xin1zu2zhai1 @mizu150529 @open_tyabouzu 有り難うございます。
タグ:
posted at 19:28:19
@sekibunnteisuu @hoshi1221 @Yossy_K @UFOprofessor @genkuroki @nekohanahime @xin1zu2zhai1 @mizu150529 @open_tyabouzu 報告有り難うございます。特に問題ないようなので、遠慮なく使い下さい!
タグ:
posted at 19:27:27
At first it looks like cloth, but it's dough that will be turned into croissants buff.ly/2p8o8E0 pic.twitter.com/NE4WpbVbLO
タグ:
posted at 19:23:33
須山敦志 Suyama Atsushi @sammy_suyama
「ベイズ深層学習」を執筆したものの、今までの深層学習自体のアプローチや考え方には驚きもしないし、将来的な期待も一切ないです。どちらかというと、「複雑な統計モデルの設計と推論の効率化」が重要で、実際それが本の裏テーマになっている。
タグ:
posted at 19:23:32
@sekibunnteisuu @nekohanahime こう、擬人化でも、『押しくらまんじゅうが均衡している場合に、一部の人をマッチョマンあるいは子供に入れ替えると均衡が崩れる。均衡を保つには「同じ力で押し返す人」が必要』みたいな説明ならまだましかもしれませんね。
タグ:
posted at 19:14:01
須山敦志 Suyama Atsushi @sammy_suyama
長く研究していた人からすれば、ずっと固執していたラベル付き問題の予測精度が深層学習によって劇的に向上したからイノベーションだと騒ぐ。一般の人から見ると、そもそもデータ解析やAIで今までできたことなんてまるでキャッチアップしていなかったから、やはりイノベーションだと騒ぐ。
タグ:
posted at 19:13:22
須山敦志 Suyama Atsushi @sammy_suyama
「アノテーションされているデータの中」だけで「深層学習がイノベーションを起こしている」イメージ。実情は丸暗記ベースのアルゴリズムに毛が生えた程度の印象ですね。
タグ:
posted at 19:10:02
@sekibunnteisuu @nekohanahime まあ、比喩の仕方自体や擬人化はあまり褒められないですけどね。まあ、全然聞いてくれない生徒のうち一人でも「え、なんか面白そう」と思ってくれれば良いかな、とは思います。その一方で、「変な喩えだなぁ」と思う生徒がでてしまうというメリットは否定しませんです。
タグ:
posted at 18:58:48
水中では水圧が生じる、水圧はあらゆる方向に力がかかる、深いほど水圧は大きい、深く潜ると耳が痛くなる、深海魚を釣り上げると目玉や内臓が飛び出す、
というような説明をして、じゃあ水中に物体を入れたら圧力がどうかかるか?
という具合に、普通に教えればいいだけだと思うが
タグ:
posted at 18:44:38
非公開
タグ:
posted at xx:xx:xx
@sekibunnteisuu @nekohanahime なんというか、「むずかしそうな理屈だと最初から拒絶する」生徒もいますから、その壁をこじ開けるためなら悪くないかと。勿論、こういうのばかりだと効き目がなくなるのでピンポイントで使うことが前提。その後はちゃんと理論を説明して欲しいですけど。
タグ:
posted at 18:40:44
水の密度が1g/㎝^3だから、100㎝^3と100g重が対応しているのであって、密度が異なる液体だと値は違ってくる。
100人入ってきたら100人分の力で追い出そうとする
というのは、比喩としても極めて駄目な代物。
タグ:
posted at 18:40:36
@nekohanahime 講師自身はちゃんと理解していて、敢えて子供だましの授業をしているのでしょうかね?それとも、そうやってごまかすことしかできないのでしょうかね?
タグ:
posted at 18:34:27
非公開
タグ:
posted at xx:xx:xx
江原せんせいのこの記,どのページにもグラフは見当たらないけど,当初はなんかグラフが掲載されてて,削除されたってことかな.それとも,べつの文章? gendai.ismedia.jp/articles/-/66706
タグ:
posted at 18:08:40
非公開
タグ:
posted at xx:xx:xx
非公開
タグ:
posted at xx:xx:xx
#統計 姉妹編:無作為抽出について
例えばS市の全小学6年生の人数が6543人だとします。そこから100人を無作為抽出するときには、児童に1から6543の番号を付けて、1から6543までの数が等確率で出る乱数を100個生成して、100人を選びます。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 17:31:59
非公開
タグ:
posted at xx:xx:xx
#統計 このスレッドで指摘している問題はJIS規格
www.jisc.go.jp/app/jis/genera...
で「ベイズ統計」を検索しても見つかります。添付画像は
JISQ31010 リスクマネジメント-リスクアセスメント技法
より。さすがに
【ベイズ的アプローチは確率の主観的解釈を論拠にしている】
という主張は時代錯誤。 pic.twitter.com/54zeIAd9JJ
タグ: 統計
posted at 16:47:59
“ボールひとつを追って撮って欲しい”というリクエストたくさんいただきました‼️
結構すぐみえなくなっちゃうし何通りもルートがあるので、短い動画では難しい…。ボールのルートが主役ではないのがピタゴラスイッチとは違うのかも‼️
でも、ちゃんと映像に残そう、って思いました!ありがとうございます
タグ:
posted at 14:43:01
@coJJyMAN その回答が間違っていることを認めたかどうかを私は質問しています。
選管が違反していなくても、開票速報は開票規模の小さな地域の方が先に出て、都市部は遅れます。だから、開票速報の初期での得票数の集計結果は無作為抽出の結果とみなせません。
以上です。
twitter.com/coJJyMAN/statu...
タグ:
posted at 13:00:26
@coJJyMAN 開票速報の結果を無作為抽出だとみなして解釈してよいと本気で思っている?
への、小島さんの回答は
「母集団データに結果的にムラがあったとしても、抽出作業が無作為であれば無作為抽出なので、(選管に違反がなければ)選挙結果は無作為抽出の結果である。」
続く
twitter.com/genkuroki/stat...
タグ:
posted at 12:55:38
@coJJyMAN 謝罪訂正:以下のリンク先の「Yes」を「No」に訂正します。混乱させたと思います。ごめんなさい。続く
twitter.com/genkuroki/stat...
タグ:
posted at 12:53:07
@coJJyMAN どうして報道機関が出す当確の話題に【(選管に違反がなければ)】と言えるのか理解不能だったのですが、小島さんは当確発表を選管がやっているのだとひどく誤解していることが後で判明しました。
twitter.com/coJJyMAN/statu...
続く
タグ:
posted at 12:46:17
@coJJyMAN 小島さんの回答
【「母集団データに結果的にムラがあったとしても、抽出作業が無作為であれば無作為抽出なので、(選管に違反がなければ)選挙結果は無作為抽出の結果である。」と思っています。】
「母集団データ」という意味不明の用語については目を瞑りましょう。続く
twitter.com/coJJyMAN/statu...
タグ:
posted at 12:43:29
@coJJyMAN 私は
【開票速報の結果を無作為抽出だとみなして解釈してよいと本気で思っている?】
と質問しました。続く
twitter.com/genkuroki/stat...
タグ:
posted at 12:40:44
@coJJyMAN 「サンプル」と同じ意味で「データ」という言葉を使うことはあっても、「サンプル」=「データ」を「サンプルデータの集まり」と呼ぶことは統計学の文脈ではないです。
これが専門用語の側の質が悪いことが原因で生じているよくある誤解。続く
twitter.com/cojjyman/statu...
タグ:
posted at 12:33:02
@coJJyMAN 補足:例えば膨大な数の様々な色の玉が入っている袋から無作為で取り出した玉の色が
赤, 白, 赤, 青, 白, 白, 白
のとき、この
(赤, 白, 赤, 青, 白, 白, 白)
がサンプル=標本の例になっており、これを「サンプル集団」とは普通呼ばないと思います。
twitter.com/genkuroki/stat...
タグ:
posted at 12:30:30
@coJJyMAN しかし【そうですそうです】と答えたということは、私の【開票速報の結果を無作為抽出だとみなして解釈してよいと本気で思っている?】という質問にYesと答えることができなかった小島さんが間違っていたことを認めたわけですよね?
続く
twitter.com/coJJyMAN/statu...
タグ:
posted at 12:14:42
め、めまいがしてくる。
スカートの長さが決められているが56.96%で下着の色が決められているが15.82%
教育委員会と学校の先生はなにを考えているんだろうか。下着の色はマジ意味不明
「ブラック校則」改善要求6万筆 荻上チキ氏ら、文科省に署名提出 : J-CASTニュース www.j-cast.com/2019/08/233657...
タグ:
posted at 12:12:28
@coJJyMAN 【無作為性が確保されていたのは、開票前のサンプル集団だけだったと思います】
私は小島さんが無作為抽出についてひどく誤解している可能性を心配しています。
「サンプル集団」の意味が理解できないのですが、以下ではそれを「母集団」の意味だと解釈します。続く
twitter.com/cojjyman/statu...
タグ:
posted at 12:05:14
@coJJyMAN ついさっき見つけた資料
web.archive.org/web/2019072114...
【「Nスタ×NEWS23 選挙スペシャル」を担当する嶌さんによると、午後8時の「当選確実」を誰に出すかは、その1時間ほど前の会議でほとんど固まっているそうです。~つまり、まだ投票が続いている段階で「当選確実」を決めていることになります。】w
タグ:
posted at 11:56:55
@genkuroki この場合は、地方票の開票前情報と開票後の情報が一致していれば無作為性は追認できるので、開票前の偏りが終盤で決定的な要因になったのでしょう。テストケースとして、とてもいいですね。教材に使えそうです。ありがとうございました。
タグ:
posted at 11:50:11
@genkuroki 事前の報道機関でも、当確が出るのは最終までまつれこむと予想される。という記事を見つけました。そもそも、サンプリングに構造的な偏りがあることが知られていたんですね。
タグ:
posted at 11:48:07
@genkuroki そうですそうです。100万票のうち、1万票の差で決着がついたのですよね。無作為性が確保されていたのは、開票前のサンプル集団だけだったと思います。
タグ:
posted at 11:33:55
@coJJyMAN 開票速報初期の正確な数字は覚えていないですが、大体の状況はすでに何度も説明しています。
twitter.com/cojjyman/statu...
タグ:
posted at 11:18:25
@genkuroki 個別具体的なお話ですね。確認ですが、最終結果は
当474,692 石垣のり子 立新(1)(社推)
465,194 愛知 治郎 自現(公推)
36,321 三宅 紀昭 諸新
ですね。
それで、初期の様子というのはどうだったのでしょうか?教えて下さい。黒木さんはご存知なんですよね?
タグ:
posted at 11:13:54
@coJJyMAN それは別の話。
先の参議院選挙での宮城県選挙区の開票速報の初期の様子を無作為抽出された状態だとみなせないこと
を小島さんが認めたかどうかを問題にしています。小島さんがどう考えているかを問題にしている。
twitter.com/cojjyman/statu...
タグ:
posted at 11:10:25
@coJJyMAN 【選管から報道機関がその情報を得ていて、報道機関が当確を出せなかった】???
もしかして【抽出方法に偏りがあったこと】という情報を報道機関が選管から得ていると思っているのですか?続く
twitter.com/coJJyMAN/statu...
タグ:
posted at 11:05:45
@genkuroki 待ってください。宮城野県に限らず、どんな状況でも開票に偏りがあると見なわれる状態では、当確は出さないですよ。僕が何を勘違いしていると、黒木さんは思っておられるのでしょう?
タグ:
posted at 11:03:35
@RochejacMonmo 昨日RSTを受験したものです。知識を問わないテストと言いながら学校で習うレベルの知識があれば「読まなくても解ける」問題があって驚きました。全否定はしませんが改良は必要だと思います。このテストが正当性を持って大学入試に関わって来るとしたらまた揉めますね🤔
タグ:
posted at 11:01:14
@coJJyMAN なんか色々勘違いしているようですが、せめて、つい先日の参議院選挙の宮城県選挙区での開票速報の初期の状況を無作為抽出された状態とみなしてはいけないことくらいは早く認めた方がよいと思います。
twitter.com/cojjyman/statu...
タグ:
posted at 10:56:22
@genkuroki そういう場合ですと、期日前投票と、出口調査で開票前に母集団分布を推定します。「出口予想」ですね。それと、当日の開票サンプルから得られる母集団分布の推定を別に行って、出口予想との分布が、同じ母集団分布からのサンプルだとはとても考えられない(適合度検定)状態では当確は出せません。
タグ:
posted at 10:54:59
@coJJyMAN まず
当確発表は報道機関が行なっており、選挙管理委員会が行なっているのではない
という事実を指摘しておきます。
twitter.com/cojjyman/statu...
タグ:
posted at 10:53:17
@coJJyMAN 母集団が簡単のため様子が異なるAとBの2つに分かれているとします。そのとき、Aの側のみから無作為抽出することは、母集団全体からの無作為抽出にはなりません。
先の参議院選挙の宮城県選挙区での開票速報の初期の様子はまさにそういう状態でした。
twitter.com/cojjyman/statu...
タグ:
posted at 10:49:30
@genkuroki 宮城県の件は、抽出方法に偏りがあったことが明らかになっているのですか?それが事実なら、選管が開票中にその点を考慮して、偏りが減るまで当確を出せなったのだと思います。
タグ:
posted at 10:47:28
@coJJyMAN #統計
* 無作為抽出(もしくは独立試行)をしたが偏りが出ること
と
* 偏った抽出の結果偏りが出ること
を混同していると思いました。
先日の参議院選挙の宮城県選挙区の開票速報の初期の状況は「偏った抽出の結果偏りが出ること」の典型例でした。
twitter.com/cojjyman/statu...
タグ: 統計
posted at 10:38:12
ビートトラッキングができた。使用楽曲はおなじみのこちら www.nicovideo.jp/watch/sm3128145 pic.twitter.com/RTwrhiI2dk
タグ:
posted at 09:17:25
これは蛇足だが、新井氏はもしかしたら、論理だけに依拠しているなんて言ってないと主張するかもしれない。しかし、論理以外の"文脈"を考慮して良いとするとこれまた際限なく一義性が崩れたりする。デンプン問題もその典型。
タグ:
posted at 08:27:47
読解力を要素還元的に捉えようとすればするほど、その一義性を支えているものが「論理的」なるものからこぼれる危険が増すということもありうる。そういうことに無自覚なままRSTの結果を称揚して「教科書が読めない」とか「サイコロ並みの能力」とかを宣伝しだす/影響力を持ちだすと危ない。
タグ:
posted at 08:15:20
新井紀子氏やRSTを薦める人たちは、答の一義性を利点とみており、これができることを事実上「読解力」の定義にしているし、そこに「論理国語」や「論理的思考力」を見出す議論も多い。しかし、純粋に論理だけに依拠しようとすると、多くの問題に「答えられない」事態に陥る危険がある。Alex問題もそう
タグ:
posted at 08:15:07
「AlexはAlexandraの愛称である」⇒「Alexandraの愛称はAlexである」
という言い換えを許すのに
「巨人軍の選手はプロ野球の選手である」⇒「プロ野球の選手は巨人軍の選手である」
はダメだという区分はどこから生じるか。
そのことに新井氏が十分に自覚的か。
eigo-no-sekai-no-tankyu.hatenablog.jp/entry/2018/12/...
タグ:
posted at 08:14:33
「AlexはAlexandraの愛称である」⇒「Alexandraの愛称は( )である」
という例題に限らず、RSTの例題として取り上げられたものの多くが、
実は短文以外の"文脈"によってかろうじて一義性を保っているに過ぎないのではないか。
例えば選択肢・現実・知識・忖度あるいは出題者の思い込みなど。
タグ:
posted at 08:14:16
記事でコメントいただいた。juliaでは内包で2次元配列を作るときには、各変数ごとに内包を使ってネストすることは不要で1発でできるみたい。便利
#julialang pic.twitter.com/L8XKGHu8iz
タグ: julialang
posted at 08:11:03
Juliaで反復数値計算をしたらPythonよりも圧倒的に速かった話
#Julia言語
qiita.com/triwave33/item... #Qiita
posted at 07:43:15
非公開
タグ:
posted at xx:xx:xx
@genkuroki そうですか。こういうこともありますね。(笑)
だた、ネットの記事については、ご指摘された点はまあ思われるだろうなとは思いますけれど、統計学については、僕はJIS規格でしか勉強していないので、黒木さんもJIS規格とか見てみるといいと思いますよ。素直にオススメします。
タグ:
posted at 02:17:59
@genkuroki 現実の開票速報を「全ての票がしっかり混ざっていた」と「認識」することは僕も論外と思いますが、そういう仮定で考察することまで論外となると、ちょっと立場が違いますね。極端な事例を考えることを、非現実的な仮定で無意味で無駄とまでは、ちょっと思えないです。
タグ:
posted at 02:09:11
@genkuroki なら答えれますね。「母集団データに結果的にムラがあったとしても、抽出作業が無作為であれば無作為抽出なので、(選管に違反がなければ)選挙結果は無作為抽出の結果である。」と思っています。だから、母集団のムラが判定の遅さになったのでしょう。
。。「論外の者」ですか?
タグ:
posted at 02:04:05
@genkuroki 引用するときに、読者が間違った認識にならないようにフォローする責任があるということですね。肝に銘じておきます。もう少しいい記事があったら、、というか自分で書くべきかもですね。現場は教科書よりも面白いので。
タグ:
posted at 01:58:59
@genkuroki それは、事前情報から得られた予想を、ウェイトをかけて加算しているという計算式が、もともとあったということなんじゃないでしょうか?事前予想と開票内容が相反していたので、判定がなかなか出なかった。
タグ:
posted at 01:43:53
@genkuroki 少し前にも言いましたが、実際の選挙速報でも僕の仕事の統計的品質管理でも、「いったん出した判定を取り消して全数確認」することはあります。終盤でバラツキなく偏りが出た場合です。さっきの記事はそういう可能性を無視した内容です。
タグ:
posted at 01:40:00
@genkuroki 僕がですか?それとも、あの記事がですか?
あの記事は、数分で理解できる程度の簡単な理屈で例示しただけで、僕の理解があの記事止まりということはないです。ただ、「さてここで、全ての票がしっかり混ざっていたとします。」という仮定は、ためにする話であって実際は不要な仮定です。
タグ:
posted at 01:35:38
@genkuroki 「無作為抽出扱いすることが誤りである事柄」って、現実の母集団データのことですよね? 別に誤りじゃないでよ。母集団データに結果的にムラがあってもいいんです。抽出に作為がなければ。
タグ:
posted at 01:24:49
@genkuroki 件の記事がその程度の表現しかできていないのは仕方ないなかなと思います。教科書でもないし。よく混ざっていない母集団があって、同じ母集団を無作為に何回もサンプリングしたデータ列の集合は、よく混ざった母集団のサンプリングデータと同じなので、いずれにせよ「無作為」になります。
タグ:
posted at 01:11:20
@genkuroki 当確の精度を上げるために、開票前の情報を使っていることは、僕も存じております。しかし、開票前の情報だけで「当確」を出してはいけないでしょう?開票が始まってから当確を出さないといけないので、母比率の区間推定が使えるということです。(僕個人は、確率過程でモデル化してるんですけど)
タグ:
posted at 01:03:04
@genkuroki それは言いすぎだと思います。母集団をいくつかの小集団に分割したときに、全ての小集団で標本標準偏差が「バラツキなく揃っている」ことのほうが現実離れしています。「無作為」というのは完全にランダムであることまで要請しません。
タグ:
posted at 00:52:04
@genkuroki 選挙速報の理論もそうですが、僕が仕事で使う統計的品質管理でも、一度結論を出した後、「バラツキがなく偏りのあるデータが連続で抽出されたため」、あわてて予測を引っ込めて「全数検査」に移行することがままあります。そういう手順も数式化されてまして、米国企業のマニュアルなどは面白いです。
タグ:
posted at 00:47:05
@genkuroki 「仮に無作為抽出の開票なら当確が出そうかどうか」について、簡単な算出式がある。ということが大事なんじゃないでしょうか? 当確が出るのが遅くなるのは、バラツキが収束する速度が遅かったということを意味します。地域ごとに偏りが異なっていた場合、まさにそうなります。
タグ:
posted at 00:23:11
#Julia言語 整数格子上のランダムウォークであれば
X = cumsum(hcat(rand([[1,0],[-1,0],[0,1],[0,-1]], n)...), dims=2)
の一行で作れる. pic.twitter.com/iMKPONQlph
タグ: Julia言語
posted at 00:15:56
@coJJyMAN 「仮に無作為抽出の開票なら当確が出そうかどうか」は平方根を暗算すればすぐにわかります。宮城県選挙区で、当確が出るのが遅くなった理由は、宮城県内の地域ごとにどちらの候補が強いかに大きな偏りがあったからのようです(私の推測)。
twitter.com/genkuroki/stat...
タグ:
posted at 00:03:00