黒木玄 Gen Kuroki(@genkuroki)/2022年08月/Page 3

いつまでも入門書の写経だけやっててもしょうがないので「ゼロから学ぶスパイキングニューラルネットワーク」のLIFモデルの #Python コードをJuliaに書き換えてみました。書き換え始めるとJuliaでどう書いたっけ？となるのでいい訓練になりますね。
#julia言語
 #スパイキングニューラルネットワーク pic.twitter.com/Oi0pZrSExg

タグ： julia言語 Python スパイキングニューラルネットワーク

posted at 23:16:01

M. Kanamaru @AstroshaperJP

Julia言語で探査機画像の解析を始めてみた。
FITSの入出力はできたが（using FITSIO）、やりたいこと諸々できるかな

astropyのJuliaインターフェースないかな🤔
天文界隈にはまだJulia使いが少ないか...

タグ：

posted at 23:10:44

これは有意差なのだろうか pic.twitter.com/uai4ZKiPxM

タグ：

posted at 21:52:53

なんでかわからないけど，

η[idx...]

を

η[idx[1],idx[2],idx[3]]

とすると爆速になる

なるほど．hogehoge... という風にしてhogehogeの中身を参照するのはjulia言語では，メモリ的によろしくないということ？

ただ，idxは３次元のベクトルとは限らないんだよなぁ．どうしようか． pic.twitter.com/lRbwk1oKMV

タグ：

posted at 21:46:13

get_Gの計算が遅すぎる気がするんですが，こんなものでしょうか．

gist.github.com/kazucmpt/f4d68... pic.twitter.com/QJ3F3XyMmG

タグ：

posted at 21:39:58

@designpatterngf 私も，Jupiter使わず，Linuxでちゃんと比較してみます．

とりあえず，どのスレッドにどの計算をさせるか，というはコード書く側がちゃんと指定する必要があるのですね（勝手に分散してもらえるものだと勘違いしてました．）

タグ：

posted at 21:08:01

@designpatterngf ありがとうございます．うーん，なんかおかしいですね．Jupiterつかっているのが悪いのかもしれません． pic.twitter.com/WFHnLMhhxe

タグ：

posted at 21:00:10

@designpatterngf @Threads あーー，何か私が勘違いしているようです．

高速化したい for の前に機械的にThreads.@threads をつければいいと思っていたのですが，そうじゃないみたいですね．ちょっとコードを直してみます．

タグ：

posted at 20:51:19

@designpatterngf ありがとうございます．勉強になります．

ただ，やっぱり変わらないですね．
Windows上で実験しているのもよくないのかもしれません．それと，Julia言語の並列計算の書き方について何か勘違いしているかもしれません，もうちょっと調べてみます． pic.twitter.com/oaPNbH3J8y

タグ：

posted at 20:41:52

@designpatterngf そうですね，Intel CPU の４コアです． pic.twitter.com/Tzkt4eCMVB

タグ：

posted at 20:29:51

@designpatterngf なるほど．

(Windowsで音楽ききながらの実験であんまりあてにならない結果ですが）例えば，各スレッドが同じ配列Xを独立に更新しているような状況で，1/mにほど遠いのはちょっと不自然な感じしますか？(m=4)
それとも，同じ配列にアクセスしているなら，まぁそんなもんじゃない？って感じですかね？ pic.twitter.com/MG1CIsJoVy

タグ：

posted at 20:19:53

@designpatterngf あー，なるほど．
お互いに依存しない独立した数値計算のプログラムA1,A2,A3,...,Amを順に流していくのに対して，書くスレッドに同時にAkを走らせると，たしかに1/mくらいになりますよね．

一つのプログラム内で複数のスレッドを使うようなことを考えていました．

タグ：

posted at 20:11:58

ごまふあざらし(GomahuAzaras @MathSorcerer

スレッド数を m にしたら，計算速度が 1/m になるのがもうむちゃくちゃ最強の理想だけど，普通はまずそんなことは起きない，という理解でOK？

タグ：

posted at 20:04:40

ようこそ・ようこそ>Julia(言語) twitter.com/vloom_mario/st...

タグ：

posted at 19:51:15

l_ppp @ppp3141592ppp

最近お仕事 C++ ばっか触ってたけど

久々に趣味 Julia言語すると
楽しいのが際立つな

タグ：

posted at 19:33:48

習俗觀察者 @super_ronin

@genkuroki 学際的な知識の動員も必要ですからなあ。

タグ：

posted at 14:43:43

この「コンピュータを使って色々できるようになること」も結構コストのかかる結構大変なことだと思います。

どう解決すればよいのか、よくわからない問題。

ある程度のプログラミング能力が必須になってしまう。 twitter.com/genkuroki/stat... pic.twitter.com/L1Vt6TQkMf

タグ：

posted at 14:16:55

さくら @Sakura_Med_DSci

この部分も完全に同意。 twitter.com/genkuroki/stat...

タグ：

posted at 14:06:51

さくら @Sakura_Med_DSci

同意。 twitter.com/genkuroki/stat...

タグ：

posted at 14:06:37

毎回新しくηを用意しなくていい分，get_η!()の方が速くなるのかなと思ったけど，有意差がない．．．

Julia 言語 pic.twitter.com/pW7LwsF0br

タグ：

posted at 14:03:38

「統計学では、普通の常識では得られないような科学的お墨付きが得られる特別な手段を学べる」と考えること自体が誤り。

お墨付きは得られません。

タグ：

posted at 14:03:27

@takotakot @AtoZ401223 個人的には、竹内啓『数理統計学−データ解析の方法』の書き方が好きです。この本の第19章には「正規分布の仮定の意味」の簡単な説明があります。

その第19章の内容は現代的にはコンピュータで読者が確認しまくるとよい話になっています。

タグ：

posted at 13:52:20

@takotakot @AtoZ401223 どんな偉い先生が書いた本であっても、最近のP値や信頼区間の使い方に関する議論をフォローしていないものは、大量に訂正を入れない限り、実践的には危ない書き方がされている教科書扱いが妥当だということになると思います。

タグ：

posted at 13:47:35

@takotakot @AtoZ401223 その本の場合もミスリーディングな説明をきちんと自分で訂正しながら読むならばお勧めできるというだけなので要注意。

例えば、意思決定論の枠組みは「小さな世界」が前提になっていることをもっと強調して欲しいし、ノンパラメトリック検定の使用可能条件の現実性についても正直に書いて欲しかった。

タグ：

posted at 13:45:36

たぶん、これが一番大事。ダメな勉強の仕方の典型例は

❌教科書にそう書いてあったので、5%の有意水準で有意差があることがわかったならば、差があることの証拠が得られたと考えてよい

のように考えて勉強すること。こういう類にことをやった瞬間にその人は非科学的な思考に陥っている。 twitter.com/genkuroki/stat... pic.twitter.com/5mbV6orFp7

タグ：

posted at 13:40:33

@AtoZ401223 @takotakot 「誰か偉い人がお墨付きを与えてくれる」という反統計学的感覚を維持したまま、統計学を正常に勉強することは不可能だと思います。

「正しいことの証拠は自力で得る」という気構えが最も重要だと思います。

それをやるとひどく誤解して失敗することもあるのですが、それは人間なので仕方がない。😊

タグ：

posted at 13:35:18

@AtoZ401223 @takotakot コンピュータで確認しまくれば、教科書の説明が不適切である証拠を自力で得ることもできます。

例えば、2×2の分割表に関する「Fisher検定は正確であり、χ²検定はその近似に過ぎない」という主張もコンピュータをいじっているうちにおかしいと分かります。

タグ：

posted at 13:30:33

@AtoZ401223 @takotakot あと、「紙とペン」による勉強は限界があるので、コンピュータの併用は必須だと思います。

例えば、中心極限定理がどういう条件でどの程度の近似の良さで成立しているかをコンピュータで確認しまくれば、中心極限定理の証明を理解できなくても、実践的に使えるような理解が可能になると思います。

タグ：

posted at 13:28:27

@AtoZ401223 @takotakot 現実的な勉強の仕方は

①具体的な計算の仕方や関連の数学の使い方については、不適切な考え方が書いてあることを承知の上で、既存の有名教科書で勉強する。

②統計学における基本的な考え方については別の新しめの文献で勉強する。

だと思います。

タグ：

posted at 13:21:50

@AtoZ401223 @takotakot 東大出版会の『統計学入門』も、基本概念の解説の適切さがほぼ全滅になっているだけで、扱われている個々の具体的な計算例がまずいわけではありません。

基本概念について『統計学入門』を引用して根拠として使ったりしなければ、『統計学入門』も有用な教科書になり得ると思います。

タグ：

posted at 13:18:31

DC @AtoZ401223

@genkuroki @takotakot ご返信ありがとうございます。
英語の文献漁ってみようと思います。
黒木さんのスレッドも読み漁ります。

タグ：

posted at 13:13:43

@AtoZ401223 @takotakot しかし、私は、どのスレッドでも入門的教科書以外の有益な資料を紹介しています。

英語の文献であることも多いのですが、多くに場合に日本語で内容を簡単に紹介している。

それらを参考にすれば道に迷わずに済むと思います。

タグ：

posted at 13:08:53

@AtoZ401223 @takotakot 教科書とは独立に科学的な常識と数学的な力と論理的な厳しさと心の強さを身につけて先に進む以外の方法はちょっと考えられない感じになっていると思います。

タグ：

posted at 13:05:37

@AtoZ401223 @takotakot その質問はよくあるのですが、入門的な的なまとまった教科書で勧めて大丈夫だと感じるものはないです。

統計学を学び始める人は教科書の内容がひどくミスリーディングである可能性に常に注意を払いながら勉強する必要があると思います。

教科書に書いてあることを正しいと思ってはいけない世界。

タグ：

posted at 13:03:16

DC @AtoZ401223

@genkuroki @takotakot ご多忙のところいきなりの質問で申し訳ありません。
確率・統計学を学び直したいと考えているのですが、黒木様のお勧めの教科書があれば教えていただきたいです。

タグ：

posted at 12:58:17

#統計そういう理由で、統計学に関する事情通達は、「検定法選択のフローチャート」的なものを見ると、

　ああ、またその悪しきパターンか！

と感じるわけです。教育的に有害過ぎ。

世界における高等教育における「きはじ」「くもわ」。

Statistical Rethinking xcelab.net/rmpubs/sr2/sta... より
↓ pic.twitter.com/G3iUUq5kDo

タグ：統計

posted at 12:49:56

#統計現実は悲惨なことになっていて、検定法選択のフローチャート的な解説が普及していて、t検定達は正規母集団にしか使えないことにされており、厳しい前提条件が必要なWilcoxon-Mann-Whitney検定が必要な前提条件に抜きに勧められていたりする。

タグ：統計

posted at 12:48:05

#統計大学なんかでの統計学入門の講義に対して、ある程度以上の実力を持つ学生が必ず持つ疑問が

　正規母集団の仮定をまるで当然の如く使っているけど
　それでいいの？

です。正解は

　当然ダメに決まっている

です。本当はそういう優れた学生達は反乱を起こす必要がある。

タグ：統計

posted at 12:28:35

#統計もしも、正規分布の標本分布モデルを使った平均の区間推定と分散の区間推定について同時に扱うのであれば、平均の区間推定は正規母集団からの逸脱に結構強いが(ただし過信は厳禁)、分散の区間推定の側はそうではないと説明しておかないと危ない。

そうしていない教科書が実に多い。

タグ：統計

posted at 12:24:49

#統計まさにそれ！

標本サイズが大きくても標本平均に中心極限定理が効いていれば、正規分布の標本分布モデルを使った平均に関する検定や区間推定の誤差は小さくなる。

さらに面白いことに、正規分布の標本分布モデルを使った分散に関する検定や区間推定は標本サイズを大きくしてもそうならない。 twitter.com/takotakot/stat...

タグ：統計

posted at 12:21:39

著者達の立場からは、そういう類のミスリーディングな説明を読者がそのままミスリーディングな形で受け入れちゃうと、「うぎゃー！」となると思います。

読者の側が本の解説を正しいと信じたりせずに、論理と直観で厳しく詰めて行くようにしないと読者は苦しくなるし、著者も「うぎゃー！」となる。

タグ：

posted at 10:56:32

一般に、解説を書くときには、部分的にミスリーディングなことを書いてしまうことの方が普通だと思います。「後の方で詳しく説明するから、許してくれ」となることもあるかもしれない。

個人的にはそういう場合にはそういうコメントを明示的に挿入するべきだと思いますが、忘れることもあると思う。

タグ：

posted at 10:52:50

#統計大数の法則によって、N→∞で

(1/N)Σ_{i=1}^N q(x_i|θ) → ∫ p(x) log q(x|θ) dx

となることは正しいのですが、この収束はパラメータθ=(θ_1,…,θ_d)のdが大きいと遅くなる点が実践的に無視できないという話になっています。

タグ：統計

posted at 10:48:57

#統計 PRMLの(1.119)式の少し上にあるKLダイバージェンスの説明も雑過ぎると思います。

赤池弘次さんのように、KLダイバージェンスがどのような意味での予測誤差の指標になっているかを説明するSanovの定理の説明を挿入する方が自然な説明の仕方だと思います。

www.jstage.jst.go.jp/article/butsur... pic.twitter.com/JE0oJdYu9Y

タグ：統計

posted at 10:31:54

#統計実践的には、尤度最大化がKLダイバージェンス最小化と等価では__ない__と考えるべきであることから生まれたのが所謂情報量規準の理論です。

元祖の赤池弘次さん本人による解説
↓
www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度(<講座>物理学周辺の確率統計) twitter.com/genkuroki/stat...

タグ：統計

posted at 10:31:50

#統計続き

⭕️仮に、データサイズNが十分に大きくて、(1.119)の近似がパラメータθについて一様に成り立っていれば、尤度最大化はKLダイバージェンス最小化と近似的に等価とみなせるが、それは「オーバーフィッティングが起こらない」という非現実的な想定に過ぎない。

タグ：統計

posted at 10:31:49

#統計正しい考え方

⭕️尤度最大化は単にモデルがデータにフィットするようにパラメータを調節しているだけ。

⭕️尤度最大化はデータを生成している未知の分布p(x)にモデルをフィットさせることでは__ない__。

⭕️仮にKLダイバージェンスを最小化できればモデルをp(x)にフィットさせたことになる。

タグ：統計

posted at 10:31:49

#統計 PRMLにおける(1.119)式の近似

KL(p||q) ≈ (1/N)Σ_{i=1}^N (-log q(x_i|θ) + ln p(x_i))

は実践的には絵に描いた餅に過ぎず、現実の仕事において、この近似を等式であるかのように見なすことは、オーバーフィッティングが起こり得ることを無視する暴挙になります。

タグ：統計

posted at 10:31:48

#統計人間は、データが大量に得られれば得られるほど、モデルとしてより精緻なもの(パラメータ数も多い)を使うようになる傾向がある。

データサイズNが大きくても、モデルのパラメータ数が多いと、

KL(p||q) ≈ (1/N)Σ_{i=1}^N (-log q(x_i|θ) + ln p(x_i))

という近似の誤差は大きくなります。

タグ：統計

posted at 10:31:48

#統計このスレッドでは、オーバーフィッティングの定義を、「尤度は大きくなるが、予測誤差が大きくなってしまうこと」だとしておきます。尤度をモデルのデータへの適合度の指標とみなしている。

モデルの訓練データへの適合度が高くなりつつ予測誤差が大きくなることがオーバーフィッティング。

タグ：統計

posted at 10:31:45

#統計もしも、KLダイバージェンスの最小化(これは予測分布による予測誤差の最小化と等価)と尤度最大化が等価ならば、オーバーフィッティングの問題が起こらないことになります。

オーバーフィッティングが起こる可能性を一切考えずに機械学習や統計学の技術を実践することはやってはいけないこと。

タグ：統計

posted at 10:31:44

大型2種免を持ってる社会福祉士 @ePOWER_BE

#統計 PRMLでのその段落の説明はひどくミスリーディングなので、読書会を開くなら、PRMLにおける

❌KLダイバージェンスの最小化は尤度の最大化と等価であることがわかる

という説明は機械学習の実践においてひどくミスリーディングで有害である、と話し合うべきだったと思います。続く twitter.com/Fonske_STEAM/s...

タグ：統計

posted at 10:31:43

「大学行かなくとも活躍する場は多くある」と意見した本人は、大学に行ってないのか？大学に行かないと試験どころか試験受験資格を得るための養成課程への入学さえ閉ざされる。学歴資格による職業を選べない状況は、もしかして #憲法違反 ..... twitter.com/shin2_ota/stat...

タグ：憲法違反

posted at 09:06:13

※「高頻度炎上関与ユーザー群」の件は、ちょっと書きすぎたのであとで消します。すみません。
まず、明らかな瑕疵だけを指摘するつもりでした。それから解釈の余地がある問題箇所を批判したいんだけど…瑕疵が多すぎて進まなかった…

タグ：

posted at 01:06:09

そして、「高頻度炎上関与ユーザー群」はフォロワーが多いと言っても、79ユーザーの82.3%はフォロワー数5000以下です。5000人以上は17.7%、14人しかいない。

インフルエンサーは、どれだけ最低でも1万人はフォロワーが必要だと思います。私見では、ふつうは10万人以上、値切って3万人か。 pic.twitter.com/ZsjBQEKL8S

タグ：

posted at 01:03:22

しかし、「炎上関与ユーザー群」がフォロワーが多いのであり、フォロワーが多いと炎上関与ユーザー群というわけではない。
「インフルエンサー（高頻度炎上関与ユーザー群）」という推測はやや不自然です。
なにより、今回の事例分析は1件のみで、高頻度もへったくれもないです。そりゃ確認できない。

タグ：

posted at 00:57:39

「高頻度炎上関与ユーザー」とは、「ネット炎上におけるユーザーの共振構造」で提唱された概念です。（これは優れた論文だと思います）
www.jstage.jst.go.jp/article/pjsai/...

調査した6件の炎上騒ぎで、5件以上に首を突っ込んでいた、少数のトラブル好き。
それらはフォロワー数がやや多い。

タグ：

posted at 00:51:39

＞グラフにし可視化、分析した
＞①インフルエンサー（高頻度炎上関与ユーザー群）、②インフルエンサーの「犬笛」に呼応する炎上加担ユーザー群、③荒らしを行うユーザー群

これは瑕疵というほどではないですが、③を読み取るのは無理でしょう。
また「高頻度炎上関与」が出てくるのが不自然。 pic.twitter.com/TfUmpXZcAl

タグ：

posted at 00:45:53

そもそも「直接リプライ」はいいとして、「それらのリツイート、引用RT」を分析する意味がわかりません。

変なコメントの通知が飛んで精神的苦痛となることを心配するなら、リプライのリツイートなんて問題にしなくていいでしょう。
それは炎上には関わるかもしれませんが、ハラスメントとは遠い。

タグ：

posted at 00:28:06

＞図3. 一時間あたり直接リプライおよびそれらのリツイート、引用RT数

「Total replies」と「Total replies incl. RT, QT」のグラフです。
（折れ線ではなく棒グラフで描くべきでしょう）

縦軸が「一時間あたりリツイート数」で、表題と矛盾しており、意味がわかりません。リプライ数はどうした。 pic.twitter.com/09M6XYoIMk

タグ：

posted at 00:19:12

＞直接リプライを中心に分析を行うのは、(略)被引用ユーザーに対して直接リプライ、もしくは引用RT がなされると、本人に通知が届き、(略)精神的苦痛が大きいためである。

この理由を示して、「直接リプライを中心に分析を行う」意味がわかりません。
通知が問題なら、なぜ引用RTを分析しないのか。 pic.twitter.com/SoNEjekXaR

タグ：

posted at 00:12:35