黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2022年08月28日(日)
チーム糸谷 4-5 チーム斎藤
黒沢六段○-●木村九段
糸谷八段○-●斎藤八段
西田五段○-●佐々木七段
糸谷八段●-○木村九段
西田五段○-●斎藤八段
黒沢六段●-○木村九段
西田五段●-○佐々木七段
黒沢六段●-○斎藤八段
糸谷八段●-○佐々木七段
タグ:
posted at 00:05:12
>Z氏アカウントに直接届いた 2,817 件の直接リプライ(直接リプライ1,175件、これらのリツイート1,499件、引用リツイート143件)
直接リプライ ∋ {直接リプライ,直接リプライ(リツイート,引用リツイート)}
でしょうか?
「直接リプライ」が循環定義っぽくなって、意味がわかりません。 pic.twitter.com/QpSHwAWzuL
タグ:
posted at 00:06:42
>直接リプライを中心に分析を行うのは、(略)被引用ユーザーに対して直接リプライ、もしくは引用RT がなされると、本人に通知が届き、(略)精神的苦痛が大きいためである。
この理由を示して、「直接リプライを中心に分析を行う」意味がわかりません。
通知が問題なら、なぜ引用RTを分析しないのか。 pic.twitter.com/SoNEjekXaR
タグ:
posted at 00:12:35
>図3. 一時間あたり直接リプライおよびそれらのリツイート、引用RT数
「Total replies」と「Total replies incl. RT, QT」のグラフです。
(折れ線ではなく棒グラフで描くべきでしょう)
縦軸が「一時間あたりリツイート数」で、表題と矛盾しており、意味がわかりません。リプライ数はどうした。 pic.twitter.com/09M6XYoIMk
タグ:
posted at 00:19:12
そもそも「直接リプライ」はいいとして、「それらのリツイート、引用RT」を分析する意味がわかりません。
変なコメントの通知が飛んで精神的苦痛となることを心配するなら、リプライのリツイートなんて問題にしなくていいでしょう。
それは炎上には関わるかもしれませんが、ハラスメントとは遠い。
タグ:
posted at 00:28:06
>グラフにし可視化、分析した
>①インフルエンサー (高頻度炎上関与ユーザー群)、②インフルエンサーの「犬笛」に呼応する炎上加担ユーザー群、③荒らしを行うユーザー群
これは瑕疵というほどではないですが、③を読み取るのは無理でしょう。
また「高頻度炎上関与」が出てくるのが不自然。 pic.twitter.com/TfUmpXZcAl
タグ:
posted at 00:45:53
「高頻度炎上関与ユーザー」とは、「ネット炎上におけるユーザーの共振構造」で提唱された概念です。(これは優れた論文だと思います)
www.jstage.jst.go.jp/article/pjsai/...
調査した6件の炎上騒ぎで、5件以上に首を突っ込んでいた、少数のトラブル好き。
それらはフォロワー数がやや多い。
タグ:
posted at 00:51:39
しかし、「炎上関与ユーザー群」がフォロワーが多いのであり、フォロワーが多いと炎上関与ユーザー群というわけではない。
「インフルエンサー (高頻度炎上関与ユーザー群)」という推測はやや不自然です。
なにより、今回の事例分析は1件のみで、高頻度もへったくれもないです。そりゃ確認できない。
タグ:
posted at 00:57:39
そして、「高頻度炎上関与ユーザー群」はフォロワーが多いと言っても、79ユーザーの82.3%はフォロワー数5000以下です。5000人以上は17.7%、14人しかいない。
インフルエンサーは、どれだけ最低でも1万人はフォロワーが必要だと思います。私見では、ふつうは10万人以上、値切って3万人か。 pic.twitter.com/ZsjBQEKL8S
タグ:
posted at 01:03:22
※「高頻度炎上関与ユーザー群」の件は、ちょっと書きすぎたのであとで消します。すみません。
まず、明らかな瑕疵だけを指摘するつもりでした。それから解釈の余地がある問題箇所を批判したいんだけど…瑕疵が多すぎて進まなかった…
タグ:
posted at 01:06:09
「大学行かなくとも活躍する場は多くある」と意見した本人は、大学に行ってないのか?大学に行かないと試験どころか試験受験資格を得るための養成課程への入学さえ閉ざされる。学歴資格による職業を選べない状況は、もしかして #憲法違反 ..... twitter.com/shin2_ota/stat...
タグ: 憲法違反
posted at 09:06:13
#統計 PRMLでのその段落の説明はひどくミスリーディングなので、読書会を開くなら、PRMLにおける
❌KLダイバージェンスの最小化は尤度の最大化と等価であることがわかる
という説明は機械学習の実践においてひどくミスリーディングで有害である、と話し合うべきだったと思います。続く twitter.com/Fonske_STEAM/s...
タグ: 統計
posted at 10:31:43
#統計 実践的には、尤度最大化がKLダイバージェンス最小化と等価では__ない__と考えるべきであることから生まれたのが所謂情報量規準の理論です。
元祖の赤池弘次さん本人による解説
↓
www.jstage.jst.go.jp/article/butsur...
エントロピーとモデルの尤度(<講座>物理学周辺の確率統計) twitter.com/genkuroki/stat...
タグ: 統計
posted at 10:31:50
#統計 PRMLの(1.119)式の少し上にあるKLダイバージェンスの説明も雑過ぎると思います。
赤池弘次さんのように、KLダイバージェンスがどのような意味での予測誤差の指標になっているかを説明するSanovの定理の説明を挿入する方が自然な説明の仕方だと思います。
www.jstage.jst.go.jp/article/butsur... pic.twitter.com/JE0oJdYu9Y
タグ: 統計
posted at 10:31:54
一般に、解説を書くときには、部分的にミスリーディングなことを書いてしまうことの方が普通だと思います。「後の方で詳しく説明するから、許してくれ」となることもあるかもしれない。
個人的にはそういう場合にはそういうコメントを明示的に挿入するべきだと思いますが、忘れることもあると思う。
タグ:
posted at 10:52:50
著者達の立場からは、そういう類のミスリーディングな説明を読者がそのままミスリーディングな形で受け入れちゃうと、「うぎゃー!」となると思います。
読者の側が本の解説を正しいと信じたりせずに、論理と直観で厳しく詰めて行くようにしないと読者は苦しくなるし、著者も「うぎゃー!」となる。
タグ:
posted at 10:56:32
#統計 まさにそれ!
標本サイズが大きくても標本平均に中心極限定理が効いていれば、正規分布の標本分布モデルを使った平均に関する検定や区間推定の誤差は小さくなる。
さらに面白いことに、正規分布の標本分布モデルを使った分散に関する検定や区間推定は標本サイズを大きくしてもそうならない。 twitter.com/takotakot/stat...
タグ: 統計
posted at 12:21:39
#統計 そういう理由で、統計学に関する事情通達は、「検定法選択のフローチャート」的なものを見ると、
ああ、またその悪しきパターンか!
と感じるわけです。教育的に有害過ぎ。
世界における高等教育における「きはじ」「くもわ」。
Statistical Rethinking xcelab.net/rmpubs/sr2/sta... より
↓ pic.twitter.com/G3iUUq5kDo
タグ: 統計
posted at 12:49:56
@genkuroki @takotakot ご多忙のところいきなりの質問で申し訳ありません。
確率・統計学を学び直したいと考えているのですが、黒木様のお勧めの教科書があれば教えていただきたいです。
タグ:
posted at 12:58:17
@AtoZ401223 @takotakot その質問はよくあるのですが、入門的な的なまとまった教科書で勧めて大丈夫だと感じるものはないです。
統計学を学び始める人は教科書の内容がひどくミスリーディングである可能性に常に注意を払いながら勉強する必要があると思います。
教科書に書いてあることを正しいと思ってはいけない世界。
タグ:
posted at 13:03:16
@AtoZ401223 @takotakot 教科書とは独立に科学的な常識と数学的な力と論理的な厳しさと心の強さを身につけて先に進む以外の方法はちょっと考えられない感じになっていると思います。
タグ:
posted at 13:05:37
@AtoZ401223 @takotakot しかし、私は、どのスレッドでも入門的教科書以外の有益な資料を紹介しています。
英語の文献であることも多いのですが、多くに場合に日本語で内容を簡単に紹介している。
それらを参考にすれば道に迷わずに済むと思います。
タグ:
posted at 13:08:53
@AtoZ401223 @takotakot 東大出版会の『統計学入門』も、基本概念の解説の適切さがほぼ全滅になっているだけで、扱われている個々の具体的な計算例がまずいわけではありません。
基本概念について『統計学入門』を引用して根拠として使ったりしなければ、『統計学入門』も有用な教科書になり得ると思います。
タグ:
posted at 13:18:31
@AtoZ401223 @takotakot 現実的な勉強の仕方は
①具体的な計算の仕方や関連の数学の使い方については、不適切な考え方が書いてあることを承知の上で、既存の有名教科書で勉強する。
②統計学における基本的な考え方については別の新しめの文献で勉強する。
だと思います。
タグ:
posted at 13:21:50
@AtoZ401223 @takotakot あと、「紙とペン」による勉強は限界があるので、コンピュータの併用は必須だと思います。
例えば、中心極限定理がどういう条件でどの程度の近似の良さで成立しているかをコンピュータで確認しまくれば、中心極限定理の証明を理解できなくても、実践的に使えるような理解が可能になると思います。
タグ:
posted at 13:28:27
@AtoZ401223 @takotakot コンピュータで確認しまくれば、教科書の説明が不適切である証拠を自力で得ることもできます。
例えば、2×2の分割表に関する「Fisher検定は正確であり、χ²検定はその近似に過ぎない」という主張もコンピュータをいじっているうちにおかしいと分かります。
タグ:
posted at 13:30:33
@AtoZ401223 @takotakot 「誰か偉い人がお墨付きを与えてくれる」という反統計学的感覚を維持したまま、統計学を正常に勉強することは不可能だと思います。
「正しいことの証拠は自力で得る」という気構えが最も重要だと思います。
それをやるとひどく誤解して失敗することもあるのですが、それは人間なので仕方がない。😊
タグ:
posted at 13:35:18
たぶん、これが一番大事。ダメな勉強の仕方の典型例は
❌教科書にそう書いてあったので、5%の有意水準で有意差があることがわかったならば、差があることの証拠が得られたと考えてよい
のように考えて勉強すること。こういう類にことをやった瞬間にその人は非科学的な思考に陥っている。 twitter.com/genkuroki/stat... pic.twitter.com/5mbV6orFp7
タグ:
posted at 13:40:33
@takotakot @AtoZ401223 その本の場合もミスリーディングな説明をきちんと自分で訂正しながら読むならばお勧めできるというだけなので要注意。
例えば、意思決定論の枠組みは「小さな世界」が前提になっていることをもっと強調して欲しいし、ノンパラメトリック検定の使用可能条件の現実性についても正直に書いて欲しかった。
タグ:
posted at 13:45:36
@takotakot @AtoZ401223 どんな偉い先生が書いた本であっても、最近のP値や信頼区間の使い方に関する議論をフォローしていないものは、大量に訂正を入れない限り、実践的には危ない書き方がされている教科書扱いが妥当だということになると思います。
タグ:
posted at 13:47:35
@takotakot @AtoZ401223 個人的には、竹内啓『数理統計学−データ解析の方法』の書き方が好きです。この本の第19章には「正規分布の仮定の意味」の簡単な説明があります。
その第19章の内容は現代的にはコンピュータで読者が確認しまくるとよい話になっています。
タグ:
posted at 13:52:20
毎回新しくηを用意しなくていい分,get_η!()の方が速くなるのかなと思ったけど,有意差がない...
Julia 言語 pic.twitter.com/pW7LwsF0br
タグ:
posted at 14:03:38
この「コンピュータを使って色々できるようになること」も結構コストのかかる結構大変なことだと思います。
どう解決すればよいのか、よくわからない問題。
ある程度のプログラミング能力が必須になってしまう。 twitter.com/genkuroki/stat... pic.twitter.com/L1Vt6TQkMf
タグ:
posted at 14:16:55
ごまふあざらし(GomahuAzaras @MathSorcerer
ようこそ・ようこそ>Julia(言語) twitter.com/vloom_mario/st...
タグ:
posted at 19:51:15
@designpatterngf あー,なるほど.
お互いに依存しない独立した数値計算のプログラムA1,A2,A3,...,Amを順に流していくのに対して,書くスレッドに同時にAkを走らせると,たしかに1/mくらいになりますよね.
一つのプログラム内で複数のスレッドを使うようなことを考えていました.
タグ:
posted at 20:11:58
@designpatterngf なるほど.
(Windowsで音楽ききながらの実験であんまりあてにならない結果ですが)例えば,各スレッドが同じ配列Xを独立に更新しているような状況で,1/mにほど遠いのはちょっと不自然な感じしますか?(m=4)
それとも,同じ配列にアクセスしているなら,まぁそんなもんじゃない?って感じですかね? pic.twitter.com/MG1CIsJoVy
タグ:
posted at 20:19:53
@designpatterngf ありがとうございます.勉強になります.
ただ,やっぱり変わらないですね.
Windows上で実験しているのもよくないのかもしれません.それと,Julia言語の並列計算の書き方について何か勘違いしているかもしれません,もうちょっと調べてみます. pic.twitter.com/oaPNbH3J8y
タグ:
posted at 20:41:52
@designpatterngf @Threads あーー,何か私が勘違いしているようです.
高速化したい for の前に機械的にThreads.@threads をつければいいと思っていたのですが,そうじゃないみたいですね.ちょっとコードを直してみます.
タグ:
posted at 20:51:19
@designpatterngf ありがとうございます.うーん,なんかおかしいですね.Jupiterつかっているのが悪いのかもしれません. pic.twitter.com/WFHnLMhhxe
タグ:
posted at 21:00:10
@designpatterngf 私も,Jupiter使わず,Linuxでちゃんと比較してみます.
とりあえず,どのスレッドにどの計算をさせるか,というはコード書く側がちゃんと指定する必要があるのですね(勝手に分散してもらえるものだと勘違いしてました.)
タグ:
posted at 21:08:01
get_Gの計算が遅すぎる気がするんですが,こんなものでしょうか.
gist.github.com/kazucmpt/f4d68... pic.twitter.com/QJ3F3XyMmG
タグ:
posted at 21:39:58
なんでかわからないけど,
η[idx...]
を
η[idx[1],idx[2],idx[3]]
とすると爆速になる
なるほど.hogehoge... という風にしてhogehogeの中身を参照するのはjulia言語では,メモリ的によろしくないということ?
ただ,idxは3次元のベクトルとは限らないんだよなぁ.どうしようか. pic.twitter.com/lRbwk1oKMV
タグ:
posted at 21:46:13
Julia言語で探査機画像の解析を始めてみた。
FITSの入出力はできたが(using FITSIO)、やりたいこと諸々できるかな
astropyのJuliaインターフェースないかな🤔
天文界隈にはまだJulia使いが少ないか...
タグ:
posted at 23:10:44
いつまでも入門書の写経だけやっててもしょうがないので「ゼロから学ぶスパイキングニューラルネットワーク」のLIFモデルの #Python コードをJuliaに書き換えてみました。書き換え始めるとJuliaでどう書いたっけ?となるのでいい訓練になりますね。
#julia言語
#スパイキングニューラルネットワーク pic.twitter.com/Oi0pZrSExg
タグ: julia言語 Python スパイキングニューラルネットワーク
posted at 23:16:01