黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2021年07月17日(土)
手元の #Julia言語 での #状態空間モデル での計算でも土曜日の方が高いという予想が出ていたのか。そしてやはり来週木曜は1800でもおかしくない。 pic.twitter.com/2Gk37B1ocd
posted at 23:35:55
#Julia言語 毎回 A[:, k] ではなく、view(A, :, k) と書くのはしんどいので、A[:, k] のように書いておいて必要に応じて @ view や @ views を追加すると便利。
函数を function f(X::Vector) ~ end と定義していると、f(A[:, k]) は動いても、f(@ view(A[:, k]))は動かなくなる。以前ハマった。 twitter.com/physics303/sta...
タグ: Julia言語
posted at 20:59:44
#Julia言語 一般に
begin
f(x)
g(y)
h(z)
end
の値は最後のh(z)と同じになります。
begin
plot(sin)
println("foo")
end
の値はprintln("foo")の返り値のnothingになります。(fooと表示されることは式の値とは関係ない。) twitter.com/yoshi9801/stat...
タグ: Julia言語
posted at 20:47:44
【ちなみに
plot(sin)
plot(cos)
とかするとcosだけ表示される。】
状況をよく理解していないのですが、「評価した式の値がプロットオブジェクトなら画像を表示する」という仕様ならそうなります。
begin
plot(sin)
plot(cos)
end
を評価すると値はplot(cos)と同じになります。#Julia言語 twitter.com/yoshi9801/stat...
タグ: Julia言語
posted at 20:43:57
@BluesNoNo 「教科書で触れているのではないかと想像しています」は常識に基く穏健な想定だと思います。しかし、現実は甘くないです。
具体的には東京大学教養学部統計学教室編『統計学入門』の説明は全般的にひどいと思います。この本を普通の学生が読んで基本的な事柄をまともに理解できるはずがない。
タグ:
posted at 20:08:28
I have collated some ways to do One Hot Encoding in Julia.
None of them are fully to my taste at the moment since none of them have the perfect combination of ease of use and production-worthiness.
Anyway, here's the list:
discourse.julialang.org/t/all-the-ways...
#julialang
タグ: julialang
posted at 19:43:59
そうなんです
で、この家族写真を見ると更にお父さんの悲哀が身にしみる... twitter.com/popeetheclown/... pic.twitter.com/beBVbXbFg9
タグ:
posted at 17:56:42
simesaba0141/MJ号 @simesaba0141
皆さん見落としてるんですけど、まだ集団免疫獲得には流石に程遠いんですけど、周囲のワクチン接種が進んでるおかけで、もう自分は大丈夫と接種もしていないのに思い込んでる連中が出始めてるんですよ。
そして残念ながらこの傾向はこれから強まります。
タグ:
posted at 17:31:34
AlphaFold2で予測した構造は、活性部位付近の側鎖の配向もほぼ正解に限りなく近いレベルかなと思いました。画像だとちょっとよく伝わらないかもしれませんが。 pic.twitter.com/ON2r0ZLX1w
タグ:
posted at 17:30:41
AlphaFold2 (left) とRoseTTAFold (right)でPDB:5GUEについて予測してみました。両者とも正解構造は知らない状態で予測しました(はず)。緑が予想構造で青が正解構造です。
RoseTTAFoldの正解構造からのずれを表すRMSD値は1.474Åでしたが、AlphaFold2は0.362Åでした。圧倒的精度! pic.twitter.com/M4JQ6H0YED
タグ:
posted at 17:28:01
@u_raa_kasann 手続き型言語なら、おそらくこの先 Julia 辺りが流行るんじゃないかな。滅茶早いので fortran の何杯か遅い程度を簡単に実現できるよう。Python は単体で同じ動作ならおそ過ぎ。そのへんからは逃げて次は Haskell 頑張ろうと。子供には関数型言語がいいんじゃないかなと思ってます
タグ:
posted at 16:41:43
川上冷奴 Yoshino Sugawar @yoshino_qingnai
「ピンポンダッシュ」とding-dong-ditch が同じだ、というのも味わい深い。 twitter.com/popeetheclown/...
タグ:
posted at 16:39:36
これはクソデカ氷に穴を開けてアイスコーヒーを注いだマジでイカれた飲み物。神戸三宮で飲める(期間限定) pic.twitter.com/jab0cv2Pqe
タグ:
posted at 16:11:03
julia+vscodeでPlotsでグラフ表示がうまくできない件、だいぶ見えてきた。F5(やvscode右上のボタンなど)で実行するとなにをどうやってもグラフは表示されないが、Shift+Enterだと条件を満たせば表示される。その条件とはplot(sin)とかでグラフ表示したあとにprintlnとかを書かないこと。
タグ:
posted at 14:46:44
非公開
タグ:
posted at xx:xx:xx
#統計 信頼区間が扱う「パラメータの真の値」はモデル内パラメータ値に過ぎず、95%信頼区間の意味での95%はモデル内確率に過ぎないことを、大学教育でまともに教えていないことはおそらく世界的な高等教育の問題です。P値についても同じことを言えます。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 14:01:39
ひとまず、「文章題は出てきた順に式を書くのが基本」教員と「ただ出ていた数字を足す(掛ける)だけの子もいる(ので順序指導をする)」教員で見解を統一してから教壇に立ってほしい。 twitter.com/neko_neko80/st...
タグ:
posted at 12:58:55
julia言語の多次元配列の書き方最高じゃない?教科書の演習問題を見たまんま入力して解けるんだが #julialang pic.twitter.com/YwSEE8bGx4
タグ: julialang
posted at 10:36:53
非公開
タグ:
posted at xx:xx:xx
自分も当初は手術可能な癌だったのに近藤誠の30分3万2000円のセカンドオピニオン外来なるところで「ガンモドキなので治療しなくていいですよ」と言われ、結果全身転移して根治療法不能になった患者さんを2人担当しました。そんな近藤誠に専門外のワクチンを語らせる女性週刊セブンの良識を疑います。
タグ:
posted at 09:42:22
@sekibunnteisuu 字が綺麗に書けるようになったのなら、その観点では良い先生かもしれないけれど、だいたいにおいてこういう方の指導の結果綺麗に書けるようになったという話を聞いたことがない。
だって、おれ、字汚いもん。
タグ:
posted at 09:14:15
@kotoi1205 最後の「とりもどす」の濁点漏れ以外は全部言い掛かりでは?子供のやる気が削がれるからやめて欲しいですね。
あと人様の子供に対しては細かい事に難癖つけまくってる割に当人の「-5」の字形が雑なのは平気なようだし。こんな自分に甘く他罰的な教師は害悪なので子供に関わってほしくないですね…。
タグ:
posted at 09:12:08
Summer is meant for the water.
Pope Beach, California The heat can be bearable pic.twitter.com/FNzc4OUazM
タグ:
posted at 09:08:19
教員のときにこういう指導をしていたという自画自賛ですね。小学生の頃こういう教師に当たってしまい、三者面談の時に書道を習わされることになりました。字を書くこと自体が嫌いになってしまったので、金と時間の無駄になっただけでした。授業内容を理解していなくてもノートが綺麗なら褒められる謎。 twitter.com/sekibunnteisuu...
タグ:
posted at 08:58:49
単位円の内部にランダムに点をたくさん取りたかったのですが、極座標でrとθをランダムにとって点をxy平面上に取ると中心のほうに点が多くなることに気付きました。もう一度やり直してみたいと思います。#julialang pic.twitter.com/hPSndKboOd
タグ: julialang
posted at 08:46:17
炎天下での体育、やめようよ。
熱中症か 中学生9人が体調不良
#Yahooニュース
news.yahoo.co.jp/pickup/6398889
タグ: Yahooニュース
posted at 08:45:14
X = T[3:8,3:8]
みたいに部分行列を取り出すのも
X = view(T, 3:8, 3:8)
ってやったほうがはるかに速い.
こういうjulia tipsをちゃんと頭に入れておきたい.
タグ:
posted at 08:36:10
Julia言語まだよくわかってないんだが,いろいろ試してみるに,
T = T[perm1, perm2]
みたいにするときはつねに
@ views T = T[perm1,pemr2]
にするだけで,めっちゃ早くなる.
Tが5000×5000のときは1000倍以上はやくなる.これって,新たにメモリの確保をやめてるんだよね?
タグ:
posted at 08:26:48
記事書いた:AlphaFold (ver.2) インストール qiita.com/Ag_smith/items...
事前に色々知っておくと良いTIPSを入れました
タグ:
posted at 07:50:22
MSAが0個のようなde novoタンパク質についての構造予測ですとスクリプトを書き換えればMSA取得をすっとばせるので、最後のAlphaFold2本体の推論だけで予測構造を計算可能みたいです。Google colabがTPUも使えるなら、2分で予測モデリング完了というのも本当っぽいですね。
タグ:
posted at 06:49:24
計算時間129分のうちhhblitsによるMSA取得が116分、最後のAlphaFold2本体による構造推論部分が13分でしたので、"GPUなしの計算機"でも気長に待てば現実的な範囲内で終わりそうです。
ただいずれにしろそこそこ新しいCPUと最低32GBのRAMはほしいところです。
タグ:
posted at 06:43:58
@shintaro_minami 実際その通りでした。計算時間129分のうちhhblitsが116分、最後の構造推論部分が13分でしたので、CPUオンリーの計算機でも気長に待てば現実的な範囲内で終わりそうですね。ただいずれにしろそこそこ新しいCPUと最低32GBのRAMはほしいところですね。
タグ:
posted at 06:41:31
ちなみにやっぱりDockerfileで指定しているTensorflowとcudaの相性がよくなかったみたいでした。修正パッチ作ってGitHubにPRしとこ。
計算所要時間はこの某350〜400アミノ酸のタンパク質に対して私のマシン(Ryzen9 5900X, RTX3090, HDD8TB)で2時間9分でした。
タグ:
posted at 06:21:45
やりました!!AlphaFold2の完全動作完了です!!!!
……そして……恐ろしいことに……未発表の結晶構造データで試してみたのに予測構造が実験結果と寸分の狂いなく本当に一致している……(画像なし)
同日発表のRoseTTAFoldさんはそこそこ外してたのに pic.twitter.com/vbf22bs0rp
タグ:
posted at 06:17:16
#Julia言語 訂正:信頼区間函数は1行ではなく、2行だった。
以下の例は2×2の分割表のFisher検定に付随する信頼区間の計算。
丸の面積がモデル内確率に比例。
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/oYD6pueRz2
タグ: Julia言語
posted at 06:14:35
#Julia言語 では、P値函数と信頼区間函数をそれぞれ1行で実装できる場合がある。以下のリンク先は二項分布モデルの場合。 twitter.com/genkuroki/stat...
タグ: Julia言語
posted at 06:09:42
p(x), C(x)はそれぞれ、p(x, θ)、C(x, α, p)のように書く必要がある。
信頼区間C(x, α, p)はデータxと有意水準αだけではなく、その定義よりP値函数pの取り方にも依存する。
タグ:
posted at 06:06:16
本の抜粋を見ても、P値や信頼区間を計算する函数を自分で書くとよい理由がわかる。P値をp(x)と、信頼区間をC(x)と書くと、それらがデータxの関数であることは分かるが、モデルのパラメータθやαが式の中から消えてしまう。
コンピュータの函数を書くときには、そのような省略は自然に許されなくなる。
タグ:
posted at 06:02:52
数学が十分強ければ、統計学の考え方だけを学んで、数学的に正確な定義の構成は自分でやった方が速い可能性もある。私もP値や信頼区間は自分で定義した。そして結果的に教科書に書いてあるものと同じだった。適切な定義に選択肢がほとんどないことはよくある。
タグ:
posted at 05:59:04
#統計 久保川達也著『現代数理統計学の基礎』を購入しようかどうか検討している人のために、その本におけるデータxのP値 p(x) と信頼区間 C(x) の定義部分を抜粋してみました(添付画像)。
入門者向けの本ではないですが、この手の数学的記述に強い人には入門書よりも読み易い可能性があります。 twitter.com/genkuroki/stat... pic.twitter.com/kM4nuCQV9v
タグ: 統計
posted at 05:43:55
#統計 モデルM(θ)とデータDから得られる信頼区間の1つの定義の仕方は「モデルM(θ)のデータDに関するP値がα以上になるパラメータθ全体の集合」です。
この定義の仕方で書かれた売れている教科書に久保川達也著『現代数理統計学の基礎』があります。p.169の最終行の信頼区間C(X)の式を参照。 twitter.com/genkuroki/stat...
タグ: 統計
posted at 01:23:15
@BluesNoNo 【区間推定とは真の母数の値θがある区間(L,U)に入る確率】の意味での「真の母数」は現実における真の母数と呼べそうな何かを意味せず、モデル内のパラメータの値に過ぎません。その意味での「確率」もモデル内確率に過ぎません。
この点を大学でまともに教えているとは全く思えません。#統計
タグ: 統計
posted at 01:11:04
@BluesNoNo #統計 例えば、平均があると思って平均値をパラメータに含むモデルで信頼区間を計算しても、現実にはCauchy分布のように真の分布は平均値を持たないかもしれない。
いずれにせよ、信頼区間はデータから計算されるモデル内のパラメータの区間に過ぎず、現実世界の何かを記述していません。続く
タグ: 統計
posted at 01:05:30
@BluesNoNo #統計 実践的な場面では、たとえデータが適切に取得されていても、信頼区間の計算で使ったモデルの現実での妥当性が保証されていることは稀であり、モデルが妥当でなければ「真の母数」自体が現実には無意味な概念になってしまいかねません。続く
タグ: 統計
posted at 01:00:05
@BluesNoNo 【区間推定とは真の母数の値θがある区間(L,U)に入る確率を1-α (αはθが入らない確率)以上になるように保証する方法】
「真の母数」の意味が問題だと思います。
実践的な場面では、信頼区間は現実から得たデータとパラメータ付きの統計モデルを使って計算されます。続く #統計
タグ: 統計
posted at 00:56:19
(11/11) と感じました.ただ,同書をテキストとした授業を受けたことはないので,講義では補足説明があったのかもしれません.
長々と書きましたが,よく分からない,というのが結論です….
なお,以上の呟きでは,簡単のため,前提やモデルが正しいものとして話を展開しました.
タグ:
posted at 00:37:43
(10/11) 東京大学の赤本p.225では,確かに「割合」がゴシック体になっていますが,同ページの3行目には「区間推定とは真の母数の値θがある区間(L,U)に入る確率を1-α (αはθが入らない確率)以上になるように保証する方法」とも述べられているので,私は同書の筆者はそんなに拘りはないんだろうなぁ,
タグ:
posted at 00:37:43
(9/11) そして,それは科学には合わない>と批判しており,<確率をいったいどう解釈すればいいのか?>を両者は争っていたのかもしれません.
つまり,「確率」という言葉は同じで,その数理的性質もそっくり同じだが,実際の運用上は異なるものを指していた可能性は十分にあります.
タグ:
posted at 00:37:42
(8/11) 立場だったので,争っていたと思います(そして,丹後本では,他の多くの本と同じように,後者のNeymanを推しているのだと思います).ただし,Fisherは,統計的検定に関して,<Neymanは受け入れ検査的な長期試行を想定している,
タグ:
posted at 00:37:42
(7/11) Fisherは<求められた推測区間(fiducial limit)の中に,95%の推測確率(fiducial probability)で真のパラメータを含む>という感じにも解釈できるという立場だったのに対して,Neymanは<観測された信頼区間に,真のパラメータが含まれるか否かは,0%か100%だ.断じて95%ではない>という
タグ:
posted at 00:37:41
(6/11) 記憶が相当に曖昧ですが,私が今覚えている限り,NeymanとFisherが信頼区間関係で争ったのは,たぶん,<信頼区間の「95%」は,確率なのか,割合なのか?>なんかじゃなくて(丹後本でも,そこは争っていないと私は解釈しました),
タグ:
posted at 00:37:41
(5/11) 逆にFisherが全然,頻度主義者じゃなかったかというとそうでもなくて,初期FisherのFisher(1922)などでは,「仮説的無限母集団」が仮定されています.
タグ:
posted at 00:37:41
(4/11) また,Neymanは,自分自身の立場を頻度主義としており,かなりの初期から,「確率」を「長期試行の割合」と扱っていたのかもしれません.…とは言うものの,Neyman(1950)の教科書の2章を見る限り,無限試行ではなく,壺のモデルで確率を紹介しています.
タグ:
posted at 00:37:40
(3/11) 一方,たぶん,Fisherは,推測確率(”fiducial probability”)もしくは「確率」と形容していたと思います.
つまり,両者とも言葉では「確率」と呼んでいたと思います.
ただし,Neymanは(εが)「誤りの確率」,Fisherは「Fiducial確率」という違いはあると思います.
タグ:
posted at 00:37:40
(2/11) “…, the probability of an error in a statement of this sort being equal to or less than 1 - ε, […]The number ε I call the confidence coefficient.”
www.jstor.org/stable/2342192
タグ:
posted at 00:37:40
(1/11) 信頼区間についてまったく理解できていないので,検討外れでしょうけれども…
内容を覚えておらず,いま該当の1文を読んだだけですが,「信頼区間」という言葉の初出とされているNeyman(1934)p.562でも「確率」と形容されています.
タグ:
posted at 00:37:40