黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2020年05月08日(金)
#統計 「予測分布をテストサンプルを生成する真の確率法則に近付けること」は「n期までデータからその後の値の実現値をぴったり予測すること」は異なります。
確率法則的にはぴったり予測できていても、特定の実現値と比較すると全然ダメに見えることが起こり得る。
関連↓
twitter.com/genkuroki/stat...
タグ: 統計
posted at 00:09:21
In preparation for writing a parquet writer in pure Julia live stream (www.youtube.com/watch?v=O-NE9q...)
I managed to manually write a parquet file using only #julialang and have it read successfully using Python and R arrow!
A pure Julia @ApacheParquet writer is coming! No C++ needed!
タグ: julialang
posted at 00:22:26
This wouldn't have been possible without Thrift.jl and the foundational work in Parquet.jl
I managed to figure out the parquet format by reading the official docs and much of the source for Parquet.jl.
Thrift.jl is nifty for making writing thrift defn painless.
タグ:
posted at 00:35:01
#統計 記録
再度強調→ランダムウォークの多項式フィッティング(交差検証で調節)で予測が当たっているように見えるプロットを得るためには、サンプルパスの生成時の擬似乱数のシード値をうまく選択することが必須。そして実際にそれをやっている。 pic.twitter.com/EripLkAzCL
タグ: 統計
posted at 00:41:12
#統計 記録
set.seed(102)の場合のプロットのみを掲載しておいてこれ😱
「ランダムウォークで生成されているデータに対して」それをやると、あたかも予測が当たっているように見えるプロットを得るために、都合のよい擬似乱数のシード値を選ばなければいけなくなる。 pic.twitter.com/gwPzqJ7A5t
タグ: 統計
posted at 07:24:39
#統計 添付画像1にあるグラフははset.seed(102)の場合のランダムウォーク(添付画像2)に関するプロットなのに、【そこそこ適切に下降トレンドを予測できている】と書いてある!!!
上下対称のランダムウォークの「下降トレンド」!!!
set.seed(101),set.seed(100)では添付画像3,4のようになる。 pic.twitter.com/FdhZQ7Rrdk
タグ: 統計
posted at 07:43:10
#統計 cumsum(rnorm(n, 0, 20))は平均0分散20の正規分布のサンプル
ε_1
ε_2
…
ε_n
から
y_1 = ε_1
y_2 = y_1+ε_2
…
y_n = y_{n-1}+ε_n
を作る。確定値をy_1,…,y_mとし、その後のy_{m+1},…,y_nを未知確率変数とみなすと、y_{m+k} (1≦k≦n-m)の分布は平均y_m分散20kの正規分布になる。 pic.twitter.com/vHLbxQLXq3
タグ: 統計
posted at 07:56:11
#統計 そのブログ記事を引用する前に、公開されているコードをset.seed(102)の102を色々変えて実行してみると良かったと思います。私がそれをやった結果が
gist.github.com/genkuroki/736a...
にある。添付画像はそこで表示されていないプロット。
詳しくはスレッド全体を参照
twitter.com/_ss939/status/... pic.twitter.com/plaqcJG9rK
タグ: 統計
posted at 08:18:02
#統計 「ランダムウォークの多項式フィッティング」という設定では、たとえ交差検証などの方法で調節しても、【そこそこ適切に下降トレンドを予測できている】などと言えるためには、データ生成時の擬似乱数のシード値の調整が必要。
で、実際にそれをやっている。😱
tjo.hatenablog.com/entry/2020/04/... pic.twitter.com/4wrgrpZGgB
タグ: 統計
posted at 08:35:54
#統計
ランダムウォークの多項式フィッティングで『トレンド』を予測できているように見せるためにはデータ生成時に都合の良い擬似乱数のシード値の選択が必須(笑)
という話題への反応が以下のリンク先の記録だとすれば(違うかもしれないが)、ちょっと驚きですよね。
twitter.com/genkuroki/stat...
タグ: 統計
posted at 09:13:32
加藤公一, 가토우 기미카즈(はむかず) @hamukazu
その先生、本気で才能を見込んでたんだと思いますよ。 twitter.com/873928ka/statu...
タグ:
posted at 10:12:59
@genkuroki 多項式でも三角関数でも、正解が対称なランダムウォークなものにフィッティングで解析した時点で負け、ということではないのでしょうか。逆正弦法則などをチェックして、「こりゃーランダムウォークじゃないの?」というのを当てに行くことは本質的にできるのか、という難しい問題。
タグ:
posted at 10:14:23
#統計 ぎゃばんさんの感想が私には普通に見える。
実際にランダムウォークの特殊なサンプルをわざわざset.seed(102)として生成している本人が【「ランダムウォークであること」を強調するなら~】と言い返せる感覚が理解できない。
ぎゃばんさん、サンキュ!
twitter.com/gavangavan/sta... pic.twitter.com/81G0XZD6YN
タグ: 統計
posted at 10:27:39
#統計 個人的には、ランダムウォークに「トレンド」なるものがあると思っている時点で理解度ゼロのままでブログ記事を書いたとみなされても仕方がないと思います。
しかも【そこそこ適切に下降トレンドを予測できていること】にするためのset.seed(102)付き!
twitter.com/genkuroki/stat...
タグ: 統計
posted at 10:36:37
加藤公一, 가토우 기미카즈(はむかず) @hamukazu
僕も、自分の娘には、計算ミスが多すぎるから理系のほうが向いているのではと言っている(数学科に行けとまでは言ってない)
タグ:
posted at 10:40:01
【大阪大のみなさんへ】全学的なネットワーク障害が発生しており、学内・学外間の通信はほぼ途絶しているようです。マイハンダイだけでなく、大学のWebサイトなどもアクセスできません。 現在、対応しているということですので、しばらくお待ちください。
タグ:
posted at 11:03:12
#統計 CVに限らず、フィッティングで使う多項式の次数を0次に近付け、定数項をデータの最終期の値に近付ければ、予測性能が上がります(笑)。
しかし、件のブログの方法では最適な予測値(データの最終期の値)からは大きく外れ易いです。
シード値を選んで予測できていると見せかけているだけ。 twitter.com/gavangavan/sta...
タグ: 統計
posted at 11:03:55
#統計 データはランダムウォークです。ソースファイル
github.com/ozt-ca/tjo.hat...
の添付画像に引用した部分を参照。
個人的には、ランダムウォークにトレンドがあると思っている時点でアウト。
gist.github.com/genkuroki/736a...
も参照。シード値を変えた場合も計算しています。
twitter.com/gavangavan/sta... pic.twitter.com/7hO92yiq6V
タグ: 統計
posted at 11:07:55
@genkuroki 情報源をちょっとでも非対称なランダムウォークにすれば、1次式でやれば長期トレンドが浮き出てくる意味があるけど、次数増やすのは良くないね、というストーリーが作れるのではないかな、と思います(自分でやってみたい)。
タグ:
posted at 11:13:28
#統計 まさにその通りで、多項式や三角函数などどの函数系でフィッティングしていても、交差検証を使っていようがいまいが、ランダムウォークを扱っているのに、最終的な結論が
【そこそこ適切に下降トレンドを予測できていることが分かります】
だとアウトでしょう😅
twitter.com/ttkkmg/status/... pic.twitter.com/wTi1D9n1EL
タグ: 統計
posted at 11:15:43
#統計 件のブログ記事中で【そこそこ適切に下降トレンドを予測できていることが分かります】という結論が成立しているように見えるプロットが得られた理由は、set.seed(102)してあるからです。
他のシード値だと赤線が【トレンド】(笑)から外れまくる。
実際にやってみればすぐにわかります。 twitter.com/gavangavan/sta... pic.twitter.com/umeuhwAAbV
タグ: 統計
posted at 11:21:51
#統計 set.seed(102)から出発して、1つではなく、沢山のプロットを描いていた部分をちょっと書き直して、見易くしました。
赤線で青線を【予測】しているらしいのですが、シアンの点線(学習で使えるデータの最終期の値)による青線の予測と比較してみて下さい。
gist.github.com/genkuroki/736a... pic.twitter.com/Z6ycZ5Ffn5
タグ: 統計
posted at 11:53:41
#統計 上のプロット中の予測したい先の青線は60期分のランダムウォークです。各ステップで平均0分散20の正規分布で動く。そのようなランダムウォークを200本プロットしてみました。y = ±2√(20x) の内側にほぼ入ります。各時刻での期待値は初期値に等しくなる。
#Julia言語
nbviewer.jupyter.org/gist/genkuroki... pic.twitter.com/ZCg4P8oUZ1
posted at 12:51:27
#統計 添付画像1はランダムウォークの実現値を1つだけプロットしたものです。第18期以降は「下降トレンド」に乗ってしまったようにも見えます。
しかし、添付画像2のように沢山のランダムウォークを同時にプロットすると、その「下降トレンド」は偶然そう見えていただけだと分かる。 pic.twitter.com/tSzoUbrnrS
タグ: 統計
posted at 13:17:21
#統計 現実に出会う多くの場合には、添付画像1のようなプロットしか得られません。人間はノイズが生成した「トレンド」のように見える動きをトレンドだと誤解しがち。
ランダムウォークなのに【そこそこ適切に下降トレンドを予測できていることが分かります】と書いてしまうくらい人間は弱い。 pic.twitter.com/mkVF6869ce
タグ: 統計
posted at 13:20:33
#統計 昔読んだ本
www.amazon.co.jp/dp/4478001227
まぐれ―投資家はなぜ、運を実力と勘違いするのか
(Fooled by Randomness)
2008/2/1
ナシーム・ニコラス・タレブ (著), 望月 衛 (翻訳)
知識と経験が増えた今読み直したらどう感じるだろうか?
この翻訳書では参考文献欄が生き残っています!結構重要。
タグ: 統計
posted at 13:30:21
#統計 記録:添付画像1は
tjo.hatenablog.com/entry/2020/04/...
に今日追加された追記。添付画像2はシード値102の場合(ブログ記事の内容)。添付画像3はシード値101の場合。
あれれ?シード値101でも極値が2つ以上ありますね。
これと同じプロットをシード値101で再現できるかどうかを誰か確認して下さい!続く pic.twitter.com/JClg1w9MCy
タグ: 統計
posted at 15:05:31
#統計 続き。添付画像1は件のブログ記事への追記で、添付画像2はシード値101の場合の私によるプロット。極値は2つ以上ある。
仮に添付画像2と同じプロットを見て、シード値101を却下して、次の102を採用したのだとすれば、「極値が2つ以上」とは異なる条件でそうしたということですよね。 pic.twitter.com/Fcmcqo8iGL
タグ: 統計
posted at 15:23:44
#統計 シード値101の添付画像1のプロットでは「都合が悪いこと」は「そこそこ適切にトレンドを予測できている」と書けなくなることです。
「そこそこ適切にトレンドを予測できている」と書きたかったので都合の悪い101を捨てて、102を採用したのではないか?
もしもそうなら非常に印象が悪いです。 pic.twitter.com/3xAkxbqGvW
タグ: 統計
posted at 15:26:37
非公開
タグ:
posted at xx:xx:xx
tdual(ティーデュアル)@Matri @tdualdir
ってか、teamsもzoomみたいなバーチャル背景できるんやな。出来ないのgoogle meetだけか?🤔
タグ:
posted at 17:57:25
#統計 件のブログ記事の追記(添付画像)の内容は本文と照らし合わせると相当に意味不明で、本文で【そこそこ適切に下降トレンドを予測できていることが分かります】と言いたければ、下降トレンドなるものを考えることに意味のある法則のクラスに真の法則が含まれている場合を扱う必要がありました。 pic.twitter.com/KQzpjJwdl1
タグ: 統計
posted at 19:06:05
ここでの△8四飛は、ほぼアヒルの使い手で、ネット将棋ではよくやられる。切れ負けでは非常に有力な作戦だと思われる。自分はここでノータイムで▲7五歩と突くことにしている。対して△7四歩▲9五角までで終了、を5回ぐらい経験。 twitter.com/tetsu_59/statu...
タグ:
posted at 20:23:21
Julia (v1.4)の奇妙な挙動。struct内の配列の最大値を取ると型がANYになる。なぜだ? pic.twitter.com/Ea9xKRjnmD
タグ:
posted at 20:26:20
僕は数値計算でもゴリゴリに誤差詰めてテストコード書くんですけど,そうすると結構ツールにバグを発見するので,それを気にしないで使っている世の中の研究者はバグった実験結果を論文に書いてるんだろうなあと思っています.
タグ:
posted at 21:37:10
@drift_ing_cloud @rabbitfoot530 うちにもある!古本屋で売っていた! #数値計算の常識 pic.twitter.com/9IaCpZ7bPV
タグ: 数値計算の常識
posted at 21:38:36