黒木玄 Gen Kuroki
- いいね数 389,756/311,170
- フォロー 995 フォロワー 14,556 ツイート 293,980
- 現在地 (^-^)/
- Web https://genkuroki.github.io/documents/
- 自己紹介 私については https://twilog.org/genkuroki と https://genkuroki.github.io と https://github.com/genkuroki と https://github.com/genkuroki/public を見て下さい。
2017年06月15日(木)
Pixiv論文騒動から半月、論文著者や人工知能学会が隠蔽した論文を再掲することもなく、なんかうやむやになってるっぽいですが。
当時の批判で「N=10じゃ少なすぎ」「手動処理ってダメすぎ」って声が多かったんで、ふと気が向いた素人がさくっと大量データ自動解析やってみました。
タグ:
posted at 00:02:15
Pixiv小説解析(松編) 概要:
・タグに「松」を含む小説を一括取得(N=12000)
・mecabで形態素解析(辞書にキャラ名を追加)
・word2vecで松野六兄弟を200次元ベクトル解析、相互コサイン距離を算出
・D3.jsで2次元平面へ力学的プロット、関係性を図示
タグ:
posted at 00:05:53
Pixiv小説解析(松編)結果:
・タグに「松」を含む小説・12000作から松野六兄弟の関連性を算出、図示。
・丸の大きさは単語登場回数。
・関係の深さは、関連線の太さで見るのが正確。
・位置関係も指定したものの、全員が密接に関連するがんじがらめ力学構造なので、プロットは不正確。 pic.twitter.com/DvFewWUhM8
タグ:
posted at 00:12:58
Pixiv小説解析(松編):
・無方向グラフ。A×B=B×Aが成立、つまり攻×受の区別不可。
・もっとも密接な関係は、おそ松-チョロ松。
・もっとも疎遠な関係は、おそ松-トド松。
・もっとも存在感が薄く、ぼっちなのは、トド松。
・ためしに「トッティ」をトド松に含めても焼け石に水。 pic.twitter.com/7NCmOH8lsO
タグ:
posted at 00:20:29
Pixiv小説解析(R-18編):
・「R-18」タグの小説を一括取得(N=11934)
・mecab+ipadicで形態素解析
・word2vecで単語ベクトル自動解析
これぐらいは学者じゃないド素人でもほっといたら一晩でできたんだけど…いまいち面白い知見は導き出せず。
タグ:
posted at 00:34:13
Pixiv小説の大量ゲット&単語の多次元ベクトル分析なんて、ぼく程度のド素人でも簡単にできる、現時点じゃいちばん基本のやつなんですが。
もし結果を公表すると、
「著作権侵害!」「プライバシー暴露!」「11,934作すべての小説作者に許可を取れ!」って批判されちゃうのかなあ。
タグ:
posted at 00:37:11
Pixiv小説をデータ分析に使用するときの注意点
・N=12000程度が、素直な手法で外部取得できるシステム的な限界。
・男性向けと女性向け、異性愛と同性愛の明確な区別はない。
・真面目にやるなら形態素解析辞書に大量の固有名詞登録が必要。
・法律とか関係ないレベルの批判に注意。
タグ:
posted at 00:43:34
非公開
タグ:
posted at xx:xx:xx
word2vecにpixiv R-18小説を11934件ぶっこんで計算しながら気づいたのですが。
実はpixiv運営自身が、小説94380件を解析したデータを配ってるんですね…。inside.pixiv.net/entry/2016/09/...
有害論文炎上中にあんまり話題にならなかったなあ。
タグ:
posted at 00:50:47
pixiv論文炎上中は「分析対象の小説作者全員に許可を取るのが当然」って意見をかなり見かけたんですが、pixiv運営は94380作の作者全員に個別許可は取ったりしてなさそうだよなあ。
inside.pixiv.net/entry/2016/09/...
規約がどうなってるのかはよく知りませんが。
タグ:
posted at 00:55:00
非公開
タグ:
posted at xx:xx:xx
うるさがたにも怒られない程度に、Pixiv小説 R-18タグ11934作の分析結果。
【比喩表現についての知見】(例の論文の補足)
・「バナナ」が単純自動解析で関連づくのは、食品のみ。猥褻用語と関連づくような比喩としての用法は確認できない。
→論文のように、人力処理が必要? pic.twitter.com/cOKbus7rSc
タグ:
posted at 01:01:29
簡単のため、何もないとする*。しかし「何もない」という概念が存在する以上、これは矛盾である。よって何もないのではなく何かがある。
*「実際、何もなかった方が、なにかあるよりも簡単で容易であると言える。」(Leibniz, 1714)ja.wikipedia.org/wiki/%E3%81%AA...
タグ:
posted at 01:04:02
Pixiv小説 R-18タグ11934作の分析、補足。
「バナナ」の用例を目視確認すると
・猥褻表現の比喩、男性器という意味で使用される用例はほとんどない。
・ただし猥褻表現比喩は、炎上騒動で非公開にされた可能性はある。
・食べる以外には、物理的に性具として使用される用例が多い。
タグ:
posted at 01:06:05
非公開
タグ:
posted at xx:xx:xx
Pixiv小説 R-18タグ11934作の分析、比喩表現。
・「ソーセージ」「フランクフルト」「ウィンナー」、いずれも関連上位に来るのは食品ばかり。意外。
・「ポークビッツ」は用例ゼロ。
・ついでに「きりたんぽ」も用例ゼロ。 pic.twitter.com/dYx4cc6YvO
タグ:
posted at 01:20:07
ただし分析の母集団を「R-18タグ11934作」から「松タグ12000作(R-18,非R-18無差別)に切り替えると、Pixiv小説分析結果は激変。
R-18タグでは用例ゼロだが、松タグでは用例10件。
そして松タグの「ポークビッツ」は食品とは全く結びつかない。伊藤ハムすごい。 pic.twitter.com/mZ1kh8fDle
タグ:
posted at 01:28:33
Pixiv小説分析の食品比喩表現。
「ミルク」の場合は、母集団「松タグ12000作(R-18,非R-18無差別)」では食品と結びつき、「R-18タグ11934作」は食品以外と結びつく。「ポークビッツ」とは逆の傾向。 pic.twitter.com/HMd496WnLI
タグ:
posted at 01:35:19
Pixiv小説分析の食品比喩表現。
「蜜」の場合は、母集団「R-18タグ11934作」も「松タグ12000作(R-18,非R-18無差別)」も、ほぼ同じ傾向。食品というには微妙だけど。
ただよく見ると、男女無差別R-18ではなく、松タグのほうだけ「母乳」と関連。女体化…。 pic.twitter.com/aQSUDkCea0
タグ:
posted at 01:45:44
Pixiv小説分析、食品比喩表現でもっとも特徴的な単語は「トコロテン」だと思います。R-18タグも松タグも、ほぼ同傾向。後者のほうにヘテロ表現があるのは、女体化ものです。
そしてトコロテン出現回数は、R-18タグでは118回に対し、松タグ(R-18&全年齢)では74回。多い…。 pic.twitter.com/3yHNyVKrJZ
タグ:
posted at 01:57:20
そしてPixiv小説のword2vec分析のハイライトであるベクトル演算、単語の加減算。
これは面白い方程式を見つけるのがとても難しいです。見つけたのはこれぐらい。
・男-女+オカズ=オナニー
・陰茎-ゴム+射精=メスイキ
・夢-努力+現実=実現
タグ:
posted at 02:09:57
pixiv小説をド素人が大量機械分析してみて、pixiv炎上論文に補足。
・バナナの比喩は機械分析では見つけにくい。
・母集団により極端に結果が異なることがある。
・少数の執筆者が変な用例を頻発すると結果が偏る。
・松タグは性的表現が先鋭化している。目のつけどころは悪くなかった?
タグ:
posted at 02:20:01
Pixiv小説 R-18タグ11934作ベクトル分析のおまけ、オノマトペの近傍ベクトル抽出(類語一覧)。
「クチュクチュ」はPixiv公式が94380作で検証したのと同じ調査です。 pic.twitter.com/fjTmMQtdye
タグ:
posted at 02:31:54
知事に代わって職員が格闘80分 藤井四段の詰将棋:愛知:中日新聞(CHUNICHI Web) www.chunichi.co.jp/article/aichi/...
タグ:
posted at 07:41:43
@sekibunnteisuu @togetter_pr aera with kids ですが、安浪式指導法がひどいです。動画があります。 publications.asahi.com/kids/movie/ind...
タグ:
posted at 07:43:31
pixiv小説の大量自動解析、特定タグ12000作を対象にword2vecにぶっこむぐらいならばド素人にも簡単にできるし、アイデアしだいでやや面白い程度の結果は出せると思うので、pixiv研究論文を批判してた人も擁護してた人もみんな気軽にやってみるといいんじゃないでしょうか。 pic.twitter.com/J3ssTRhNPD
タグ:
posted at 07:55:25
ド素人くさく、2単語間の関係を「関連がある」とか雑な表現をしちゃったりしましたが、こういうのはコサイン距離が大きいとか、近傍クラスタに位置するとか、そういうのが正しいのかな。
学会に提出する論文じゃないので、そのへんのいいかげんさは御容赦を。
タグ:
posted at 08:00:40
publications.asahi.com/kids/movie/ind...
動画01 「計算カード」で数字感覚を身につける
これに関しては、単純計算に関してで、足し算の増加と合併の区別、などというおかしな世界の #超算数 とは異なるし、私自身もこのあたりは詳しくないので、確定的なことは言えないが疑問もある
タグ: 超算数
posted at 08:13:03
#超算数 割合の換算をしっかりマスターしようpublications.asahi.com/kids/movie/ind...
「300円の2割、皆さんはどう立式するか分かりますよね? 300×0.2=60」
少なくとも私の頭の中では項は計算していない。20の3倍、と考えている。
タグ: 超算数
posted at 08:40:34
#超算数 「算数の言葉」だの「式の言葉」だの面倒臭いこと言っているね。
小数への換算って必須なのかね?
100円の7%って、100×0.07って考えるかな?
50%なんか、0.5と置き換えなくても半分と考えればいいと思うが。
togetter.com/li/1047129
タグ: 超算数
posted at 08:47:44
#超算数 この手の、百分率や歩合と小数の換算問題は、割合指導では定番らしい。
gakuen.gifu-net.ed.jp/~contents/tano...
私もこの手の問題が掲載されている市販の問題集を使って教えたことがある。
30%と0.3%の違いが分からなくなって混乱してしまったことがある。
タグ: 超算数
posted at 09:22:42
@temmusu_n @genkuroki 分からないけど、休憩時間にでも実際に計算してみて、577/408になるか調べてみましょうか。Newton法なら最初の近似値は7/5ですかね。Newton以外に可能性があるとしたら連分数で計算したかもしれませんね。
タグ:
posted at 10:32:53
#超算数 割合の式の立て方(立式)を覚える
publications.asahi.com/kids/movie/ind...
公式に使われている「くらべる量」「もとにする量」というのがわかりにくいという話をしているが、「難しいから小学校に任せる」と言っている。
小学校でのその教え方が問題なんだが・・・
タグ: 超算数
posted at 12:49:26
#超算数 ちょっと難しい□の入った
計算にチャレンジ!
publications.asahi.com/kids/movie/ind...
「世の中には、足す、引く、掛ける、割る、の4つしかない」と言っている。
どんな世界の住人なのか?
タグ: 超算数
posted at 13:34:41
午前の打ち合わせはマイナビでした。そして話題の「進化を続けるアルファ碁」を入手。洪道場の雰囲気がとてもよく出ていて楽しい本になっています。虎ちゃんの解説も秀逸。 pic.twitter.com/JcfwbKlVnu
タグ:
posted at 13:37:59
#超算数 割合チャレンジ問題 publications.asahi.com/kids/movie/ind...
【300円のケーキがある。はじめ値段の80%で売っていたが、更にその値段から25%引いてくれる。代金はいくらか?】(要約)
問題の意味が分からない。
タグ: 超算数
posted at 14:32:26
#超算数 #モルグリコ 速さの問題が得意になる2大ポイント
publications.asahi.com/kids/movie/ind...
「きはじ」キタ━━━(゚∀゚).━━━!!!
posted at 14:45:50
非公開
タグ:
posted at xx:xx:xx
本日の詰将棋(3手詰)です!
わかったら「いいね」ボタンをお願いします!
→ヒント、解答はこちら buff.ly/2rsGi6R
#詰将棋 #まいにち詰将棋 #3手詰 pic.twitter.com/pTIpY78ydh
posted at 15:00:21
#超算数 速さチャレンジ問題 publications.asahi.com/kids/movie/ind...
時速48kmで自動車がトンネルを通るのに4分かかった。
① 時速48kmは分速何mか?
② トンネルの長さは?
講師曰わく、教科書の問題だから誘導になっているが、②だけの問題でも①をやらざるを得ない
タグ: 超算数
posted at 15:07:17
@sunchanuiguru @genkuroki #数楽 計算しました。初期値NR_0 = 3/2が与える次の近似値はNR_1 = 17/12でそこからNR_2 = 577/408が出てきました。メソポタミアの近似値はこれとNR_3 = 665857/470832と間にあります。NR_3はガラケーの電卓でも正しく計算できない。
タグ: 数楽
posted at 16:53:59
@sunchanuiguru @genkuroki #数楽 メソポタミアの方法は数学的にはニュートン・ラフソン法による平方根の近似と同等なのですが、計算が難しいです。大きな数同士の割算ゆえ。特に当時の人の持っていた手段では、割算は数表から逆数を持ってきてそれをかけることで演算していたので、それで精度の限界が課せられたと推測します。
タグ: 数楽
posted at 17:02:51
金子洋一神奈川20区(相模原市南区、座間 @Y_Kaneko
【お知らせ】コミケに当選しました。よろしくお願いします。 ⇒貴サークルは日曜日 東地区 "イ" ブロック 07bに配置されています。
タグ:
posted at 19:05:52
今日テーラー展開の授業やったんだけど、
「関数を定数に近似する」
「関数を1次関数(直線)に近似する」
をグラフと式を黒板に書いて
「でもこれじゃあ曲がった線との差がありすぎる」→「どうすれば曲りの部分も一緒になるかな?」
という流れにした。
タグ:
posted at 19:34:27
苦労してやっている時点で勉強向きじゃないわけで……勉強だけできても、じゃなく、向いてないことに努力をしても、ってことじゃないかなあ。 > 「真面目さ」なんて社会で1ミリも役に立たないと早く気付くべきだった www.wanabe.net/entry/majime
タグ:
posted at 21:12:32
金子洋一神奈川20区(相模原市南区、座間 @Y_Kaneko
はい、本気です。ただ、コミケは今回初参加なので、暑さ以外にも気をつけるべきことがあれば、どうか教えてください。 RT @nayumaki: えっ、本気ですか?いや正気ですか?
地獄の夏コミ、くれぐれも暑さ対策だけはぬかりなく、どうぞご無理なさらぬよう!
タグ:
posted at 22:04:12
金子洋一神奈川20区(相模原市南区、座間 @Y_Kaneko
そこはまだ内緒ということで(笑) RT @2kaitomi1: 経済本を出したりするんですか?
タグ:
posted at 22:10:12
#数楽 自分の Windows 機にちょっとした数値計算用に Julia と Anaconda (python 3.6 ver.版)を入れました。こういうことをやるのに Windows を使う人はまれだと思うので貴重な情報かも→ genkuroki.github.io/documents/Jupy...
タグ: 数楽
posted at 22:35:47
「天井に貼りつけたらどうなるのか」という質問をいただいていましたが、このように左足を離さなければ余裕なのです。と、猫が申しております pic.twitter.com/pMe6U2bw4S
タグ:
posted at 22:37:09
#数楽 Julia とか Python とか Anaconda とか Jupyter についてはググればたくさん情報が得られます。
www.google.co.jp/search?q=Julia...
タグ: 数楽
posted at 22:38:02
#数楽 WindowsでJulia+Jupyter Notebookを使いたい人は私の他にもいるはずだと思ったので、以下のリンク先にインストールの仕方について書いておきました。
mathtod.online/@genkuroki/274...
genkuroki.github.io/documents/Jupy...
タグ: 数楽
posted at 22:40:08
金子洋一神奈川20区(相模原市南区、座間 @Y_Kaneko
なんと、私にコスプレをせよと(違 RT @koumori_2011: 私のTLにある注意事項です。お気をつけて。/)`;ω;´)twitter.com/hosimaki/statu...
タグ:
posted at 22:41:28
#数楽 Mathematica や Maple のようなことを、無料で気軽にしてみたいという人には Anaconda に最初から入っている Python の SymPy を使う手段があります→ docs.sympy.org/latest/index.h...
タグ: 数楽
posted at 22:44:50