Cold Start

データ分析の話とか

TokyoR #71 でLT発表させていただきました.

TokyoR 第71回でLT発表をさせていただきました.(今回は英語縛り回だったのでスライドも英語です)
コードとスライドは以下の通りです.

 

www.slideshare.net

 

github.com

 

 発表中にも触れたのですが、今回使用したCriteoのデータセットははっきり言って高次元データとは言いがたいので実データパートに関してはかなりタイトル詐欺感はあります.シミュレーションでお茶を濁すのもアリかとは思ったのですがそれはそれで発表内容が味気なくなるかという懸念があったのと, 今回のCriteoのデータセットも紹介したいというモチベもあったのでこのような形になりました.(当然の事ながら懇親会では「あれどこが高次元データなの?」というご指摘も受けました. 本当に申し訳ないやらありがたいやら...) こういうLTなどでネタになるような良いデータセットを見つけてくるのは大変だなぁと毎回思うのですが、今回のCriteoのデータセットは処置効果について扱える超大規模データセットという事で非常に価値あるものだと思いますし、今後のTokyoRでこんな感じの因果推論の発表する人は使ってみてほしいなという気持ちがあります.

 

Hadley神が降臨という事で直前にリスケとなったりでしたが、運営の方たち本当にお疲れ様でした! また、発表者の方々も今回も本当に質の高い発表を聴かせていただいてありがとうございました!( 大人数の前で英語を喋るのはほぼ初めてだったのですが、なんとかなった(?)ようで安心しました.次回も発表の機会を頂けたら今度は軽めのネタでやりたいなと思ってます)