DSB2019 4th place solution まとめ - とりあえず、ブログでもかくか

DSB2019の4th place solutionまとめました。

なんかすごく読みにくい英語だと思ったらロシアの人だった。
- まぁ、自分も英語まともに書けないから言えないけど。
  - というか間違って訳しているかも...。
RNN(codeみたらBidirectional GRUっぽい)を用いているってところが肝なんだろうな。

以下、solutionまとめ

trainと同じ手順でラベルされたtest setは、trainに用いることができる。
events sequenceのtfidf
- それぞれのevent_idは、title + event_code + correct + incorrectであらわすことができる
- その後、installation_idのhistoryをsequenceとして見て、それをtfidf化したものを学習する。
- ＊学習前に上記変形を適用したってことかな？
  - ＊最初 actual sequenceのactualを「実際の」だと訳して、tfidf化する前のものかと思ったけど、「現実の」とか「現在の」みたいな使われ方なんだろうな
いくつかのclipsとtitleはassesmentにおけるaccuracyの予想にとても重要である。おそらく、これらの順番はそれほど重要ではないが、RNNでは、user historyにおけるこれらをうまく扱うことができる。
- ＊RNNは順番が重要だからじゃないのって思うけど...?
少量のデータしかないため、安定性は実際のスコアよりも重要である。もし、行を入れ替えるとスコアが悪くなるなら、それは何か間違ったことをしている
- ＊うーん、しっくりこない。順番が大事なものと大事じゃないものがある気がするけど...。

tf-idf features + RNN (featureとしてtitle sequenceと以下を追加した。)

次元数7でのtitleの埋め込みベクトル
各titleにおけるcorrectの数
各titleにおけるincorrectの数
上記、2と3の比
各titleにおける経過時間のlog
前のtitleにおけるcorrectの数
前のtitleにおけるincorrectの数
- ＊ラグ特徴量みたいにしたってことかな？
上記、7と6の比
モデル内にcounterを含めたかったが、最終的に断念した。しかし、これらのモデルはprivate LBでよい結果をだした。
- ほとんどのsingle networkは0.56程度であった。おもしろかったことは、privateとpublicのscoreが同じであったことである。
  - ＊あれ？最初に書かれているところでは、score微妙に違う気がするけど...?
- ＊counterっていうのは、何のcounterのことなんだろう？
- ＊2位の人も一緒だったけど、結構同じになる人もいるんだなぁ。

Lightgbm, Xgb, Catboost. (will be soonらしい)

Transformers, GPT-2 , BERT, Graph NN.
- ＊Graph NN やってみたい！
- ＊とりあえず、BERTが適用できるか何らか試すっていうのは、いろんなタスクで行われるようになっている気がする。ちゃんと理解していると、うまく転用できるんだろうな。