
はじめに
Kaggleは、英語のページしかありません。そこで、日本語で読みたい方向けに記事を作成しました。
Kaggleの初心者・入門者向けのコンペであるPredict Future Salesの概要を見てみましょう。
Kaggleのついて知りたい方は以下のブログ記事を参考にしてください。
>>【始め方】Kaggleデータサイエンス(データ分析)コンペ入門~選んだ理由や日本語対応等
>>【書評】Kaggleで勝つデータ分析の技術
概要
それでは、簡単にSantander Customer Transaction Predictionについて説明します。

Santanderは、スペインを本拠地とする大手銀行であり、米国最大のリテールおよびコマーシャル銀行の1つです。
彼らは常に、カスタマーに財務の健全性を理解させ、どの製品やサービスがカスタマーの金銭的目標の達成に役立つかを特定するのに役立つ方法を探しています。
Santanderのデータサイエンスチームは、機械学習アルゴリズムに継続的に挑戦し、グローバルなデータサイエンスコミュニティと協力して、次のような最も一般的な課題である二値分類の問題を解決する新しい方法をより正確に特定できるようにしています。
このコンペは、取引金額に関係なく、将来どの顧客が特定の取引を行うかを特定する二値分類の問題です。
二値分類とは、患者が病気にかかっているか否かという、ある属性に属しているかどうかを予測する分類タスクです。
0か1で予測を提出する場合や0から1の間の確率を表す数値で予測を提出する場合に分けられます。
今回のコンペでは、後半の確立を表す数値で予測を提出します。
データ
- train.csv-トレーニングセット。
- test.csv-テストセット。テストセットには、スコアリングに含まれていない行がいくつか含まれています。
評価指標
予測された確率と観察されたターゲットの間のROC曲線の下の領域で評価されます。
つまり、AUCです。
ROC曲線とは、縦軸に真陽性率、横軸に偽陽性率の値をプロットした曲線です。
真陽性率とは、正の予測があり、実際の値も正だった割合(再現率と同じ)です。
偽陽性率とは、正の予測があり、実際の値は負だった割合です。
例えば、病気の診断システムで、1が病気、0が病気じゃないとした場合、予測で1(病気)、実際に1(病気)だった割合が真陽性率です。一方、予測で1(病気)、実際に0(病気じゃない)だった割合が偽陽性率です。
閾値を0.0と1.0の間で徐々に変化させ、真陽性率と偽陽性率の関係をプロットすることでROC曲線を描きます。
AUC(area under the ROC curve)は、このROC曲線の下の面積です。
提出ファイルの形式
テストセットのIDごとに、ターゲット変数のバイナリ予測を行う必要があります。ファイルにはヘッダーが含まれ、次の形式である必要があります。

Santander Customer Transaction Predictionで具体的に何をすればいいかは、下記のブログ記事もご覧ください。
>>【Kaggle入門ー二値分類】Santander Customer Transaction Prediction-lightgbm
Kaggleで悩んだら
「Kaggle で勝つデータ分析の技術」
以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleでわからないことや悩んだことがあった方は、購入を検討してみください。
本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料のオンライン説明会に参加してみてはいかがでしょうか。