
はじめに
Kaggleは、英語のページしかありません。そこで、日本語で読みたい方向けに記事を作成しました。
Kaggleの初心者・入門者向けのコンペであるPredict Future Salesの概要を見てみましょう。
Kaggleのついて知りたい方は以下のブログ記事を参考にしてください。
>>【始め方】Kaggleデータサイエンス(データ分析)コンペ入門~選んだ理由や日本語対応等
>>【書評】Kaggleで勝つデータ分析の技術
概要
それでは、簡単にPredict Future Salesについて説明します。

このコンペは「データサイエンスコンテストに勝つ方法」 Courseraコースの最終プロジェクトです 。
【目的】
来月のすべての商品と店舗の総売上高を予測してください。つまり、こちらのコンペは時系列分析です。
【評価方法 】
このコンペは、二乗平均平方根誤差(RMSE)によって評価されます。
二乗平均平方根誤差(RMSE)とは、回帰で最も代表的な評価指標です。各レコードの目的変数の真の値と予測値の差の二乗をとり、それらを平均したあとに平方根をとることで計算します。0に近ければ近いほど予測の精度が高いです。
データ
【ファイルの説明】
sales_train.csv-トレーニングセット。2013年1月から2015年10月までの毎日の履歴データ
test.csv-テストセット。これらのショップと製品の2015年11月の売上を予測する必要があります
sample_submission.csv-正しい形式のサンプル送信ファイル
items.csv-アイテム/製品に関する補足情報
item_categories.csv- アイテムのカテゴリに関する補足情報
shop.csv-ショップに関する補足情報
【データフィールド】
ID-テストセット内の(ショップ、アイテム)タプルを表すid
shop_id-ショップの一意の識別子
item_id-商品の一意の識別子
item_category_id-アイテムカテゴリの一意の識別子
item_cnt_day-販売された製品の数。このメジャーの月額を予測しています
item_price-アイテムの現在の価格
日付 -dd/mm/yyyy形式の日付
date_block_num-便宜上使用される連続した月の番号。2013年1月は0、2013年2月は1、…、2015年10月は33
item_name- アイテムの名前
shop_name-ショップの名前
item_category_name-アイテムカテゴリの名前
Predict Future Salesについて具体的に何をすればいいかは、以下のブログ記事を参考にしてください。
>>【Kaggle入門ー時系列分析】Predict Future Sales-EDA、スタッキング等
時系列分析でよく使うProphetについてもまとめましたので、こちらもご参考にしてください。
>>【完全版】Prophetー時系列分析の基本から外部変数追加、holidaysの追加、ハイパーパラメータの調整まで(python)
Kaggleで悩んだら
「Kaggle で勝つデータ分析の技術」
以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleでわからないことや悩んだことがあった方は、購入を検討してみください。
本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料のオンライン説明会に参加してみてはいかがでしょうか。

