【Kaggle入門ー時系列分析】Predict Future Sales

※アフィリエイト広告を利用しています。

はじめに

Kaggleは、英語のページしかありません。そこで、日本語で読みたい方向けに記事を作成しました。

Kaggle初心者・入門者向けのコンペであるPredict Future Sales概要を見てみましょう。

概要

それでは、簡単にPredict Future Salesについて説明します。

このコンペは「データサイエンスコンテストに勝つ方法」 Courseraコースの最終プロジェクトです 。

【目的】

来月すべての商品店舗の総売上高予測してください。つまり、こちらのコンペは時系列分析です。

【評価方法 】

このコンペは、二乗平均平方根誤差(RMSE)によって評価されます。

二乗平均平方根誤差(RMSE)とは、回帰で最も代表的な評価指標です。各レコードの目的変数の真の値と予測値の差の二乗をとり、それらを平均したあとに平方根をとることで計算します。に近ければ近いほど予測の精度が高いです。

データ

【ファイルの説明】

sales_train.csv-トレーニングセット。2013年1月から2015年10月までの毎日の履歴データ

test.csv-テストセット。これらのショップと製品の2015年11月の売上を予測する必要があります

sample_submission.csv-正しい形式のサンプル送信ファイル

items.csv-アイテム/製品に関する補足情報

item_categories.csv-  アイテムのカテゴリに関する補足情報

shop.csv-ショップに関する補足情報

【データフィールド】

ID-テストセット内の(ショップ、アイテム)タプルを表すid

shop_id-ショップの一意の識別子

item_id-商品の一意の識別子

item_category_id-アイテムカテゴリの一意の識別子

item_cnt_day-販売された製品の数。このメジャーの月額を予測しています

item_price-アイテムの現在の価格

日付 -dd/mm/yyyy形式の日付

date_block_num-便宜上使用される連続した月の番号。2013年1月は0、2013年2月は1、…、2015年10月は33

item_name- アイテムの名前

shop_name-ショップの名前

item_category_name-アイテムカテゴリの名前

Predict Future Salesについて具体的に何をすればいいかは、以下のブログ記事を参考にしてください。
>>【Kaggle入門ー時系列分析】Predict Future Sales-EDA、スタッキング等

時系列分析でよく使うProphetについてもまとめましたので、こちらもご参考にしてください。
>>【完全版】Prophetー時系列分析の基本から外部変数追加、holidaysの追加、ハイパーパラメータの調整まで(python)

Kaggleで悩んだら

「Kaggle で勝つデータ分析の技術」

データ分析の最も有名なコンペティションプラットフォームであるKaggleにおけるテクニックや事例を、現時点で最新のものを整理した書籍。特徴量の作り方バリデーションパラメータチューニングなどについて、一般的な書籍ではあまり言及されないポイント等に解説。
>>【書評】Kaggleで勝つデータ分析の技術

以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleわからないこと悩んだことがあった方は、購入を検討してみください。

本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料オンライン説明会に参加してみてはいかがでしょうか。