【Kaggle入門ー時系列分析】 Store Sales – Time Series Forecasting

※アフィリエイト広告を利用しています。

はじめに

Kaggleは、英語のページしかありません。そこで、日本語で読みたい方向けに記事を作成しました。

Kaggle初心者・入門者向けのコンペであるStore Sales – Time Series Forecasting概要を見てみましょう。

概要

それでは、簡単にStore Sales – Time Series Forecastingについて説明します。

【コンペの目的】
エクアドルに拠点を置く大手食料品小売業者 Corporación Favorita のデータから店舗の売上を予測します。つまり、時系列分析です。

具体的には、Favoritaの様々な店舗で販売されている数千の商品の単位売上をより正確に予測するモデルを構築します。

日付、店舗、商品情報、プロモーション、販売個数など、親しみやすいトレーニングデータセットを使って、機械学習のスキルを磨くことができます。

【評価基準】
コンペの評価指標は、RMSLE(二乗平均平方根対数誤差)です。

【提出ファイルフォーマット】
テストセットのIDごとに、 sales変数の値を予測する必要があります。ファイルにはヘッダーが含まれ、次の形式である必要があります。

【データ】
train.csvstore_nbr、family、onpromotion時系列の機能と、目標売上高で構成されています。
 ・store_nbrは、商品が販売されている店舗を識別します。
 ・familyは、販売された製品のタイプを識別します。
 ・salesは、特定の日付における特定の店舗での製品ファミリーの総売上高を示します。製品は分数単       位で販売できるため、分数値が可能です(たとえば、1袋のチップスに対して1.5 kgのチーズ)。
 ・onpromotionは、特定の日に店舗で宣伝されていた商品ファミリーのアイテムの総数を示します。

test.csv-トレーニングデータと同じ機能を持つテストデータ。このファイルで、日付の目標売上を予測します。テストデータの日付は、トレーニングデータの最後の日付から15日間です。

transactions.csv-日付、store_nbr、取引量で構成されています。

Stores.csv-都市、州、タイプ、クラスターなどのメタデータを保存します。クラスターは、類似したストアのグループです。

oil.csv-毎日の石油価格。トレーニングデータとテストデータの両方の時間枠での値が含まれます。(エクアドルは石油に依存している国であり、その経済的健康は石油価格のショックに対して非常に脆弱です。)

holidays_events.csv-休日とイベントのメタデータ。
 注:転送された列に特に注意してください。正式に譲渡された休日はその暦日になりますが、政府によって別の日付に移動されました。転送された日は、休日というよりも通常の日に似ています。実際に祝われた日を見つけるには、タイプが転送である対応する行を探します。たとえば、休日のIndependencia de Guayaquilは2012-10-09から2012-10-12に移されました。これは、2012-10-12に祝われたことを意味します。タイプブリッジである日は、休日に追加される余分な日です(たとえば、長い週末に休憩を延長するため)。これらは多くの場合、ブリッジの返済を目的とした、通常は作業が予定されていない日(たとえば、土曜日)であるタイプの作業日で構成されます。
 追加の休日は、通常のカレンダーの休日に追加された日です。たとえば、通常はクリスマスの前後に発生します(クリスマスイブを休日にします)。

その他の注意事項
公的部門の賃金は、2週間ごとに15日月末日に支払われます。スーパーマーケットの売上高はこれによって影響を受ける可能性があります。
2016年4月16日にマグニチュード7.8地震がエクアドルを襲いました。人々は、地震後数週間、スーパーマーケットの売り上げに大きな影響を与えた水やその他の最初に必要な製品を寄付する救援活動に集まりました。

Store Sales – Time Series Forecastingについて、具体的に何をすればいいかは、以下のブログ記事を参考にしてください。
>>【Kaggle入門ー時系列分析】 Store Sales – Time Series Forecasting – EDA

Kaggleで悩んだら

「Kaggle で勝つデータ分析の技術」

データ分析の最も有名なコンペティションプラットフォームであるKaggleにおけるテクニックや事例を、現時点で最新のものを整理した書籍。特徴量の作り方バリデーションパラメータチューニングなどについて、一般的な書籍ではあまり言及されないポイント等に解説。
>>【書評】Kaggleで勝つデータ分析の技術

以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleわからないこと悩んだことがあった方は、購入を検討してみください。

本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料オンライン説明会に参加してみてはいかがでしょうか。