【Kaggle入門】初心者にオススメのデータサイエンスコンペティション7選

※アフィリエイト広告を利用しています。

はじめに

Kaggleは、世界最大の規模のアメリカのデータサインスコンペティションです。

データサイエンスの初心者初学者向けのオススメのコンペがたくさんあります。

しかし、どこから始めて良いか悩むかと思います(私もそうでした。)。

そこで、入門向けのコンペティションをまとめました。

扱うデータが手元にない方は、Kaggleのコンペティションに挑戦することで、プログラミングデータ分析技術を身につけてください!

重回帰分析のコンペ

① House Prices – Advanced Regression Techniques

【内 容】住宅の販売価格を予測

【評 価】RMSE

【コード】

<EDA>
・seaborn(distplot、boxplot、barplot、heatmap、heatmapトップ10)
・matplotlib(scatter)

<モデル>
・ランダムフォレスト(RandomForestRegressor)
・lightgbm
・LGBMRegressor
・ラッソ回帰
・Elastic Net
・カーネルリッジ回帰
・GradientBoostingRegressor
・xgboost(XGBRegressor)
・上記アンサンブル

時系列分析のコンペ

② Store Sales – Time Series Forecasting

【内 容】店舗の売上を予測

【評 価】RMSLE

【コード】

<EDA>
・スピアマンの順位相関係数
・px.line
・px.box
・px.scatter
・px.bar
・matplotlib(scatter)

Store Sales – Time Series ForecastingについてのEDAは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー時系列分析】 Store Sales – Time Series Forecasting
>>【Kaggle入門ー時系列分析】 Store Sales – Time Series Forecasting – EDA

③ Predict Future Sales

【内 容】来月のすべての商品と店舗の総売上高を予測

【評 価】RMSE

【コード】

<EDA>
・seaborn(lineplot、barplo、jointplot、boxplot)
・ローリングウィンドウ法
・ラグ特徴量

<モデル>
・xgboost(XGBRegressor)
・ランダムフォレスト(RandomForestRegressor)
・LinearRegression
・KNeighborsRegressor
・上記アンサンブル

Predict Future SalesについてのEDAモデルは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー時系列分析】Predict Future Sales
>>【Kaggle入門ー時系列分析】Predict Future Sales-EDA、スタッキング等

二値分類のコンペ

④ Santander Customer Transaction Prediction

【内 容】将来どの顧客が特定の取引を行うかを特定(0か1で予測を提出)

【評 価】AUC

【コード】

<EDA>
・matplotlib(scatter)
・seaborn(barplot、countplot)

<モデル>
・lightgbm

Santander Customer Transaction PredictionについてのEDAモデルは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー二値分類】Santander Customer Transaction Prediction
>>【Kaggle入門ー二値分類】Santander Customer Transaction Prediction-lightgbm

⑤ Spaceship Titanic

【内 容】将来どの顧客が特定の取引を行うかを特定(0か1で予測を提出)

【評 価】Accuracy

【コード】

<EDA>
・seaborn(countplot)

<モデル>
・xgboost(XGBClassifier)
・グリッドサーチ(GridSearchCV)

画像認識のコンペ

⑥ Digit Recognizer

【内 容】手書きの 1 桁の数字を撮影し、その数字が何であるかを判断

【評 価】カテゴリ化の精度 (正しい画像の割合)

【コード】

<EDA>
・seaborn(countplot)

<モデル>
・Keras(Sequential(CNN(畳み込みニューラルネットワーク))

自然言語処理のコンペ

⑦ Natural Language Processing with Disaster Tweets

【内 容】実際の災害に関するツイートとそうでないツイートを予測

【評 価】F1スコア

【コード】

<EDA>
・seaborn(barplot、distplot)
・matplotlib(hist、bar)

<モデル>
・Keras(Sequential)

Kaggleで悩んだら

データ分析の最も有名なコンペティションプラットフォームであるKaggleにおけるテクニックや事例を、現時点で最新のものを整理した書籍。特徴量の作り方バリデーションパラメータチューニングなどについて、一般的な書籍ではあまり言及されないポイント等に解説。
>>【書評】Kaggleで勝つデータ分析の技術

以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleわからないこと悩んだことがあった方は、購入を検討してみください。

書籍や動画でデータサイエンスを学びたい方へ

機械学習データサイエンス独学で学びたい方のために、ブログ記事まとめてみました。

書籍、動画などなど、厳選したオススメの方法をまとめています。

興味がある方はご覧ください。

最近話題の生成AIについて学びたい方

生成AIに興味がある方は是非以下のブログ記事もご覧ください。
生成AI関係ブログまとめ