
はじめに
Kaggleは、世界最大の規模のアメリカのデータサインスコンペティションです。
データサイエンスの初心者や初学者向けのオススメのコンペがたくさんあります。
しかし、どこから始めて良いか悩むかと思います(私もそうでした。)。
そこで、入門向けのコンペティションをまとめました。
扱うデータが手元にない方は、Kaggleのコンペティションに挑戦することで、プログラミングやデータ分析の技術を身につけてください!
重回帰分析のコンペ
① House Prices – Advanced Regression Techniques
【内 容】住宅の販売価格を予測
【評 価】RMSE
【コード】
<EDA>
・seaborn(distplot、boxplot、barplot、heatmap、heatmapトップ10)
・matplotlib(scatter)
<モデル>
・ランダムフォレスト(RandomForestRegressor)
・lightgbm
・LGBMRegressor
・ラッソ回帰
・Elastic Net
・カーネルリッジ回帰
・GradientBoostingRegressor
・xgboost(XGBRegressor)
・上記アンサンブル
House Prices – Advanced Regression TechniquesについてのEDAやモデルは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー重回帰分析】 Titanicの次に何をやるか!? House Prices – Advanced Regression Techniques
>>【kaggle入門ー重回帰分析】House Prices – Advanced Regression TechniquesーEDA
>>【kaggle入門ー重回帰分析】House Prices – Advanced Regression Techniquesーランダムフォレスト
>>【kaggle入門ー重回帰分析】House Prices – Advanced Regression Techniquesーlightgbm
>>【kaggle入門ー重回帰分析】House Prices – Advanced Regression Techniquesースタッキング
時系列分析のコンペ
② Store Sales – Time Series Forecasting
【内 容】店舗の売上を予測
【評 価】RMSLE
【コード】
<EDA>
・スピアマンの順位相関係数
・px.line
・px.box
・px.scatter
・px.bar
・matplotlib(scatter)
Store Sales – Time Series ForecastingについてのEDAは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー時系列分析】 Store Sales – Time Series Forecasting
>>【Kaggle入門ー時系列分析】 Store Sales – Time Series Forecasting – EDA
③ Predict Future Sales
【内 容】来月のすべての商品と店舗の総売上高を予測
【評 価】RMSE
【コード】
<EDA>
・seaborn(lineplot、barplo、jointplot、boxplot)
・ローリングウィンドウ法
・ラグ特徴量
<モデル>
・xgboost(XGBRegressor)
・ランダムフォレスト(RandomForestRegressor)
・LinearRegression
・KNeighborsRegressor
・上記アンサンブル
Predict Future SalesについてのEDAやモデルは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー時系列分析】Predict Future Sales
>>【Kaggle入門ー時系列分析】Predict Future Sales-EDA、スタッキング等
二値分類のコンペ
④ Santander Customer Transaction Prediction
【内 容】将来どの顧客が特定の取引を行うかを特定(0か1で予測を提出)
【評 価】AUC
【コード】
<EDA>
・matplotlib(scatter)
・seaborn(barplot、countplot)
<モデル>
・lightgbm
Santander Customer Transaction PredictionについてのEDAやモデルは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー二値分類】Santander Customer Transaction Prediction
>>【Kaggle入門ー二値分類】Santander Customer Transaction Prediction-lightgbm
⑤ Spaceship Titanic
【内 容】将来どの顧客が特定の取引を行うかを特定(0か1で予測を提出)
【評 価】Accuracy
【コード】
<EDA>
・seaborn(countplot)
<モデル>
・xgboost(XGBClassifier)
・グリッドサーチ(GridSearchCV)
Spaceship TitanicについてのEDAやモデルは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー二値分類】Spaceship Titanic
>>【Kaggle入門ー二値分類】Spaceship Titanic-EDA、データ前処理、パラメータ、提出
画像認識のコンペ
⑥ Digit Recognizer
【内 容】手書きの 1 桁の数字を撮影し、その数字が何であるかを判断
【評 価】カテゴリ化の精度 (正しい画像の割合)
【コード】
<EDA>
・seaborn(countplot)
<モデル>
・Keras(Sequential(CNN(畳み込みニューラルネットワーク))
Digit RecognizerについてのEDAやモデルは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー画像認識】Digit Recognizer
>>【Kaggle入門ー画像認識】Digit Recognizer-EDA、データ前処理、モデル作成、提出まで
自然言語処理のコンペ
⑦ Natural Language Processing with Disaster Tweets
【内 容】実際の災害に関するツイートとそうでないツイートを予測
【評 価】F1スコア
【コード】
<EDA>
・seaborn(barplot、distplot)
・matplotlib(hist、bar)
<モデル>
・Keras(Sequential)
Natural Language Processing with Disaster TweetsについてのEDAやモデルは、以下のブログ記事をご覧ください。
>>【Kaggle入門ー自然言語処理】Natural Language Processing with Disaster Tweets
>>【Kaggle入門ー自然言語処理】Natural Language Processing with Disaster Tweets-EDA、データ前処理、モデル作成、提出まで
Kaggleで悩んだら
以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleでわからないことや悩んだことがあった方は、購入を検討してみください。
書籍や動画でデータサイエンスを学びたい方へ
機械学習やデータサイエンスを独学で学びたい方のために、ブログ記事をまとめてみました。
書籍、動画などなど、厳選したオススメの方法をまとめています。
興味がある方はご覧ください。
>>【独学】プログラミングとデータ分析(勉強法・資格・本・動画・テキスト)
>>【レベル別】データサイエンス・データ分析の本まとめ(Python)
>>【オススメ】データサイエンス・データ分析を学べる動画をまとめました(Python)
最近話題の生成AIについて学びたい方
生成AIに興味がある方は是非以下のブログ記事もご覧ください。
生成AI関係ブログまとめ

