
Titanicを終えたあとは、次に何をすればいいのか
kaggleでTitanicを終えたあとは、次に何をすればいいのか迷います。
悩んだ方は、以下のものをすることがオススメです。
Kaggleのついて知りたい方は以下のブログ記事を参考にしてください。
>>【始め方】Kaggleデータサイエンス(データ分析)コンペ入門~選んだ理由や日本語対応等
>>【書評】Kaggleで勝つデータ分析の技術
なぜ、House Prices – Advanced Regression Techniquesを選んだか
Competitionsを選ぶ画面でGettingStartedを選択し、Total Teamsでソートしてみると、Titanicの次に、House Prices – Advanced Regression Techniquesがでます。
以下の3つの観点からHouse PricesをTitanicの次に行うことにしました。
① House PricesはTitanicに次ぐ多くの人数が参加しています
② 求めるものが各家の販売価格を予測するという単純なもの(重回帰分析)
③ テストセットのIDごとに、SalePrice変数の値を予測するというシンプルなファイル形式
House Prices – Advanced Regression Techniquesの概要
それでは、簡単にHouse Prices – Advanced Regression Techniquesについて説明します。
【対象者】
RやPythonを使ったことがあり、機械学習の基礎がある方。機械学習のオンラインコースを修了し、特集コンペに挑戦する前にスキルセットを広げたいと考えているデータサイエンス専攻の学生に最適なコンペティションです。
【内容】
アイオワ州エイムズの住宅の(ほぼ)すべての側面を記述する79の説明変数で、このコンペティションでは各住宅の最終価格を予測することに挑戦します。
【目的】
各住宅の販売価格を予測する。テストセット内の各 Id について、 SalePrice 変数の値を予測しなければならない。
【評価基準】
提出物は、予測値の対数と観測された販売価格の対数との間のRMSE(Root-Mean-Squared-Error)で評価される。
【提出ファイルフォーマット】
ファイルはヘッダーを含み、以下の形式でなければならない。
【データ】
train.csv-トレーニングセット
test.csv-テストセット
data_description.txt-各列の完全な説明。元々はDeanDeCockによって作成されましたが、ここで使用されている列名と一致するように少し編集されています。
sample_submission.csv-販売年月、ロット平方フィート、寝室数の線形回帰からのベンチマーク提出
【データ内のカテゴリー】
SalePrice-プロパティのドルでの販売価格。これは、予測しようとしているターゲット変数です。
MSSubClass:建物クラス
MSZoning:一般的なゾーニング分類
LotFrontage:プロパティに接続された通りの直線フィート
LotArea:平方フィート単位のロットサイズ
Street:道路アクセスのタイプ
Alley:路地へのアクセスの種類
LotShape:プロパティの一般的な形状
LandContour:プロパティの平坦度
Utilities:利用可能なユーティリティの種類
LotConfig:ロット構成
LandSlope:プロパティの勾配
Neighborhood:エイムズ市域内の物理的な場所
Condition1:幹線道路または鉄道への近さ
Condition2:幹線道路または鉄道への近接性(秒が存在する場合)
BldgType:住居のタイプ
HouseStyle:住居のスタイル
OverallQual:全体的な素材と仕上げの品質
OverallCond:全体的な状態の評価
YearBuilt:元の建設日
YearRemodAdd:改造日
RoofStyle:屋根のタイプ
RoofMatl:屋根材
Exterior1st:家の外装カバー
Exterior2nd:家の外装カバー(複数の素材の場合)
MasVnrType:組積造ベニヤタイプ
MasVnrArea:平方フィートの組積造ベニヤ面積
ExterQual:外装素材の品質
ExterCond:外装の素材の現状
Foundation:財団の種類
BsmtQual:地下室の高さ
BsmtCond:地下室の一般的な状態
BsmtExposure:ストライキまたはガーデンレベルの地下壁
BsmtFinType1:地下室の仕上げエリアの品質
BsmtFinSF1:タイプ1の完成した平方フィート
BsmtFinType2:2番目に完成した領域の品質(存在する場合)
BsmtFinSF2:タイプ2の完成した平方フィート
BsmtUnfSF:地下室の未完成の平方フィート
TotalBsmtSF:地下室面積の合計平方フィート
Heating:暖房の種類
HeatingQC:暖房の品質と状態
CentralAir:セントラルエアコン
Electrical:電気システム
1stFlrSF:1階平方フィート
2ndFlrSF:2階の平方フィート
LowQualFinSF:低品質の仕上げ平方フィート(すべてのフロア)
GrLivArea:地上(地上)のリビングエリアの平方フィート
BsmtFullBath:地下のフルバスルーム
BsmtHalfBath:地下のハーフバスルーム
FullBath:グレード以上のフルバスルーム
HalfBath:グレード以上のハーフバス
Bedroom:地下階より上のベッドルームの数
Kitchen:キッチンの数
KitchenQual:キッチンの品質
TotRmsAbvGrd:グレード以上の部屋の合計(バスルームは含まれません)
Functional:ホーム機能評価
Fireplaces:暖炉の数
FireplaceQu:暖炉の品質
GarageType:ガレージの場所
GarageYrBlt:ガレージが建てられた年
GarageFinish:ガレージの内装仕上げ
GarageCars:車の容量でのガレージのサイズ
GarageArea:ガレージのサイズ(平方フィート)
GarageQual:ガレージ品質
GarageCond:ガレージの状態
PavedDrive:舗装された私道
WoodDeckSF:平方フィートのウッドデッキエリア
OpenPorchSF:平方フィート単位のオープンポーチエリア
EnclosedPorch:囲まれたポーチ領域(平方フィート)
3SsnPorch:平方フィートの3シーズンポーチエリア
ScreenPorch:平方フィート単位のスクリーンポーチ領域
PoolArea:平方フィート単位のプール面積
PoolQC:プールの品質
Fence:柵の品質
MiscFeature:他のカテゴリでカバーされていないその他の機能
MiscVal:その他の機能の$ Value
MoSold:販売月
YrSold:販売年
SaleType:販売の種類
SaleCondition:販売条件
House Prices – Advanced Regression Techniquesについて、具体的に何をすればいいかは、以下のブログ記事を参考にしてください。
>>【kaggle入門ー重回帰分析】House Prices – Advanced Regression TechniquesーEDA
>>【kaggle入門ー重回帰分析】House Prices – Advanced Regression Techniquesーランダムフォレスト
>>【kaggle入門ー重回帰分析】House Prices – Advanced Regression Techniquesーlightgbm
>>【kaggle入門ー重回帰分析】House Prices – Advanced Regression Techniquesースタッキング
Kaggleで悩んだら
「Kaggle で勝つデータ分析の技術」
以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleでわからないことや悩んだことがあった方は、購入を検討してみください。
本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料のオンライン説明会に参加してみてはいかがでしょうか。

