【Kaggle入門ー二値分類】Spaceship Titanic

※アフィリエイト広告を利用しています。

はじめに

Kaggleは、英語のページしかありません。そこで、日本語で読みたい方向けに記事を作成しました。

さっそく、初心者・入門者向けのコンペであるSpaceship Titanic概要を見てみましょう。

概要

それでは、簡単にSpaceship Titanicについて説明します。

本コンペは、Kaggleで最も有名なTitanic – Machine Learning from Disasterの宇宙版で、Kaggle入門者・初心者向けです。

本コンペの説明文には、以下のストーリーから説明が始まっています。

宇宙の謎を解くためにデータサイエンスのスキルが必要とされる 2912年へようこそ。4 光年離れたところから通信を受信しましたが、様子がよくありません。

宇宙船タイタニック号は、1か月前に打ち上げられた星間旅客船でした。約 13,000人の乗客を乗せたこの船は、太陽系から近くの星を周回する3つの新たに居住可能な太陽系外惑星に移民を輸送する処女航海に出発しました。

最初の目的地である灼熱の 55 Cancri Eに向かう途中でアルファ ケンタウリを回っていたとき、不注意な宇宙船タイタニック号は、塵の雲の中に隠された時空異常と衝突しました。悲しいことに、それは1000年前の名前の由来と同様の運命をたどりました。船は無傷のままでしたが、乗客のほぼ半分が別の次元に運ばれました!

乗組員を救出し、失われた乗客を取り戻すために、宇宙船の損傷したコンピューター システムから回収された記録を使用して、どの乗客が異常によって輸送されたかを予測することが求められます。

それらを保存して歴史を変えるのを手伝ってください!

【評価方法 】

このコンペは、輸送されたか、されてないかの二値の分類をして、その結果をAccuracy(正答率)によって評価されます。

Accuracy(正答率)は、予測の正解率を表す指標です。

正解のレコード数をすべてのレコード数で割ることで求められます。

Accuracy(正答率)は、最大を1として、小数点で表示されます。

例えば、10個予測をして、10個正解なら1.0つまり100%ですし、10個予測をして、5個正解なら0.5つまり、50%の正解率です。

データ

  • train.csv – 乗客の約 3 分の 2 (~8700) の個人記録。トレーニングデータとして使用されます。
    • PassengerId– 各乗客の一意の ID。各 Id は、乗客が一緒に旅行しているグループを示すgggg_pp形式をとり、グループ内の番号です。グループ内の人々はしばしば家族の一員ですが、必ずしもそうとは限りません。
    • HomePlanet– 乗客が出発した惑星、通常は彼らの永住地の惑星。
    • CryoSleep– 乗客が航海中に仮死状態に置かれることを選択したかどうかを示します。クライオスリープ状態の乗客はキャビンに閉じ込められます。
    • Cabin– 乗客が滞在するキャビン番号。
    • Destination– 乗客が降りる惑星。
    • Age– 乗客の年齢。
    • VIP– 乗客が航海中に特別な VIP サービスの料金を支払ったかどうか。
    • RoomServiceFoodCourtShoppingMallSpaVRDeck– 乗客がタイタニック号の多くの豪華な設備のそれぞれに請求した金額。
    • Name– 乗客の姓名。
    • Transported-乗客が別の次元に運ばれたかどうか。これがターゲットであり、予測しようとしている列です。
  • test.csv – 乗客の残りの 3 分の 1 (~4300) の個人記録。テストデータとして使用されます。
  • sample_submission.csv – 正しい形式の提出ファイル。
    • PassengerId– テスト セット内の各乗客の ID。
    • Transported– ターゲット。各乗客について、TrueFalseを予測します。

提出ファイルの形式

提出ファイルの形式は、以下のものでcsvファイルです。

Spaceship Titanic具体的に何をすればいいかは、下記のブログ記事もご覧ください。
>>【Kaggle入門ー二値分類】Spaceship Titanic-EDA、データ前処理、パラメータ、提出

Kaggleで悩んだら

「Kaggle で勝つデータ分析の技術」

データ分析の最も有名なコンペティションプラットフォームであるKaggleにおけるテクニックや事例を、現時点で最新のものを整理した書籍。特徴量の作り方バリデーションパラメータチューニングなどについて、一般的な書籍ではあまり言及されないポイント等に解説。
>>【書評】Kaggleで勝つデータ分析の技術

以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleわからないこと悩んだことがあった方は、購入を検討してみください。

本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料オンライン説明会に参加してみてはいかがでしょうか。