
はじめに
「データサイエンスコンペに参加してみたい!」と思った方、こちらの本はかなりオススメです!
以下では、「Kaggleで勝つデータ分析の技術」に興味がある方に向けて、誰もが気になる「対象読者は誰?」「どんな内容なの?」ということに対して、的確に答えています。
購入の参考になれば幸いです。
総評
・対象読者はデータ分析中級者です。
pythonのコード初心者やデータ前処理や整理だけは数回したことがあるぐらいじゃ、この本を読んでも理解できないなと思いました。現に私がそうでした。。。
コード初心者は以下のブログ記事を参考にしてください。
【独学】プログラミングとデータ分析(勉強法・資格・本)
【YouTube】無料でデータ分析とプログラミングを学ぶには何からはじめるか
データの前処理やデータ整理をしたい方は以下のブログ記事を参考にしてください。
【Google Colabはじめ方】データサイエンス100本ノックーデータサイエンティスト協会
【問1~問4】データサイエンス100本ノック 解説
【書評・エラー対処】Python実践データ分析100本ノック
【書評】東京大学のデータサイエンティスト育成講座
本書は、すでに会社で簡単なデータ分析をしたことがある、統計の基礎知識がある、統計で使用している基礎数学を理解している人が対象です。
そのような人たちが、Kaggleのデータ分析では、どのような技術が必要か、その技術を用いて点数を高く取るための方法を教えてくれる本です。
・データサイエンスコンペティションで”有効かつ使える”方法を伝授
評価指標やモデルの解説が充実していて、かつ非常に分かりやすいです。
本書の使い方
Kaggleでは、上記の順序(式)の前に、⓪番目として、評価指標が与えれます。つまり、参加者が提出した予測値は、その評価指標によって採点されるわけです。
例えば、TitanicのEvaluationをみると評価指標はaccuracyと書いてあります。

そこで、accuracyとは何かを本書で勉強する。
また、Codeで出てきたモデルについても、この本で調べて勉強してみたり等、Kaggleで出てきたもので自分の知識にないものは、すぐにこの本に当たります!
当たると結構掲載されていますので、非常に便利に利用させていただいてます!
また、項目についての説明の後に、参考例としてKaggleの具体的なコンペ名を載せてくれています。さらに詳しく知りたい場合には、Kaggle上でそのコンペを検索して、参加者のコードを参照することでさらに理解が深まります!
つまり、Kaggle等のデータ分析のコンペティションでわからないことや知りたいことが本書にはたくさん書いてあります。
データサイエンスコンペティションに初めて参加する人やコンペの点数を少しでも上げたい方は必携の書籍です。ぜひ、ご購読ください。
Kaggleに興味のある方へ
Kaggleに関しては以下のブログ記事を参考にしてください。
>>【始め方】Kaggleデータサイエンス(データ分析)コンペ入門~選んだ理由や日本語対応等
>>【Kaggle入門】 Titanicの次に何をやるか!?House Prices

