【始め方】Kaggleデータサイエンス(データ分析)コンペ入門~選んだ理由や日本語対応等

※アフィリエイト広告を利用しています。

Kaggleとは

Kaggleとは、Google傘下のデータサイエンティストのためのコンペティションプラットフォームです。

Kaggleの中には、データサイエンスの作業に必要な50,000を超える公開データセット400,000公開ノートブック(コード)があります。

kaggleを始めた経緯と選んだ理由

今まで、動画・書籍・ネットで公開されているものテキスト等でデータ分析の基本を学びましたので、次は、より実戦に近いものを試したくなりました。

データ分析をはじめたい人入門初学者にオススメのものは下記のものです。
Youtube こちらのブログ記事を参考にしてください。
動画プラットフォーム こちらのブログ記事を参考にしてください。
動画については、まとめましたので、こちらのブログ記事も参考にしてください。
>>【オススメ】データサイエンス・データ分析を学べる動画をまとめました(Python)
ネット無料公開されているデータ分析の練習テキスト
こちらのブログ記事こちらのブログ記事を参考にしてください。
書籍はこちらのブログ記事を参考にしてください。
>>【レベル別】データサイエンス・データ分析の本まとめ(Python)

いきなり会社に言ってデータを触らせてもらうこともいいかもしれませんが、そもそもデータ分析すらしたことないので、そのやり方がわかりません。

より実戦に近いもので試したりしないと、データを前に思考停止してしまうなと考えました。

そこで、データ分析のやり方や進め方をより実践的に学ぶ方法として、データ分析のコンペ参加してみることにしました。

データ分析のコンペティションはいくかあります。

Kaggle(アメリカ)

Nishika(日本)

SIGNATE(日本)

その中から、なぜKaggleを選んだかというと、コンペティションの数が多いことと(データが非常に多い)、コンペティション参加者が自分のコードそのコードの解説を書いているノートブックを公開しているからです。

データ分析の入門の次の段階として、コンペティション参加者のノートブックを見ながら実際にデータをいじるというのは、データを前に思考停止してしまうということから抜け出すには、非常に有効だと思ったからです。

kaggleの始め方

kaggleの始め方について紹介していきます。

kaggleのHPである(https://www.kaggle.com/)にいき、Gmailを使用している方は下記の「REGISTER WITH GOOGLE」をクリックしてください。

なお、右上の「Regiser」をクリックしてもOKです。その場合は下記のようになりますので、Gmailをお持ちの方は、同じく「Regiser with google」をクリックしてください。別のメールアドレスを使用される方は、「Regiser with your mail」をクリックしてください。

メールアドレスを登録できたら、Kaggleをスタートできます!!

私のKaggleの使い方~日本語への対応方法は?

Kaggleは全て英語です。私は英語があまり得意でないので、下記の方法を使って利用しています。まずはGoogle翻訳です。Google Chromeで海外サイトを利用すると、下記の表示がでますので、日本語をクリックします。

そうすると、サイト文章が日本語に翻訳されるので、これで利用しています。なお、Google翻訳が表示されない場合には、その場でページ更新をしてみるといいです。そうすると表示されることがあります。

翻訳してみたものの、日本語が意味不明な場合もありますので、その場合はもう一度英語をクリックして、英語で見るという使い方もありです。

また、Deepl翻訳というサイトを使用する場合もあります。

DeepL翻訳:高精度な翻訳ツール
テキストや文書ファイルを瞬時に翻訳します。個人でもチームでも、高精度の翻訳をご活用いただけます。毎日、何百万もの人々がDeepLを使って翻訳しています。

Kaggleの中でGoogle翻訳がされないところもあります。特に下記の「Code」のところです。その場合は、その部分をコピーして、Deepl翻訳に貼り付けると日本語訳をみることができます。

コンペの参加方法(入門・初学者オススメの勉強方法も)

翻訳問題を解決できたら、次は、実際のコンペに参加します。

まず、下記の「Competitions」をクリックします。

そして、「Getting Sterted」をクリックします。これを押すことでKaggleの中で入門用のコンペに絞り込んでくれます。

次に、下記の「Recently Lauched」をクリックします。

次に、「Total Teams」をクリックします。これを押すことで、参加している人数が多い順に並び替えてくれます。参加している人数が多いということは、それだけ、「Code」を公開している人も多いということなので、大変参考になるコードたくさんあるということでもあります。

現時点ではTitanicが一番参加人数が多いです。

では、「TItanic」を選んでから、下記の「Code」をクリックします。

そうすると、たくさんのCodeが表示されます。

Most Votes」をクリックすると、投票が多い順(つまり参考になったと思う人が多い順)に並び替えられます。

例えば、一番上の方は8396人から参考になった投票されています!

この投票多い順コードをみながら、私はKaggle内でデータ分析の勉強をしています投票が多い人はコードの解説もたくさん書いてあったり、わかりやすいコードである場合が多いです。

それを自分の環境で動かしてみるだけでも、データサイエンス・データ分析の初心者初学者にはオススメ勉強方法です。

Titanicについては、日本の方もたくさん参加されているので、「Kaggle Titanic」と検索してみてください。コードの書き方から、分析後の結果の提出の仕方等、色々と詳しくわかりやすい解説がたくさんありますので、日本語で学びたい方は参考にしてみてください。

Titanic以外のコンペはなかなか検索しても見つからないので、Deeple翻訳Google翻訳を駆使しながら、上記の方法で是非参加してください。

私が参加したコンペも随時このブログに載せますので、参考にしていただけますと幸いです。

Kaggleで悩んだら

「Kaggle で勝つデータ分析の技術」

データ分析の最も有名なコンペティションプラットフォームであるKaggleにおけるテクニックや事例を、現時点で最新のものを整理した書籍。特徴量の作り方バリデーションパラメータチューニングなどについて、一般的な書籍ではあまり言及されないポイント等に解説。
>>【書評】Kaggleで勝つデータ分析の技術

以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleわからないこと悩んだことがあった方は、購入を検討してみください。

本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料オンライン説明会に参加してみてはいかがでしょうか。