
Kaggleとは
Kaggleとは、Google傘下のデータサイエンティストのためのコンペティションプラットフォームです。
Kaggleの中には、データサイエンスの作業に必要な50,000を超える公開データセットと400,000の公開ノートブック(コード)があります。
kaggleを始めた経緯と選んだ理由
今まで、動画・書籍・ネットで公開されているものテキスト等でデータ分析の基本を学びましたので、次は、より実戦に近いものを試したくなりました。
データ分析をはじめたい人、入門・初学者にオススメのものは下記のものです。
Youtube こちらのブログ記事を参考にしてください。
動画プラットフォーム こちらのブログ記事を参考にしてください。
動画については、まとめましたので、こちらのブログ記事も参考にしてください。
>>【オススメ】データサイエンス・データ分析を学べる動画をまとめました(Python)
ネットで無料公開されているデータ分析の練習テキスト
こちらのブログ記事やこちらのブログ記事を参考にしてください。
書籍はこちらのブログ記事を参考にしてください。
>>【レベル別】データサイエンス・データ分析の本まとめ(Python)
いきなり会社に言ってデータを触らせてもらうこともいいかもしれませんが、そもそもデータ分析すらしたことないので、そのやり方がわかりません。
より実戦に近いもので試したりしないと、データを前に思考停止してしまうなと考えました。
そこで、データ分析のやり方や進め方をより実践的に学ぶ方法として、データ分析のコンペに参加してみることにしました。
データ分析のコンペティションはいくかあります。
・Kaggle(アメリカ)
・Nishika(日本)
・SIGNATE(日本)
その中から、なぜKaggleを選んだかというと、コンペティションの数が多いことと(データが非常に多い)、コンペティション参加者が自分のコードとそのコードの解説を書いているノートブックを公開しているからです。
データ分析の入門の次の段階として、コンペティション参加者のノートブックを見ながら実際にデータをいじるというのは、データを前に思考停止してしまうということから抜け出すには、非常に有効だと思ったからです。
kaggleの始め方
kaggleの始め方について紹介していきます。
kaggleのHPである(https://www.kaggle.com/)にいき、Gmailを使用している方は下記の「REGISTER WITH GOOGLE」をクリックしてください。
なお、右上の「Regiser」をクリックしてもOKです。その場合は下記のようになりますので、Gmailをお持ちの方は、同じく「Regiser with google」をクリックしてください。別のメールアドレスを使用される方は、「Regiser with your mail」をクリックしてください。
メールアドレスを登録できたら、Kaggleをスタートできます!!
私のKaggleの使い方~日本語への対応方法は?
Kaggleは全て英語です。私は英語があまり得意でないので、下記の方法を使って利用しています。まずはGoogle翻訳です。Google Chromeで海外サイトを利用すると、下記の表示がでますので、日本語をクリックします。
そうすると、サイトの文章が日本語に翻訳されるので、これで利用しています。なお、Google翻訳が表示されない場合には、その場でページ更新をしてみるといいです。そうすると表示されることがあります。
翻訳してみたものの、日本語が意味不明な場合もありますので、その場合はもう一度英語をクリックして、英語で見るという使い方もありです。
また、Deepl翻訳というサイトを使用する場合もあります。
Kaggleの中でGoogle翻訳がされないところもあります。特に下記の「Code」のところです。その場合は、その部分をコピーして、Deepl翻訳に貼り付けると日本語訳をみることができます。
コンペの参加方法(入門・初学者オススメの勉強方法も)
翻訳問題を解決できたら、次は、実際のコンペに参加します。
まず、下記の「Competitions」をクリックします。
そして、「Getting Sterted」をクリックします。これを押すことでKaggleの中で入門用のコンペに絞り込んでくれます。
次に、下記の「Recently Lauched」をクリックします。
次に、「Total Teams」をクリックします。これを押すことで、参加している人数が多い順に並び替えてくれます。参加している人数が多いということは、それだけ、「Code」を公開している人も多いということなので、大変参考になるコードがたくさんあるということでもあります。
現時点ではTitanicが一番参加人数が多いです。
では、「TItanic」を選んでから、下記の「Code」をクリックします。
そうすると、たくさんのCodeが表示されます。
「Most Votes」をクリックすると、投票が多い順(つまり参考になったと思う人が多い順)に並び替えられます。
例えば、一番上の方は8396人から参考になったと投票されています!
この投票多い順のコードをみながら、私はKaggle内でデータ分析の勉強をしています。投票が多い人はコードの解説もたくさん書いてあったり、わかりやすいコードである場合が多いです。
それを自分の環境で動かしてみるだけでも、データサイエンス・データ分析の初心者や初学者にはオススメの勉強方法です。
Titanicについては、日本の方もたくさん参加されているので、「Kaggle Titanic」と検索してみてください。コードの書き方から、分析後の結果の提出の仕方等、色々と詳しくわかりやすい解説がたくさんありますので、日本語で学びたい方は参考にしてみてください。
Titanic以外のコンペはなかなか検索しても見つからないので、Deeple翻訳やGoogle翻訳を駆使しながら、上記の方法で是非参加してください。
私が参加したコンペも随時このブログに載せますので、参考にしていただけますと幸いです。
Kaggleに関しては以下のブログ記事を参考にしてください。
>>【書評】Kaggleで勝つデータ分析の技術
>>【Kaggle入門】 Titanicの次に何をやるか!?House Prices
>>【Kaggle入門】 Store Sales – Time Series Forecasting
>>【Kaggle入門】Predict Future Sales
>>【Kaggle入門ー二値分類】Santander Customer Transaction Prediction
>>【Kaggle入門ー二値分類】Spaceship Titanic
>>【Kaggle入門ー画像認識】Digit Recognizer
>>【Kaggle入門ー自然言語処理】Natural Language Processing with Disaster Tweets
Kaggleで悩んだら
「Kaggle で勝つデータ分析の技術」
以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleでわからないことや悩んだことがあった方は、購入を検討してみください。
本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料のオンライン説明会に参加してみてはいかがでしょうか。
