【Kaggle入門ー自然言語処理】Natural Language Processing with Disaster Tweets

はじめに
概要
データ
提出ファイル
Kaggleで悩んだら

はじめに

Kaggleは、英語のページしかありません。そこで、日本語で読みたい方向けに記事を作成しました。

さっそく、初心者・入門者向けのコンペであるNatural Language Processing with Disaster Tweetsの概要を見てみましょう。

Kaggleのついて知りたい方は以下のブログ記事を参考にしてください。
>>【始め方】Kaggleデータサイエンス（データ分析）コンペ入門~選んだ理由や日本語対応等
 >>【書評】Kaggleで勝つデータ分析の技術

【転職型スクールNo.1】働きながらプログラミングを学習したい方（DMM WEBCAMP）

概要

それでは、簡単にNatural Language Processing with Disaster Tweetsについて説明します。

Natural Language Processing with Disaster Tweetsは、自然言語処理を始めようとしているデータサイエンティストに最適のコンペです。

データセットもそれほど大きくなく、個人的なコンピューティング能力があまりない場合でも、作業可能です。

Twitterは、もはや緊急時の重要な連絡手段です。

スマートフォンの普及により、人々は緊急事態をリアルタイムで発表できます。このため、より多くの機関がプログラムによる Twitter の監視に関心を持っています (災害救援組織や報道機関など)。

しかし、人の言葉が実際に災害を告げているかどうかは必ずしも明確ではありません。

そこで、このコンペでは、実際の災害に関するツイートとそうでないツイートを予測する機械学習モデルの構築に挑戦します。

評価は、予測された回答と期待される回答の間でF1スコアを使用します。

F1スコアは、適合率（１と予測したものが実際に１であった割合）と再現率（実際１であったデータのうちどれだけ１と正しく予測できたかの割合）の調和平均で、適合率と再現率のどちらを優先すべきか決まっていない段階で、モデルを総合的に評価する場合に使います。

データ

train.csv ：トレーニングセット

　id：各ツイートの一意の識別子
　text ： ツイートのテキスト
　location ： ツイートが送信された場所 (空白の場合があります)
　keyword ：ツイートの特定のキーワード (空白の場合もあります)
　target： ツイートが実際の災害に関するものか (1)、そうでないか (0)を示す

test.csv ：テストセット

sample_submission.csv ：サンプル提出ファイル

提出ファイル

テストセットの各 ID について、ツイートが実際の災害を説明している場合は 1 を予測し、それ以外の場合は 0 を予測する必要があります。ファイルにはヘッダーが含まれ、次の形式になっている必要があります。

Natural Language Processing with Disaster Tweetsで具体的に何をすればいいかは、下記のブログ記事もご覧ください。
>>【Kaggle入門ー自然言語処理】Natural Language Processing with Disaster Tweets-EDA、データ前処理、モデル作成、提出まで

Kaggleで悩んだら

「Kaggle で勝つデータ分析の技術」

データ分析の最も有名なコンペティションプラットフォームであるKaggleにおけるテクニックや事例を、現時点で最新のものを整理した書籍。特徴量の作り方、バリデーション、パラメータチューニングなどについて、一般的な書籍ではあまり言及されないポイント等に解説。
>>【書評】Kaggleで勝つデータ分析の技術

以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleでわからないことや悩んだことがあった方は、購入を検討してみください。

リンク

本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料のオンライン説明会に参加してみてはいかがでしょうか。

【無料】最短最速でPython・AI・機械学習を学べる！オンライン説明会はこちら！（キカガク）