【Kaggle入門ー自然言語処理】Natural Language Processing with Disaster Tweets

※アフィリエイト広告を利用しています。

はじめに

Kaggleは、英語のページしかありません。そこで、日本語で読みたい方向けに記事を作成しました。

さっそく、初心者・入門者向けのコンペであるNatural Language Processing with Disaster Tweets概要を見てみましょう。

概要

それでは、簡単にNatural Language Processing with Disaster Tweetsについて説明します。

Natural Language Processing with Disaster Tweetsは、自然言語処理を始めようとしているデータサイエンティストに最適のコンペです。

データセットもそれほど大きくなく、個人的なコンピューティング能力があまりない場合でも、作業可能です。

Twitterは、もはや緊急時の重要な連絡手段です。

スマートフォンの普及により、人々は緊急事態をリアルタイムで発表できます。このため、より多くの機関プログラムによる Twitter の監視に関心を持っています (災害救援組織や報道機関など)。

しかし、人の言葉が実際に災害を告げているかどうかは必ずしも明確ではありません

そこで、このコンペでは、実際の災害に関するツイートそうでないツイート予測する機械学習モデルの構築に挑戦します。

評価は、予測された回答期待される回答の間でF1スコアを使用します。

F1スコアは、適合率1と予測したものが実際に1であった割合)と再現率実際1であったデータのうちどれだけ1と正しく予測できたかの割合)の調和平均で、適合率と再現率のどちらを優先すべきか決まっていない段階で、モデルを総合的に評価する場合に使います。

データ

train.csv トレーニング セット

 id:各ツイートの一意の識別子
 text : ツイートのテキスト
 location : ツイートが送信された場所 (空白の場合があります)
 keyword :ツイートの特定のキーワード (空白の場合もあります)
 target: ツイートが実際の災害に関するものか (1)、そうでないか (0)を示す

test.csvテスト セット

sample_submission.csvサンプル提出ファイル

提出ファイル

テスト セット各 ID について、ツイートが実際の災害を説明している場合は 1 を予測し、それ以外の場合は 0 を予測する必要があります。ファイルにはヘッダーが含まれ、次の形式になっている必要があります。

Natural Language Processing with Disaster Tweets具体的に何をすればいいかは、下記のブログ記事もご覧ください。
>>【Kaggle入門ー自然言語処理】Natural Language Processing with Disaster Tweets-EDA、データ前処理、モデル作成、提出まで

Kaggleで悩んだら

「Kaggle で勝つデータ分析の技術」

データ分析の最も有名なコンペティションプラットフォームであるKaggleにおけるテクニックや事例を、現時点で最新のものを整理した書籍。特徴量の作り方バリデーションパラメータチューニングなどについて、一般的な書籍ではあまり言及されないポイント等に解説。
>>【書評】Kaggleで勝つデータ分析の技術

以下の書籍は、Kaggleを始める方には本当にオススメの書籍です。Kaggleわからないこと悩んだことがあった方は、購入を検討してみください。

本だけでは物足りないという方は、動画のプラットフォームで学ぶこともオススメです。興味がございましたら、以下の無料オンライン説明会に参加してみてはいかがでしょうか。