【Kaggle入門ー画像認識】Digit Recognizer

はじめに

Kaggleは、英語のページしかありません。そこで、日本語で読みたい方向けに記事を作成しました。

さっそく、初心者・入門者向けのコンペであるDigit Recognizerの概要を見てみましょう。

それでは、簡単にDigit Recognizerについて説明します。

MNIST (“Modified National Institute of Standards and Technology”) データを使用した画像認識・画像処理についてのKaggle入門者・初心者向けのコンペです。

MNIST (“Modified National Institute of Standards and Technology”) データは、さまざまな画像処理システムの学習に広く使用される手書き数字画像の大規模なデータベースです。

1999 年のリリース以来、このデータセットは、分類アルゴリズムのベンチマークの基礎として機能しています。

このコンペでは、何万もの手書き画像のデータセットから数字を正しく識別することが目標です。

【ゴール】
手書きの 1 桁の数字を撮影し、その数字が何であるかを判断することです。

【評価】
このコンペは、予測のカテゴリ化の精度 (正しい画像の割合) で評価されます。

train.csvとtest.csvには、0から9までの手書き数字のグレースケールイメージが含まれています。

各画像は高さ28ピクセル、幅28ピクセルで、合計784ピクセルです。

各ピクセルには、そのピクセルの明るさまたは暗さを示す単一のピクセル値が関連付けられており、数値が大きいほど暗いことを意味します。このピクセル値は、0から255までの整数です。

train.csvには785列があります。

「label」と呼ばれる最初の列は、ユーザーが描いた数字です。残りの列には、関連付けられた画像のピクセル値が含まれます。

提出ファイルの形式は、以下のものでcsvファイルです。

Digit Recognizerで具体的に何をすればいいかは、下記のブログ記事もご覧ください。
>>【Kaggle入門ー画像認識】Digit Recognizer-EDA、データ前処理、モデル作成、提出まで

本で画像分類について学びたい方は、「Python3年生機械学習のしくみ体験してわかる! 会話でまなべる!」が、内容がやさしく、わかりやすいのでオススメです。

リンク

本ではなく、動画で学びたい方は、Youtubeで公開されている予備校のノリで学ぶ「大人の数学・物理」チャンネルの「高校数学からはじめる深層学習入門(畳み込みニューラルネットワークの理解)」がオススメです。

本コンペのように画像分類で使用する畳み込みニューラルネットワークで用いられる数学をわかりやすく紹介してくれています。

もっとも、動画では、深層学習の数学部分にしか触れられておらず、プログラミングは学ぶことができません。

しかし、上記動画は、プログラミングスクールであるAidemy Premium Planとタイアップして作成されています。

そこで、最短距離でニューラルネットワークのプログラミングを学びたい方は、日本最大級のAI・人工知能プログラミングスクールである「Aidemy Premium Plan」の無料ビデオカウンセリングを受講してみてはいかがでしょうか。

ニューラルネットワークを学べる動画のプラットフォームとしては、キカガクもオススメです。動画の内容が非常にわかりやすく、Udemyでも大好評です。こちらも興味がございましたら、以下の無料のオンライン説明会に参加してみてはいかがでしょうか。