
はじめに
総務省統計局が提供している、データサイエンス・オンライン講座「社会人のためのデータサイエンス演習」は無料で誰でも受けられる講座です。
これからデータ分析をはじめたい、データサイエンティストになりたいという人に向けた講座で、初心者・初学者も安心して受けることができる講座です。
講座内容に関して気になる方もいらっしゃると思いますので、感想をまとめました。
また、Googleスプレッドシートの使い方やRをGoogle colaboratoryで動かす方法も書きましたので、是非ご覧ください。
収録動画
本講座の講義動画は、2016年に収録されたをベースとしていますが、以下のものは、2022年に新たに収録したものを使用しています。
特に様々な演習問題を扱った補講やWeek5「ビジネスでデータサイエンスを実現するため」、Rを学べる特別週は、2022年収録の目玉です!
【2022年収録】
・Week1-1,1-2,1-3,1-4,1-5,1-6
・Week2-1,2-補講
・Week3-補講
・Week4-6,4-補講(1),4-補講(2)
・Week5-1,5-2,5-3,5-4,5-5,5-6,5-7
・特別週
動画は、一コマ5分~15分ほどであり 1週につき5~7個の動画で構成されています。
また、各動画の授業で使用したPDF教材もダウンロード可能です。
スケジュール
公開日から課題締め切りまで約1週間ぐらいです。
*課題締め切り日をすぎると、対象の課題には回答を提出出来なくなりますので注意してください。
課題と終了証
講義を進めていくと、最後に課題(確認テスト)があります。
課題は、正答率60%以上であれば合格できます。
課題の中には、難解なものもありますが、1つの問題につき3回までやり直し可能なので、よく考えて解けば全問正解も可能です。
ただし、最終課題はやり直しができないので、注意です!
講義動画の視聴率80%以上、かつ、修了条件を満たした方には、特別な修了証が発行されます。
(※「講義動画の視聴率」は、2022年11月21日23時59分までに視聴した分が対象)
また、修了条件の判定は、課題ごとの判定ではありませんので、提出できなかった課題や得点の低い課題があっても、合計得点率が修了条件を満たしていれば修了証を取得できます。
修了証は、マイページにPDFで発行され、ダウンロードも可能です。
Week1の感想
・データサイエンティストやデータサインスについての説明
・本ですでに勉強している人は早送り可能
Week2の感想
・ヒストグラムから読み取れるデータ混在の可能性や外れ値の可能性については秀逸
Googleスプレッドシート(ヒストグラム)
Week2の演習では、ヒストグラムを表示する必要があります。
Excelを持っていない人や普段Googleスプレッドシートを使用している人向けに、スプレッドシートでヒストグラムを表示する方法をご紹介させていただきます。
1 「挿入」→「グラフ」をクリック
2 「グラフの種類」の「ヒストグラム グラフ」を選択します。
なお、グラフエディタの「カスタマイズ」の「バケットサイズ」を変更するとビンズを調整できます。
Googleスプレッドシート(基本統計量)
Googleスプレッドシートで基本統計量を出すには、関数を使用します。
範囲を選択した後、「挿入」→「関数」→「統計」で該当する関数を選びます。
平均値:AVERAGE
中央値:MEDIAN
標準偏差: STDEV
例として、標準偏差の算出を掲載します。
Week3の感想
・相関係数と散布図の関係は非常に参考になった。
以前、相関係数だけで判断していたことがあった。その場合、相関係数だけで判断して相関係数が高いと思っていたが、実はそれは外れ値が要因となっていることもある。これが、散布図で確認するという動作を入れることで、外れ値の存在がわかり、それを排除してから、相関係数を図ると実は相関係数が低いということもある。
Week4の感想
・仮説検定(t検定、カイ2乗検定)をエクセルでできるとは初耳だった。
Week5の感想
講師の杉山聡さんは、YoutubeのAIcia Solid Projectのアリシアの中の人です。
AIcia Solid Projectでは、ニューラルネットワークを学習するときに、非常に参考になりました!
アリシア→書籍→本講座の順に私は知ったので、実在しているということが非常に不思議な感覚です。
杉山聡さんの書籍「本質を捉えたデータ分析のための分析モデル入門 統計モデル、深層学習、強化学習等 用途・特徴から原理まで一気通貫!」も大変好評ですので、ご興味がある方はこちらもご購読ください。
最終課題の感想
・各Weekの課題に比べるとハード。
・今まで学んできたことを総動員して解くことになる。
・時間が結構かかるので、余裕があるときに解くことがオススメ。
特別週の感想
・Rが勉強できる! これにつきる。
・Rはじめましての人、ここから始めるとよいです。
なお、演習1はデータが読み込めず。エラーとなりました。
data <- read.csv("r_sample_2.csv")
data
以下にしたら、読み込めました。
data <- read.csv("r_sample_2.csv", fileEncoding="CP932")
data
RをGoogle colaboratoryで動かす方法
1「ファイル」→「ダウンロード」→「.ipynbをダウンロード」をクリック。
2 ダウンロードしたら、そのファイルを右クリックでプログラム開くを押す。そして、「その他のアプリ」から、メモ帳を選択してOKをクリック。
3「kernelspec」 を以下に書き換えます。
"kernelspec": {
"name": "ir",
"display_name": "R"
}
↓ ↓ ↓
4 書き換えたら、保存してください。その保存したファイルをGoogleドライブにアップロードしてください。これで準備完了です。なお、Rになったかの確認は、「ランタイム」→「ランタイムのタイプを変更」を押してみてください。”ランタイム”が”R”になったことが確認できます。
注:ドライブのマウントは使えません。そのため、以下のような方法でデータをアップロードします。左側のファイルのマークをクリックしてから、赤い部分をクリックして、クライアントにあるデータをアップロードしてください。
まとめ
「総務省統計局ー社会人のためのデータサイエンス演習」は、総務省という国の組織のお墨付きの講座で正確性も担保されていますので、初心者・初学者が安心して講座を受けることができます。
ただし、「少し簡単だな。」や「物足りない。」と思われる方もいるかもしれません。
そのように感じた人向けに、いくつかオススメの動画や演習問題を紹介します。
データ分析・データサイエンティストに興味があり、もっと分析について学ぶたい方
>>Googleデータアナリティクス プロフェッショナル認定証(Coursera)日本リスキリングコンソーシアム
【オススメ】データサイエンス・データ分析の基本を学べる動画をまとめました(Python)
【レベル別オススメ】データサイエンス・データ分析の本まとめ(Python)
データ分析に関する演習問題をもっと解きたい方
>>【Google Colabはじめ方】データサイエンス100本ノックーデータサイエンティスト協会
>>【書評・エラー対処】Python実践データ分析100本ノック
データ分析のコンペティションで実践したい方
>>【始め方】Kaggleデータサイエンス(データ分析)コンペ入門~選んだ理由や日本語対応等
>>【Kaggle入門】 Titanicの次に何をやるか!?House Prices
手っ取り早くスクールに通いたい方はこちら
スクールで学ぶことに興味がある方は、まずは以下の無料のオンライン説明会に参加してみてはいかがでしょうか。