【感想】総務省統計局ー社会人のためのデータサイエンス演習~2022

※アフィリエイト広告を利用しています。

はじめに

総務省統計局が提供している、データサイエンス・オンライン講座「社会人のためのデータサイエンス演習」無料で誰でも受けられる講座です。

これからデータ分析をはじめたいデータサイエンティストになりたいという人に向けた講座で、初心者・初学者安心して受けることができる講座です。

講座内容に関して気になる方もいらっしゃると思いますので、感想をまとめました。

また、Googleスプレッドシートの使い方RをGoogle colaboratoryで動かす方法も書きましたので、是非ご覧ください。

収録動画

本講座の講義動画は、2016年に収録されたをベースとしていますが、以下のものは、2022年新たに収録したものを使用しています。

特に様々な演習問題を扱った補講Week5「ビジネスでデータサイエンスを実現するため」、Rを学べる特別週、2022年収録目玉です!

【2022年収録】

・Week1-1,1-2,1-3,1-4,1-5,1-6
・Week2-1,2-補講
・Week3-補講
・Week4-6,4-補講(1),4-補講(2)
・Week5-1,5-2,5-3,5-4,5-5,5-6,5-7
・特別週

動画は、一コマ5分~15分ほどであり 1週につき5~7個の動画で構成されています。

また、各動画の授業で使用したPDF教材ダウンロード可能です。

スケジュール

公開日から課題締め切りまで約1週間ぐらいです。

課題締め切り日をすぎると対象の課題には回答を提出出来なくなりますので注意してください。

課題と終了証

講義を進めていくと、最後に課題(確認テスト)があります。

課題は、正答率60%以上であれば合格できます。

課題の中には、難解なものもありますが、1つの問題につき3回までやり直し可能なので、よく考えて解けば全問正解も可能です。

ただし、最終課題やり直しができないので、注意です!

講義動画の視聴率80%以上、かつ、修了条件を満たした方には、特別な修了証が発行されます。
(※「講義動画の視聴率」は、2022年11月21日23時59分までに視聴した分対象)

また、修了条件の判定は、課題ごとの判定ではありませんので、提出できなかった課題得点の低い課題があっても合計得点率が修了条件を満たしていれば修了証取得できます

修了証は、マイページにPDFで発行され、ダウンロードも可能です。

Week1の感想

・データサイエンティストやデータサインスについての説明
・本ですでに勉強している人は早送り可能

Week2の感想

ヒストグラムから読み取れるデータ混在の可能性外れ値の可能性については秀逸

Googleスプレッドシート(ヒストグラム)

Week2の演習では、ヒストグラムを表示する必要があります。

Excelを持っていない人や普段Googleスプレッドシートを使用している人向けに、スプレッドシートヒストグラムを表示する方法をご紹介させていただきます。

 「挿入」→「グラフ」をクリック

 「グラフの種類」「ヒストグラム グラフ」を選択します。

なお、グラフエディタの「カスタマイズ」「バケットサイズ」変更するとビンズを調整できます。

Googleスプレッドシート(基本統計量)

Googleスプレッドシート基本統計量を出すには、関数を使用します。

範囲を選択した後、「挿入」「関数」「統計」で該当する関数を選びます

平均値:AVERAGE

中央値:MEDIAN

標準偏差: STDEV

例として、標準偏差の算出を掲載します。

Week3の感想

相関係数散布図関係非常に参考になった。
 以前、相関係数だけで判断していたことがあった。その場合、相関係数だけで判断して相関係数が高いと思っていたが、実はそれは外れ値が要因となっていることもある。これが、散布図で確認するという動作を入れることで、外れ値の存在がわかり、それを排除してから、相関係数を図る実は相関係数が低いということもある。

Week4の感想

仮説検定(t検定、カイ2乗検定)エクセルでできるとは初耳だった。

Week5の感想

講師の杉山聡さんは、YoutubeAIcia Solid Projectアリシアの中の人です。

AIcia Solid Projectでは、ニューラルネットワークを学習するときに、非常に参考になりました!

アリシア書籍本講座の順に私は知ったので、実在しているということが非常に不思議な感覚です。

杉山聡さんの書籍「本質を捉えたデータ分析のための分析モデル入門 統計モデル、深層学習、強化学習等 用途・特徴から原理まで一気通貫!」大変好評ですので、ご興味がある方はこちらもご購読ください。

最終課題の感想

・各Weekの課題に比べるとハード。

・今まで学んできたことを総動員して解くことになる。

時間が結構かかるので、余裕があるときに解くことがオススメ。

特別週の感想

・Rが勉強できる! これにつきる。

・Rはじめましての人、ここから始めるとよいです。

なお、演習1はデータが読み込めず。エラーとなりました。

data <- read.csv("r_sample_2.csv")
data

以下にしたら、読み込めました。

data <- read.csv("r_sample_2.csv", fileEncoding="CP932")
data

RをGoogle colaboratoryで動かす方法

1「ファイル」「ダウンロード」「.ipynbをダウンロード」をクリック。

 ダウンロードしたら、そのファイルを右クリックでプログラム開くを押す。そして、「その他のアプリ」から、メモ帳を選択してOKをクリック。

3「kernelspec」 を以下に書き換えます。

"kernelspec": {
  "name": "ir",
  "display_name": "R"
}

     ↓ ↓ ↓

 書き換えたら、保存してください。その保存したファイルをGoogleドライブアップロードしてください。これで準備完了です。なお、Rになったかの確認は、「ランタイム」「ランタイムのタイプを変更」を押してみてください。”ランタイム””R”になったことが確認できます。

注:ドライブのマウントは使えませんそのため、以下のような方法でデータをアップロードします。左側のファイルマークをクリックしてから、赤い部分クリックして、クライアントにあるデータをアップロードしてください。

まとめ

「総務省統計局ー社会人のためのデータサイエンス演習」は、総務省という国の組織のお墨付き講座正確性も担保されていますので、初心者・初学者が安心して講座を受けることができます。

ただし、「少し簡単だな。」や「物足りない。」と思われる方もいるかもしれません。

そのように感じた人向けに、いくつかオススメの動画演習問題を紹介します。

手っ取り早くスクールに通いたい方はこちら

スクールで学ぶことに興味がある方は、まずは以下の無料オンライン説明会に参加してみてはいかがでしょうか。