【問94~問100】データサイエンス100本ノック 解説

※アフィリエイト広告を利用しています。

ファイル

はじめに

問94~問100のコードの説明を初心者や初学者でもわかるような方法でまとめました。

データサイエンス100本ノックのはじめ方は、以下のブログ記事を参考にしてください。

>>【Google Colabはじめ方】データサイエンス100本ノックーデータサイエンティスト協会

問94 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。

  • ファイル形式はCSV(カンマ区切り)
  • ヘッダ有り
  • 文字コードはUTF-8

問93で作成したdf_product_fullをcsvファイルとして保存し、ヘッダ有り文字コードUTF-8の仕様で出力させる問題です。

まず、出力先のdataですが、以下の場所にあります。

dataの横の三つの縦に並ぶ点を押すとパスコピーできます。

csvファイルとして保存するには、to_csv()を使用します。

デフォルトで、ヘッダが有となっています。

また、文字コードは、encoding=’utf-8′のように指定ができます。

df_product_full.to_csv('/〓〓〓/94.csv', encoding='UTF-8', index=False)

*上記コードの’/〓〓〓/94.csv’部分は、使われている環境によって変わります。

下記のようにdata横の三つの縦に並ぶ点を押して「パスをコピー」というのを押してコピペしたものを入れるとよいです。

実際にdata内に、94.csvが入っているのを確認できます。

問95 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。

  • ファイル形式はCSV(カンマ区切り)
  • ヘッダ有り
  • 文字コードはCP932

今度は文字コードがCP932です。

df_product_full.to_csv('/〓〓〓/95.csv', encoding='CP932', index=False)

*上記コードの’/〓〓〓/95.csv’部分は、使われている環境によって変わります。

問94のようにdata横の三つの縦に並ぶ点を押し「パスをコピー」というのを押してコピペしたものを入れるとよいです。

問96 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。

  • ファイル形式はCSV(カンマ区切り)
  • ヘッダ無し
  • 文字コードはUTF-8

今度はヘッダ無しです。

df_product_full.to_csv('/〓〓〓/96.csv',header=False, encoding='UTF-8', index=False)

*上記コードの’/〓〓〓/96.csv’部分は、使われている環境によって変わります。

問9495のようにdata横の三つの縦に並ぶ点を押し「パスをコピー」というのを押してコピペしたものを入れるとよいです。

問97 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。

  • ファイル形式はCSV(カンマ区切り)
  • ヘッダ有り
  • 文字コードはUTF-8

形式のファイル(94.csv)を読み込み、データフレームを作成し、先頭3件の表示です。

df_tmp = pd.read_csv('/〓〓〓/94.csv')

*上記コードの’/〓〓〓/94.csv’部分は、使われている環境によって変わります。

問9495のようにdata横の三つの縦に並ぶ点を押し「パスをコピー」というのを押してコピペしたものを入れるとよいです。

問98 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。

  • ファイル形式はCSV(カンマ区切り)
  • ヘッダ無し
  • 文字コードはUTF-8

形式のファイル(96.csv)を読み込み、データフレームを作成し、先頭3件の表示です。

df_tmp = pd.read_csv('/〓〓〓/96.csv')

問99 先に作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。なお、出力先のパスはdata配下とする。

  • ファイル形式はTSV(タブ区切り)
  • ヘッダ有り
  • 文字コードはUTF-8

今度のファイル形式は、TSVです。tsvファイルとは、区切り文字が\tのファイルで、こちらの保存もto_csv()で行います。引数にsep=’\t’を追加します。

*バックスラッシュを入力しても表示上は「」となります。

df_product_full.to_csv('/〓〓〓/99.tsv', sep='\t', encoding='UTF-8', index=False)

問100 先に作成した以下形式のファイルを読み込み、データフレームを作成せよ。また、先頭3件を表示させ、正しくとりまれていることを確認せよ。

  • ファイル形式はTSV(タブ区切り)
  • ヘッダ有り
  • 文字コードはUTF-8

問99tsvファイル出力です。

df_tmp = pd.read_table('/〓〓〓/99.tsv', encoding='UTF-8')

100問お疲れ様でした!!

Pythonのコードやライブラリーについて知りたい場合

Pythonデータ分析よく使われている言語です。

この機会にPythonコードの打ち方・ライブラリーについてもっと知りたいと思った方は、以下のブログ記事をご覧ください。

独学でデータ分析をしている方へ

機械学習データサイエンスデータ分析独学で学ぶには、どうしたらよいかをまとめてみましたので、興味がある方はこちらのブログ記事をご覧ください。