やりたいこと
公開設定されているGoogleスプレッドシートをCSVでスクレイピングしたい
例えば↓みたいなURL
https://docs.google.com/spreadsheets/d/1pYeP5a7WgukcJ8uhtyxVktbvzGvWoj48QFwdM7Po06I
環境
- Python 3.9
- pandas 1.4.0
コード
import pandas as pd url = '対象のURL' df = pd.read_html(url, header=1, encoding='utf-8')[0] print(df.to_csv(index = False))
ポイント
- read_html()で勝手にデータフレームに変換してくれる。pandas最高
- header=1はcolumns対象の行を指定 スプレッドシートによって違うと思うので適宜変更する
[0]
はシートのインデックス 基本は0になるはず