Python2年生 スクレイピングのしくみ
著者・森 巧尚
翔泳社の書籍ページ
ヤギ先生とフタバちゃんが会話をしながら進めていくシリーズ物。
前作に「Python1年生」があり、そっちはPythonに触れたことがない人への入門書。
この本はスクレイピングについて学ぶ。
ちょっとPythonを触ったことがあるなら前作を読まなくても大丈夫だろう。
書籍の内容
第一章
- スクレイピングの概要と注意点、Pythonのインストール。
- 外部ライブラリ「Requests」を使って、実際にWebページからHTMLを読み込む。
第二章
- ライブラリ「BeatufulSoup」を使ってHTMLの解析。
- 「Yahoo!ニュース」のページをスクレイピング。
HTMLについて詳しく知っている必要はないが、タグの意味すら知らない初心者には厳しいかもしれない。
第三章
- 「Pandas」で表データ(csv)を読み込み。
- 「Matplotlib」でグラフ表示。
このふたつも超優秀なライブラリ。触っておいて損はない。
第四章
- オープンデータの分析。「郵便局」から郵便番号データ、政府統計の「e-Stat」の人口データを使い、前章のライブラリでデータ抽出。
第五章
- オンラインサービス「OpenWeatherMap」のWebAPIを利用して、データの収集。
リンク先に飛んでもらえば分かるがそのサイトは英語表示のみ。
無料版と有料版があり、アカウントを作成して、APIキーを取得後に利用できる。
自分はアカウント作成が面倒でスルーした。
興味のある人は手順通りやれば大丈夫だろう。
感想
イラストが豊富でスラスラと進めることができる。
ただ自分が実際に欲しいページを「Request」で取ってこようとすると、対象が動的なページで、上手くいかなかった。
結局ブラウザからアクセスしたが、ブラウザなしでやるには「Selenium」を使う必要がある。
この本でスクレイピングをマスターすることはできないが、初心者が最初の一冊として選ぶなら最適だろう。
リンク