[書籍レビュー]Python2年生 スクレイピングのしくみ

その他

Python2年生 スクレイピングのしくみ
著者・森 巧尚
翔泳社の書籍ページ

ヤギ先生とフタバちゃんが会話をしながら進めていくシリーズ物。

前作に「Python1年生」があり、そっちはPythonに触れたことがない人への入門書。

この本はスクレイピングについて学ぶ。
ちょっとPythonを触ったことがあるなら前作を読まなくても大丈夫だろう。

書籍の内容

第一章

  • スクレイピングの概要と注意点、Pythonのインストール。
  • 外部ライブラリ「Requests」を使って、実際にWebページからHTMLを読み込む。

第二章

  • ライブラリ「BeatufulSoup」を使ってHTMLの解析。
  • 「Yahoo!ニュース」のページをスクレイピング。

HTMLについて詳しく知っている必要はないが、タグの意味すら知らない初心者には厳しいかもしれない。

第三章

  • Pandas」で表データ(csv)を読み込み。
  • Matplotlib」でグラフ表示。

このふたつも超優秀なライブラリ。触っておいて損はない。

第四章

  • オープンデータの分析。「郵便局」から郵便番号データ、政府統計の「e-Stat」の人口データを使い、前章のライブラリでデータ抽出。

第五章

  • オンラインサービス「OpenWeatherMap」のWebAPIを利用して、データの収集。

リンク先に飛んでもらえば分かるがそのサイトは英語表示のみ
無料版と有料版があり、アカウントを作成して、APIキーを取得後に利用できる。

自分はアカウント作成が面倒でスルーした。

興味のある人は手順通りやれば大丈夫だろう。

感想

イラストが豊富でスラスラと進めることができる。

ただ自分が実際に欲しいページを「Request」で取ってこようとすると、対象が動的なページで、上手くいかなかった。

結局ブラウザからアクセスしたが、ブラウザなしでやるには「Selenium」を使う必要がある。

この本でスクレイピングをマスターすることはできないが、初心者が最初の一冊として選ぶなら最適だろう。

タイトルとURLをコピーしました