簡単な web スクレイピングの話

この記事は、Python Advent Calendar 2015 - Adventar 12/12分の記事です。怖くない方の Python Advent Calendar 2015 です。

はじめに

この記事は、Python による web スクレイピングの簡単な題材を取り扱ったものですから、意欲的な中高生でも理解できるように内容を簡潔に済ませています。

Python 2 の話はしません。適宜読み替えると吉です。

もうちょっと実践的なスクレイピングの記事はこちらです。

Python 3 には html.parser という、HTML パーサっぽい標準ライブラリが用意されていますが、その使用法は直感に反していて、初心者にはとっつきにくいです*1。ですので、サードパーティ製ライブラリの lxml を使っていくことにします。

lxml のインストールは、公式サイトを参考に頑張って導入してください。

XPath を使って必要な情報を抽出しましょう。

XPath については、このあたりを参照すると吉です。時間がない。

何かできてしまった。

ニジエのスクレイピングをして、画像ファイルのURLを取得します。使い方は察してください。ここは全年齢向けブログですよ？

ギリギリまで書いてなくてつらい気持ちになった。来年はもうちょっとちゃんと余裕を持って書きます。

明日は、@nobolispy氏による「論文用の図をmatplotlibで書く系の話」です。

Python に関する知見が欲しかった*2。

あと、Qiita の Python Advent Calendar ってすぐに枠が埋まるじゃないですか。

トロい人間にはつらいものがあるので、自分で立ち上げて、まあ10人ぐらい書いてくれればいいなあ、って思っていました。そしたら23人も登録してくれたので、感謝感激雨あられ。

*1:自分で HTMLParser を継承したクラスを作り、中でメソッドをオーバーライドしてゴニョゴニョする必要があって難しい。

*2:知見が欲しければアドベントカレンダーを立ち上げよう！！！