読者です 読者をやめる 読者になる 読者になる

私が歌川です

@utgwkk が書いている

簡単な web スクレイピングの話

この記事は、Python Advent Calendar 2015 - Adventar 12/12分の記事です。怖くない方の Python Advent Calendar 2015 です。

www.adventar.org

はじめに

この記事は、Python による web スクレイピングの簡単な題材を取り扱ったものですから、意欲的な中高生でも理解できるように内容を簡潔に済ませています。

Python 2 の話はしません。適宜読み替えると吉です。

もうちょっと実践的なスクレイピングの記事はこちらです。

lxml を使おう

Python 3 には html.parser という、HTML パーサっぽい標準ライブラリが用意されていますが、その使用法は直感に反していて、初心者にはとっつきにくいです*1。ですので、サードパーティ製ライブラリの lxml を使っていくことにします。

lxml のインストールは、公式サイトを参考に頑張って導入してください。

XPath を駆使しよう

XPath を使って必要な情報を抽出しましょう。

XPath については、このあたりを参照すると吉です。時間がない。

できた〜〜〜!!!

何かできてしまった。

ニジエスクレイピング野郎

ニジエのスクレイピングをして、画像ファイルのURLを取得します。使い方は察してください。ここは全年齢向けブログですよ?

おわりに

ギリギリまで書いてなくてつらい気持ちになった。来年はもうちょっとちゃんと余裕を持って書きます。

明日は、@nobolispy氏による「論文用の図をmatplotlibで書く系の話」です。

なぜ Python Advent Calendar 2015 を立ち上げたのか

Python に関する知見が欲しかった*2

あと、Qiita の Python Advent Calendar ってすぐに枠が埋まるじゃないですか。

https://gyazo.com/773eeccab37845553f47f61e0694a828

トロい人間にはつらいものがあるので、自分で立ち上げて、まあ10人ぐらい書いてくれればいいなあ、って思っていました。そしたら23人も登録してくれたので、感謝感激雨あられ

*1:自分で HTMLParser を継承したクラスを作り、中でメソッドをオーバーライドしてゴニョゴニョする必要があって難しい。

*2:知見が欲しければアドベントカレンダーを立ち上げよう!!!