読者です 読者をやめる 読者になる 読者になる

<Python, readability-lxml> URLから本文抽出

Pythonスクレイピングscraping
readability-lxmlというモジュールを試してみた。

pip install readability-lxml

で、コマンドラインから、

python -m readability.readability -b -u http://pypi.python.org/pypi/readability-lxml

へ~。なんとなく抜き出せてる。
でもhtmlで返すんだね。

マニュアル。

pypi.python.org

github.com

お世話になったとこ。

orangain.hatenablog.com