readability-lxml

2015-12-24

<Python, readability, html2text, urllib> HTMLから本文抽出。

HTMLから本文抽出。次のモジュールを組み合わせたら、いけたよ。 pip install readability-lxml pip install html2text で、 In [37]: import urllib In [38]: url = urllib.request.urlopen('http://kids.yam.com/joke/article.php?cid=general&id=153411'…

2015-12-22

<Python, readability-lxml> URLから本文抽出

readability-lxml Python

Pythonでスクレイピングscraping。 readability-lxmlというモジュールを試してみた。 pip install readability-lxml で、コマンドラインから、 python -m readability.readability -b -u http://pypi.python.org/pypi/readability-lxml へ～。なんとなく抜き…