<Python, readability, html2text, urllib> HTMLから本文抽出。
HTML
から本文抽出。
次のモジュールを組み合わせたら、いけたよ。
pip install readability-lxml pip install html2text
で、
In [37]: import urllib In [38]: url = urllib.request.urlopen('http://kids.yam.com/joke/article.php?cid=general&id=153411') In [39]: s = url.read() In [40]: from readability.readability import Document In [41]: article = Document(s).summary() In [42]: import html2text In [43]: text = html2text.html2text(article) In [44]: print(text) xx個人電腦維修工作室 這天半夜有個客人打電話來問說 客人:「xx電腦維修公司嗎?」 工程師:「是的!請問客人有什麼問題?」 客人:「我的電腦不能開機。」 工程師:「您電源插頭有插嗎?」 客人:「有的。」 工程師:「請檢查一下power電源插頭是否有鬆落,接觸不良。」 客人:「沒!」 工程師:「那請您拿出紙、筆來。」 客人:「喔好。稍等一下,我先找一下拿手電筒。」 工程師:「為什麼要拿手電筒?」 客人:「我家停電啊!」 工程師:「…………」
いいねー。
readability
だと、html
で返してくるので、それをhtml2text
する。ぐー。
お勉強したところ。
マニュアル群。
urllib パッケージを使ってインターネット上のリソースを取得するには — Python 3.4.3 ドキュメント
HOWTO Fetch Internet Resources Using The urllib Package — Python 3.5.1 documentation