<Python, readability, html2text, urllib> HTMLから本文抽出。

HTMLから本文抽出。
次のモジュールを組み合わせたら、いけたよ。

pip install readability-lxml
pip install html2text

で、

In [37]: import urllib

In [38]: url = urllib.request.urlopen('http://kids.yam.com/joke/article.php?cid=general&id=153411')

In [39]: s = url.read()

In [40]: from readability.readability import Document

In [41]: article = Document(s).summary()

In [42]: import html2text

In [43]: text = html2text.html2text(article)

In [44]: print(text)
xx個人電腦維修工作室  
  
這天半夜有個客人打電話來問說  
  
客人:「xx電腦維修公司嗎?」  
  
工程師:「是的!請問客人有什麼問題?」  
  
客人:「我的電腦不能開機。」  
  
工程師:「您電源插頭有插嗎?」  
  
客人:「有的。」  
  
工程師:「請檢查一下power電源插頭是否有鬆落,接觸不良。」  
  
客人:「沒!」  
  
工程師:「那請您拿出紙、筆來。」  
  
客人:「喔好。稍等一下,我先找一下拿手電筒。」  
  
工程師:「為什麼要拿手電筒?」  
  
  
  
  
客人:「我家停電啊!」  
  
工程師:「…………」


いいねー。
readabilityだと、htmlで返してくるので、それをhtml2textする。ぐー。

お勉強したところ。

orangain.hatenablog.com

マニュアル群。

pypi.python.org

github.com

github.com

urllib パッケージを使ってインターネット上のリソースを取得するには — Python 3.4.3 ドキュメント

HOWTO Fetch Internet Resources Using The urllib Package — Python 3.5.1 documentation