<Python, readability, html2text, urllib> HTMLから本文抽出。

HTMLから本文抽出。
次のモジュールを組み合わせたら、いけたよ。

pip install readability-lxml
pip install html2text

で、

In [37]: import urllib

In [38]: url = urllib.request.urlopen('http://kids.yam.com/joke/article.php?cid=general&id=153411')

In [39]: s = url.read()

In [40]: from readability.readability import Document

In [41]: article = Document(s).summary()

In [42]: import html2text

In [43]: text = html2text.html2text(article)

In [44]: print(text)
ｘｘ個人電腦維修工作室  
  
這天半夜有個客人打電話來問說  
  
客人：「ｘｘ電腦維修公司嗎？」  
  
工程師：「是的！請問客人有什麼問題？」  
  
客人：「我的電腦不能開機。」  
  
工程師：「您電源插頭有插嗎？」  
  
客人：「有的。」  
  
工程師：「請檢查一下ｐｏｗｅｒ電源插頭是否有鬆落，接觸不良。」  
  
客人：「沒！」  
  
工程師：「那請您拿出紙、筆來。」  
  
客人：「喔好。稍等一下，我先找一下拿手電筒。」  
  
工程師：「為什麼要拿手電筒？」  
  
  
  
  
客人：「我家停電啊！」  
  
工程師：「…………」