urllib

<Python, readability, html2text, urllib> HTMLから本文抽出。

HTMLから本文抽出。 次のモジュールを組み合わせたら、いけたよ。 pip install readability-lxml pip install html2text で、 In [37]: import urllib In [38]: url = urllib.request.urlopen('http://kids.yam.com/joke/article.php?cid=general&id=153411'…

<Python, urllib> インターネット上のExcelファイルを読み込む。

インターネット上の転がっているExcelファイルを読み込む方法。 urllibライブラリを使うらしい。 Python2にはurllib2とurllibがあったらしいが、Python3ではurllibだけらしい。 でサンプルコード。 In [1]: import pandas as pd In [2]: import urllib In [3…