Beautiful Soup

<Python, BeautifulSoup> HTML属性をゲット

BeautifulSoupで、HTML属性attributeをげっちゅうする技。 こんなhtmlテキストがあったとして、、 In [1]: from bs4 import BeautifulSoup In [2]: html = ''' ...: <d> ...: <name>Hage</name> ...: <qty>10</qty> ...: </d> ...: <d> ...: <name>Hige</name> ...: <qty>20</qty> ...: </d> ...: <d> ...: <name>Hoge</name> ...: <qty>12</qty> ...: </d>

<Python, pandas, Beautiful Soup> html tableからpandas dataframeへ。

html中にあるtableから、pandas dataframeを作る。 <tr> <td>タブとかを、ちくちくと、Beautiful Soupでパースしないといけないのか、、、 いやいや、そんな面倒なことは、誰かが、既に何かを作っているはず、、と思ってたら、あった。 pd.read_html()でいける。ちょ</td></tr>…

<Python, pandas, Beautiful Soup> Excel から DataFrame への変換

PythonでエクセルExcelのデータを読み込んで、データフレームDataFrameにしたい。 最近のExcelさんは中身がバイナリでなくて、XMLってことは知っていたので、Beautiful Soupと組み合わせてみた。 と、いうことで、ファイル読み込み。 普通にリードしてみる。…

<Beautiful Soup> div + class + id での検索

divタグとid属性とclass属性を使った検索。 findAll()の引数argvのattrsにディクショナリdictを渡す。 In [47]: import requests In [48]: from bs4 import BeautifulSoup In [49]: url = 'http://nekoyukimmm.hatenablog.com/entry/2016/06/18/230837' In […

<Python, BeautifulSoup> 正規表現でマッチ

BeautifulSoupでタグtagを検索する時、正規表現regexpする方法。 こういうxmlデータがあったとき。 In [37]: s = ''' ...: <data> ...: <aaa>1</aaa> ...: <bbb>2</bbb> ...: <c55>3</c55> ...: </data> ...: ''' スープして、 In [38]: from bs4 import BeautifulSoup In [39]: soup = BeautifulSoup(s, 'x…

<Beautiful Soup> classを検索する時、

ちとはまったので、メモ。 classの値を使って検索する時は、class_と指定しないといけないっぽい。 In [26]: import urllib In [27]: from bs4 import BeautifulSoup In [28]: url = urllib.request.urlopen('http://nekoyukimmm.hatenablog.com/entry/2016/…

<Python, Beautiful Soup> FindAllの後の処理

Beautiful Soupの使い方を少しメモ。 こういうhtmlがあった時、 In [34]: xml = ''' ...: <d> ...: <name>Hage</name> ...: <qty>10</qty> ...: </d> ...: <d> ...: <name>Hige</name> ...: <qty>20</qty> ...: </d> ...: <d> ...: <name>Hoge</name> ...: <qty>12</qty> ...: </d> ...: <d> ...: <name>Haga</name> ...: <qty>15</qty> ...: </d>

<Python, Beautiful Soup> ちと、遊んでみた。

ちと、用事があり、Beautiful Soupでxmlをパース。 次のxmlコードがあった場合、 <Hatena> <PersonList> <Person> <Name>Taro</Name> <Hair>Hage</Hair> </Person> <Person> <Name>Jiro</Name> <Hair>Hage</Hair> </Person> <Person> <Name>Saburo</Name> <Hair>Non_Hage</Hair> </Person> <Person> <Name>Shiro</Name> <Hair>Hage</Hair> </Person> </personlist></hatena>

<Python, Beautiful Soup> html/xml パーサ (スープだって。)

html/xmlパーサ。 確かにソープって読んじゃうね。。。 とりあえず、存在を知ったので、メモメモ。 本家ページ。 Beautiful Soup: We called him Tortoise because he taught us. Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentation 翻訳。…