<Python, pandas> データフレーム(DataFrame)で sort と uniq
データフレームDataFrame
で sort
と uniq
。
uniq
はpandas
ではdrop_duplicates
。
In [1212]: df = pd.DataFrame({'a':[2,3,1,5,8,9,0,10], 'b':[1,1,1,2,3,4,5,5]}) In [1213]: df Out[1213]: a b 0 2 1 1 3 1 2 1 1 3 5 2 4 8 3 5 9 4 6 0 5 7 10 5 In [1214]: df.sort_values(by='a') # 16/06/06 修正。 pandas.0.17では、sortは廃止。 Out[1214]: a b 6 0 5 2 1 1 0 2 1 1 3 1 3 5 2 4 8 3 5 9 4 7 10 5 In [1215]: df.drop_duplicates(subset='b') Out[1215]: a b 0 2 1 3 5 2 4 8 3 5 9 4 6 0 5
sort
の時とdrop_duplicates
の時で、columns
を選ぶオプション名が異なる。
sort
の時はcolumns
drop_duplicates
の時はsubset
統一してほしいね。。。
drop_duplicates
の教科書。
pandas.DataFrame.drop_duplicates — pandas 0.18.1 documentation
sort
の教科書。
pandas.DataFrame.sort — pandas 0.18.1 documentation