読者です 読者をやめる 読者になる 読者になる

<Python, pandas> データフレーム(DataFrame)で sort と uniq

Python pandas

データフレームDataFramesortuniq
uniqpandasではdrop_duplicates

In [1212]: df = pd.DataFrame({'a':[2,3,1,5,8,9,0,10], 'b':[1,1,1,2,3,4,5,5]})

In [1213]: df
Out[1213]:
    a  b
0   2  1
1   3  1
2   1  1
3   5  2
4   8  3
5   9  4
6   0  5
7  10  5

In [1214]: df.sort_values(by='a')     # 16/06/06 修正。 pandas.0.17では、sortは廃止。
Out[1214]:
    a  b
6   0  5
2   1  1
0   2  1
1   3  1
3   5  2
4   8  3
5   9  4
7  10  5

In [1215]: df.drop_duplicates(subset='b')
Out[1215]:
   a  b
0  2  1
3  5  2
4  8  3
5  9  4
6  0  5

sortの時とdrop_duplicatesの時で、columnsを選ぶオプション名が異なる。
sortの時はcolumns drop_duplicatesの時はsubset
統一してほしいね。。。

drop_duplicatesの教科書。
pandas.DataFrame.drop_duplicates — pandas 0.18.1 documentation

sortの教科書。
pandas.DataFrame.sort — pandas 0.18.1 documentation