Life is Like a Boat

忘備録や経済、投資、プログラミングに関するメモやtipsなど

いい加減に覚えたい、よく使うPandas APIレファンレンス1

Pandasで毎回似たような操作するのに、「あれ、この前やったのに、なんだったっけ」と思い出せずに古いJupyter Notebookを検索しています。

いい加減覚えたいのでBlog記事にすることで記憶力を向上させたいと思いますw

生データ(.csv)でこんなデータセットがあったとします。

col1 col2 col3
0 東京 3 x
1 神奈川 4
2 東京 3

col1で東京 が2つあります。1行目のcol3にはxという値があり、3行目には何もありません。1行目の東京を残したい場合にはdrop_duplicatesを使い、col1に基づいた重複としてあげたいので、引数にsubset='col1'と渡してあげます。

df.drop_duplicates(subset='col1', inplace=True)

col1 col2 col3
0 東京 3 x
1 神奈川 4

df.drop_duplicates(subset='col1', keep='last', inplace=True)

keep='last'を渡すと、この場合、3行目がキープされます。

col1 col2 col3
1 神奈川 4
2 東京 3

df.drop_duplicates(subset='col1', keep=False, inplace=True) keep=Falseだと全部の重複がドロップされます。

col1 col2 col3
1 神奈川 4

期待通り神奈川だけが残ってますね。