いい加減に覚えたい、よく使うPandas APIレファンレンス1

Pandasで毎回似たような操作するのに、「あれ、この前やったのに、なんだったっけ」と思い出せずに古いJupyter Notebookを検索しています。

いい加減覚えたいのでBlog記事にすることで記憶力を向上させたいと思いますw

生データ(.csv)でこんなデータセットがあったとします。

col1で東京 が2つあります。1行目のcol3にはxという値があり、3行目には何もありません。1行目の東京を残したい場合にはdrop_duplicatesを使い、col1に基づいた重複としてあげたいので、引数にsubset='col1'と渡してあげます。

df.drop_duplicates(subset='col1', inplace=True)

	col1	col2	col3
0	東京	3	x
1	神奈川	4

df.drop_duplicates(subset='col1', keep='last', inplace=True)

keep='last'を渡すと、この場合、3行目がキープされます。

	col1	col2	col3
1	神奈川	4
2	東京	3

df.drop_duplicates(subset='col1', keep=False, inplace=True) keep=Falseだと全部の重複がドロップされます。

	col1	col2	col3
1	神奈川	4

期待通り神奈川だけが残ってますね。

Life is Like a Boat