いい加減に覚えたい、よく使うPandas APIレファンレンス1
Pandasで毎回似たような操作するのに、「あれ、この前やったのに、なんだったっけ」と思い出せずに古いJupyter Notebookを検索しています。
いい加減覚えたいのでBlog記事にすることで記憶力を向上させたいと思いますw
生データ(.csv)でこんなデータセットがあったとします。
col1 | col2 | col3 | |
---|---|---|---|
0 | 東京 | 3 | x |
1 | 神奈川 | 4 | |
2 | 東京 | 3 |
col1で東京
が2つあります。1行目のcol3にはxという値があり、3行目には何もありません。1行目の東京を残したい場合にはdrop_duplicatesを使い、col1に基づいた重複としてあげたいので、引数にsubset='col1'と渡してあげます。
df.drop_duplicates(subset='col1', inplace=True)
col1 | col2 | col3 | |
---|---|---|---|
0 | 東京 | 3 | x |
1 | 神奈川 | 4 |
df.drop_duplicates(subset='col1', keep='last', inplace=True)
keep='last'を渡すと、この場合、3行目がキープされます。
col1 | col2 | col3 | |
---|---|---|---|
1 | 神奈川 | 4 | |
2 | 東京 | 3 |
df.drop_duplicates(subset='col1', keep=False, inplace=True)
keep=Falseだと全部の重複がドロップされます。
col1 | col2 | col3 | |
---|---|---|---|
1 | 神奈川 | 4 |
期待通り神奈川だけが残ってますね。