当前位置:Gxlcms > Python > python去重函数是什么

python去重函数是什么

时间:2021-07-01 10:21:17 帮助过:105人阅读

数据去重可以使用duplicated()和drop_duplicates()两个方法。

DataFrame.duplicated(subset = None,keep =‘first’)返回boolean Series表示重复行

参数:

subset:列标签或标签序列,可选

仅考虑用于标识重复项的某些列,默认情况下使用所有列

keep:{‘first’,‘last’,False},默认’first’

first:标记重复,True除了第一次出现。

last:标记重复,True除了最后一次出现。

错误:将所有重复项标记为True。

相关推荐:《Python基础教程》

  1. import numpy as np
  2. import pandas as pd
  3. from pandas import Series, DataFrame
  4. df = pd.read_csv('./demo_duplicate.csv')
  5. print(df)
  6. print(df['Seqno'].unique()) # [0. 1.]
  7. # 使用duplicated 查看重复值
  8. # 参数 keep 可以标记重复值 {'first','last',False}
  9. print(df['Seqno'].duplicated())
  10. '''
  11. 0 False
  12. 1 True
  13. 2 True
  14. 3 True
  15. 4 False
  16. Name: Seqno, dtype: bool
  17. '''
  18. # 删除 series 重复数据
  19. print(df['Seqno'].drop_duplicates())
  20. '''
  21. 0 0.0
  22. 4 1.0
  23. Name: Seqno, dtype: float64
  24. '''
  25. # 删除 dataframe 重复数据
  26. print(df.drop_duplicates(['Seqno'])) # 按照 Seqno 来去重
  27. '''
  28. Price Seqno Symbol time
  29. 0 1623.0 0.0 APPL 1473411962
  30. 4 1649.0 1.0 APPL 1473411963
  31. '''
  32. # drop_dujplicates() 第二个参数 keep 包含的值 有: first、last、False
  33. print(df.drop_duplicates(['Seqno'], keep='last')) # 保存最后一个
  34. '''
  35. Price Seqno Symbol time
  36. 3 1623.0 0.0 APPL 1473411963
  37. 4 1649.0 1.0 APPL 1473411963
  38. '''

以上就是python去重函数是什么的详细内容,更多请关注Gxl网其它相关文章!

人气教程排行