Day28:Pandas数据清洗

alt

在前一节中我们学习了如何从庞大的表格中筛选我们所需的数据,如何处理与计算这些数据,但这一切都是基于数据是一个完整无误的状态,否则我们需要对数据进行清洗才能进行分析统计。在数据分析中,数据清洗是一个重要的步骤,用于处理数据中的空值、重复值、错误格式和错误数据等问题。Pandas提供了一些函数用于数据清洗,让我们一起来看看。

1alt

1. 处理空值

空值是指数据中的缺失值或空白值。处理空值的常用函数包括:

  • isnull():检测空值,返回布尔型的DataFrame/Series。
  • notnull():检测非空值,返回布尔型的DataFrame/Series。
  • fillna(value):填充空值,使用指定的值替代空值,通过可以考虑均值、中位数、众数等。
  • dropna():删除包含空值的行或列。
import pandas as pd

data = {
    'A': [1, 2, None, 4, 5],
    'B': ['a', 'b', None, 'd', 'e']
}
df = pd.DataFrame(data)

# 检测空值
print(df.isnull())

# 填充空值
df.fillna(0, inplace=True)
print(df)

2alt

2. 处理重复值

重复值是指数据中出现多次的相同值。处理重复值的常用函数包括:

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

大模型-AI小册 文章被收录于专栏

1. AI爱好者,爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生,给实验室搬砖的uu,强烈建议你花时间学完这个,后续搬砖比较猛 4. 任何对编程感兴趣的,且愿意掌握一门技能的人

全部评论

相关推荐

1 1 评论
分享
牛客网
牛客企业服务