Day28:Pandas数据清洗
在前一节中我们学习了如何从庞大的表格中筛选我们所需的数据,如何处理与计算这些数据,但这一切都是基于数据是一个完整无误的状态,否则我们需要对数据进行清洗才能进行分析统计。在数据分析中,数据清洗是一个重要的步骤,用于处理数据中的空值、重复值、错误格式和错误数据等问题。Pandas提供了一些函数用于数据清洗,让我们一起来看看。
1. 处理空值
空值是指数据中的缺失值或空白值。处理空值的常用函数包括:
isnull()
:检测空值,返回布尔型的DataFrame/Series。notnull()
:检测非空值,返回布尔型的DataFrame/Series。fillna(value)
:填充空值,使用指定的值替代空值,通过可以考虑均值、中位数、众数等。dropna()
:删除包含空值的行或列。
import pandas as pd
data = {
'A': [1, 2, None, 4, 5],
'B': ['a', 'b', None, 'd', 'e']
}
df = pd.DataFrame(data)
# 检测空值
print(df.isnull())
# 填充空值
df.fillna(0, inplace=True)
print(df)
2. 处理重复值
重复值是指数据中出现多次的相同值。处理重复值的常用函数包括:
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
大模型-AI小册 文章被收录于专栏
1. AI爱好者,爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生,给实验室搬砖的uu,强烈建议你花时间学完这个,后续搬砖比较猛 4. 任何对编程感兴趣的,且愿意掌握一门技能的人