03-20 10:08 已编辑武汉理工大学测试开发发布于广东

关注

Pandas简介

Pandas 是一个强大的 Python 库，专门用于数据操作和分析。它提供了高效的数据结构（如 DataFrame 和 Series），使得处理结构化数据（如 CSV 文件、Excel 表格、SQL 数据库等）变得非常简单。Pandas 是数据科学、机器学习和数据分析领域的核心工具之一。

以下是关于 Pandas 的详细介绍和使用指南：

1. Pandas 的核心数据结构

Pandas 提供了两种主要的数据结构：

Series：一维数组，类似于带标签的列表。
DataFrame：二维表格，类似于 Excel 表格或 SQL 表。

示例：创建 Series 和 DataFrame

import pandas as pd

# 创建 Series
s = pd.Series([1, 3, 5, 7, 9])
print(s)

# 创建 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

2. 数据读取与写入

Pandas 支持从多种文件格式读取数据，并可以将数据写入文件。

读取数据

# 从 CSV 文件读取
df = pd.read_csv('data.csv')

# 从 Excel 文件读取
df = pd.read_excel('data.xlsx')

# 从 SQL 数据库读取
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql_query('SELECT * FROM table_name', conn)

写入数据

# 写入 CSV 文件
df.to_csv('output.csv', index=False)

# 写入 Excel 文件
df.to_excel('output.xlsx', index=False)

# 写入 SQL 数据库
df.to_sql('table_name', conn, if_exists='replace', index=False)

3. 数据查看与探索

Pandas 提供了多种方法查看和探索数据。

查看数据

# 查看前 5 行
print(df.head())

# 查看后 5 行
print(df.tail())

# 查看数据信息
print(df.info())

# 查看统计信息
print(df.describe())

数据筛选

# 筛选列
print(df['Name'])

# 筛选行
print(df[df['Age'] > 30])

# 多条件筛选
print(df[(df['Age'] > 25) & (df['City'] == 'New York')])

4. 数据清洗

数据清洗是数据分析的重要步骤，Pandas 提供了丰富的功能来处理缺失值、重复值和异常值。

处理缺失值

# 检查缺失值
print(df.isnull())

# 删除缺失值
df_cleaned = df.dropna()

# 填充缺失值
df_filled = df.fillna(0)

处理重复值

# 检查重复值
print(df.duplicated())

# 删除重复值
df_unique = df.drop_duplicates()

5. 数据操作

Pandas 支持多种数据操作，如排序、分组、合并等。

排序

# 按列排序
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted)

分组

# 按列分组并计算平均值
df_grouped = df.groupby('City')['Age'].mean()
print(df_grouped)

合并

# 合并两个 DataFrame
df1 = pd.DataFrame({'A': ['A0', 'A1'], 'B': ['B0', 'B1']})
df2 = pd.DataFrame({'A': ['A2', 'A3'], 'B': ['B2', 'B3']})
df_merged = pd.concat([df1, df2])
print(df_merged)

6. 数据可视化

Pandas 集成了 Matplotlib，可以直接绘制图表。

绘制图表

import matplotlib.pyplot as plt

# 绘制柱状图
df['Age'].plot(kind='bar')
plt.show()

# 绘制散点图
df.plot(kind='scatter', x='Age', y='City')
plt.show()

7. 高级功能

Pandas 还支持许多高级功能，如时间序列分析、数据透视表等。

时间序列分析

# 创建时间序列
dates = pd.date_range('20230101', periods=6)
df_time = pd.DataFrame({'Date': dates, 'Value': [1, 3, 5, 7, 9, 11]})
print(df_time)

# 按时间筛选
print(df_time[df_time['Date'] > '20230103'])

数据透视表

# 创建数据透视表
df_pivot = df.pivot_table(values='Age', index='City', aggfunc='mean')
print(df_pivot)

8. 性能优化

对于大规模数据集，Pandas 的性能可能会成为瓶颈。以下是一些优化方法：

使用 dtype 指定数据类型：减少内存占用。
使用 chunksize 分块读取数据：避免内存不足。
使用 NumPy 或 Dask：替代 Pandas 处理超大规模数据。

总结

Pandas 是 Python 中用于数据操作和分析的核心库。
它提供了 Series 和 DataFrame 两种主要数据结构。
支持数据读取、清洗、操作、可视化和高级分析。
适用于数据科学、机器学习和数据分析等领域。

AI自动测试化入门到精通文章被收录于专栏

如何做AI自动化测试

全部评论

推荐最新楼层

03-19 10:19

美团_到店_前端工程师

美团内推美团内推码

美团内推啦~ 内推码：SBH55RV 投递链接： https://zhaopin.meituan.com/m/campus?staffSsoId=20507416 在美团待了挺久了，感觉 美团值得拥有，祝大家一切顺利嗷～ 加入美团，享受多元文化的工作环境，拓宽你的人际交往圈！ 以下是面经分享： 第一轮技术面 自我介绍 强缓存与协商缓存机制实现原理 HTTP/1、HTTP/2、HTTP/3的核心区别 Set与WeakSet的区别及弱引用特性 闭包与V8垃圾回收机制 React Hooks的设计动机及函数组件与类组件的差异 React Fiber架构解决的问题及实现思路 手写发布订阅模式 实...

点赞评论收藏

04-14 19:39

上海交通大学后端

网易互娱线下面试

前几天被网易互娱约一面了，居然是线下面试，之前面过的都是线上的，有同样线下面的uu吗？线下面需要注意什么吗

卖挂面鸡蛋不锈钢盆：注意形象

网易游戏一面161人在聊

点赞评论收藏

03-20 11:26

University of Birmingham Java

SpringBoot程序怎么看后端接口的链接地址？

一：本地地址从@RequestMapping中进入"Go to declaration or usages"，能从.http文件中查看，这个文件往往是自动生成的。二：服务器地址往往在本地地址和服务器地址叠加的基础上，还要注意Nginx路径映射和Spring Boot的context-path。三：api网关地址往往向公司申请，代码中也有体现。

点赞评论收藏

03-20 21:32

360集团_Android开发工程师(准入职员工)

360集团内推-360集团内推码

说说入职体验，提离职了~不过还是希望帮360内推一下~我小时候，第一次接触电脑，学会电脑打字时，在见到杀毒软件的时候，也从来没有想到自己会有一天会去入职一家做安全的公司。 如果不是因为老公以前在腾讯做过qq医生（也就是大家现在用的腾讯电脑管家），没有他的牵线搭桥，我也不可能进入360这样的企业。 在360这样的企业里，管理上非常的扁平化，没有严苛的上下级关系，这一点就非常让人舒服。 同时公司也会给员工很多成长和锻炼的机会，比如说定期的各类型专业知识的培训啊，还有很多接触大项目的机会。只要你肯学习和努力，就一定会有收获。 同事之间的关系也比较融洽，没有其他企业的勾心斗角，尔虞我诈，更多的是同...

360集团公司福利 302人发布

点赞评论收藏

03-22 10:28

已编辑

中国科技大学嵌入式工程师

嵌入式开发工程师笔试面试指南-计算机网络

计算机网络基础1 网络分层结构⭐⭐⭐⭐⭐计算机网络体系大致分为三种，OSI七层模型、TCP/IP四层模型和五层模型。一般面试的时候考察比较多的是五层模型。五层模型：应用层、传输层、网络层、数据链路层、物理层。应用层：为应用程序提供交互服务。在互联网中的应用层协议很多，如域名系统DNS、HTTP协议、SMTP协议等。传输层：负责向两台主机进程之间的通信提供数据传输服务。传输层的协议主要有传输控制协议TCP和用户数据协议UDP。网络层：选择合适的路由和交换结点，确保数据及时传送。主要包括IP协议。数据链路层：在两个相邻节点之间传送数据时，数据链路层将网络层交下来的 IP 数据报组装成帧，在两个相邻...

嵌入式/C++面试八股文

点赞评论收藏

全站热榜

创作者周榜

正在热议