2020-05-09 16:54 已编辑华南理工大学 C++

关注

Python数据处理笔记

Python有多容易忘记, 如果不整理, 过一段时间就完全重新学了. 所以借着这一些练习, 把自己学过的东西记录并总结, 才方便日后回顾.

import pandas as pd
另外可以导入Series和DataFrame，因为这两个经常被用到：

from pandas import Series, DataFrame

DataFrame

生成DataFrame的若干种方式

从文件中来: 最常见的方式

手动生成: 可以根据自己的喜好来定制数据

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002, 2003], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
df = pd.DataFrame(data)

一种比较漂亮的生成方式, 里面用的state, year, pop 都成为了columns:

>>> frame.columns
Index(['pop', 'state', 'year'], dtype='object')

    pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002
5  3.2  Nevada  2003

但是这种方式通常只能适合于比较小的Dict, 如果有定制好的数据集, 那么就要通过dict() 生成各种各样的dictionary对象. 对dict的操作在这里按下不表

获取DataFrame的信息

可以把DataFrame当成一个Excel表格来看待

df2.index看对列序号:

df.columns每一列的名字

隐藏index columns , 只看df2的values:

print(df2.values)

"""
array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'test', 'foo'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'train', 'foo']], dtype=object)
"""

describe():数据总结, 返回数据的mean, std, count 等

df2.describe()

"""
         A    C    D
count  4.0  4.0  4.0
mean   1.0  1.0  3.0
std    0.0  0.0  0.0
min    1.0  1.0  3.0
25%    1.0  1.0  3.0
50%    1.0  1.0  3.0
75%    1.0  1.0  3.0
max    1.0  1.0  3.0
"""

df.T:翻转数据的行列,比较常用的地方如果要对行进行索引

sort_index 进行排序并输出:

print(df2.sort_index(axis=1, ascending=False))

数据中的类型用 dtype这个属性:

print(df2.dtypes)

索引的方式

逗号分开行与列, 如果要分别选取多个行和多个列, 使用['col1','col2'] 分别列出需要的行列

1. `['col']` 字典的访问方式和对象访问方式

data['Colorado']字典的访问方式 [] 内为要访问的Key

data.Colorado 对象访问方式

注意: 这两种方式都不可以使用数字访问

2. `iloc`根据行列的位置

data.loc['Colorado', ['two', 'three']]
data.loc[:,['two']] #选出two所在的列

3. `iloc` 根据行列的名称

同iloc实现相同的效果：

data.iloc[2, [3, 0, 1]]

4. `ix` 混合两种方式

Index 和 Column的选取/重命名

第一个参数为内容,

    groupedDF = pd.DataFrame(grouped, columns=['User Id', 'Rating'] , index= [for i in range (len(grouped))])

df.groupby()

根据'Pclass' 求平均

data.groupby('User Id')['Rating'].mean()
data.groupby('User Id').mean()['Rating']

全部评论

推荐最新楼层

05-07 08:48

门头沟学院 Java

Agent别被挂羊头卖狗肉的岗位骗了

家人们谁懂啊！刷到这个话题我真的要吐槽了。今年春招，我身边至少10个同学，想冲Agent赛道，结果瞎投岗位，不是被挂羊头卖狗肉的岗位骗了，就是投了根本不匹配自己的岗位，浪费了大把时间，最后0offer，还吐槽Agent赛道卷、没机会。真的别再瞎投了！Agent赛道早就不是什么新鲜东西了，岗位细分得明明白白，哪些是真风口、有发展、能学到东西，哪些是坑、纯打杂、没前途，早就清清楚楚。今天我就把这些坑全扒出来，再告诉大家哪些岗位真正值得冲，别再被忽悠了！先盘点Agent赛道最坑的3个岗位，投了就是浪费时间这些岗位，名字里都带着“Agent”，听起来高大上，实则纯纯打杂、没发展、学不到任何东西，应届生...

想做Agent可以做哪些...

点赞评论收藏

分享

05-07 20:40

已编辑

中南林业科技大学硬件开发

双非一本大三实习简历求指点

求各位佬们指点一下简历还有啥问题（技术方面本人只学习到七七八八，硬着头皮来试试）

我的求职进度条

点赞评论收藏

分享

04-19 23:54

宁夏大学 Java

27届现在0面怎么办

已经投了好多家了，小厂都没给面，是简历很差嘛，求指点😭😭😭

我的求职进度条

点赞评论收藏

分享

04-15 14:28

已编辑

27届学院本简历求指点

投的Java岗位，全是已读不回，孩子没招了😭

程序员小白条：学院+两段经典项目+技术栈，最大众的简历，纯看运气

点赞评论收藏

分享

昨天 22:27

已编辑

合肥经济学院运维工程师

25学院本还有救吗

工厂裁员，才干几天，就被辞了，工作是运维助理工程师，在苏州这边，我真不知道找什么岗位了。

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 这个offer值得去吗？ #

35426次浏览 238人参与

# 实习生工资多少才算正常？ #

73053次浏览 506人参与

# 在爱玛，骑向未来 #

41896次浏览 429人参与

# 如果春招能重来，我会___ #

31078次浏览 306人参与

# 实习生的蛐蛐区 #

954169次浏览 4808人参与

# 你会因为行情，降低找工作标准吗？ #

47948次浏览 337人参与

# 美团笔试 #

996301次浏览 5853人参与

# 蚂蚁集团笔试 #

31536次浏览 149人参与

# 非技术岗投递进展 #

178739次浏览 1324人参与

# 产品每日一题 #

99937次浏览 720人参与

# 快手工作体验 #

337395次浏览 2962人参与

# 那些我实习了才知道的事 #

294432次浏览 1813人参与

# 牛友的春节生活 #

122880次浏览 833人参与

# 你被哪些公司挂了？ #

196262次浏览 1070人参与

# 公司情报交流地 #

163487次浏览 1351人参与

# 腾讯工作体验 #

635539次浏览 3858人参与

# 记录我的毕业季 #

5588次浏览 130人参与

# 选offer应该考虑哪些因素 #

171711次浏览 1052人参与

# 华为池子有多大 #

178807次浏览 934人参与

# 苦尽甘来时，再讲来时路 #

81202次浏览 980人参与

# 产品实习，你更倾向大公司or小公司 #

227729次浏览 2147人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务