Excel数据读取
在讲解数据读取之前,先来介绍下Excel的文件格式,常见的Excel格式后缀有*.xlsx、*.xlsm、*.csv。当然还有一些其他的格式,数据分析师常用的就是上面三种。*.xlsx是最为常见的Excel文件格式,它表示日常使用的表格文件,一般新建的excel文件默认采用此格式;*.xlsm是保存了宏文件的Excel文件格式,这类文件在打开时往往会提示是否启用宏,既然说到了宏,那就大体解释下,宏是使用Excel编程语言编写的能够实现一系列操作的功能,可以简单的理解为自定义的功能;*.csv是文本格式下保存的表格数,好处就是格式是固定的,用过Excel的都知道Excel的变量类型是特别容易混乱的,而csv格式的数据是文本型,也就是格式可以保持不变,可以将csv理解为Excel中的txt。csv格式的优点,使得数据分析师工作中的数据查询导出的文件,一般都是csv文件,但是csv文件在处理数据上具有天然的劣势,那就是只能保存文本,这就出现了两个问题:只保留公式计算的结果,无法保留公式;只保留一个工作表,其余工作表的数据均被删除。前一个问题使得只保留计算结果,后期想更改十分复杂;后者只能在一个工作表中处理数据,一旦放到了其他工作表或者保存了其他工作表,必然出现数据丢失问题。所以数据分析师的日常工作就是使用SQL查询数据,导出csv格式的表格数据,再将csv格式的数据导入Excel文件,保存在*.xlsx格式的文件,再进行分析。
刚才提到,csv格式的文件能够完整保留单元格格式,但是基本不具备分析的功能;xlsx格式的文件,能够进行各种各样的分析,但是在单元格格式上做的并不好。解释下单元格格式,在Excel中,往往每一列数据有着同样的单元格格式,所谓单元格格式,就是这个单元格保存的是什么数据类型的数据,如数字、文本、日期、百分比等等。Excel经常会把格式混淆,最严重的就是长数字,excel通常会把其写成科学计数法,并且无法修改。excel的例子
身份证号 | 姓名 |
---|---|
7.35458E+17 | 赵 |
7.56906E+17 | 钱 |
5.51078E+17 | 孙 |
身份证号经常被读错,而且没有修改的方法,即使再修改成“文本”,也不会
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
数据分析入门技术篇