![Python金融数据挖掘与分析实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/160/42557160/b_42557160.jpg)
上QQ阅读APP看书,第一时间看更新
3.2.2 数据概览
本节将以线上购物数据Income_n_onlineshopping为例介绍如何进行数据概览。
1)使用pandas中的read_csv读取数据。
import pandas as pd # 引入pandas库 rawdata = pd.read_csv('./Income_n_onlineshopping.csv') # 读取数据
2)查看部分数据,头五行和尾五行的数据结果如图3-2和图3-3所示。
![](https://epubservercos.yuewen.com/4BD184/22070570401553906/epubprivate/OEBPS/Images/3-2.jpg?sign=1739503099-mOoJHmHn0QiIgHTESWTRcMXQVq2xnsoo-0-f3930d8c6dda2b45b7997b578ac687aa)
图3-2 输出数据头五行
![](https://epubservercos.yuewen.com/4BD184/22070570401553906/epubprivate/OEBPS/Images/3-3.jpg?sign=1739503099-XBt9fzuibVQ27Ae0pZ3XoQoK1jJ3wNt6-0-6c65258815dded8f4ea923d835dbdb61)
图3-3 输出数据尾五行
rawdata.head() # 打印头五行 rawdata.tail() # 打印尾五行
3)检查数据类型,结果如图3-4所示。
rawdata.dtypes
![](https://epubservercos.yuewen.com/4BD184/22070570401553906/epubprivate/OEBPS/Images/3-4.jpg?sign=1739503099-thMs7QiK25IVE7rrnlayECbuJDNgYAVi-0-3871ce9ac622823ada801cdaf16a60d1)
图3-4 输出数据类型
![](https://epubservercos.yuewen.com/4BD184/22070570401553906/epubprivate/OEBPS/Images/3-5.jpg?sign=1739503099-nTV40qyHmbiSz4gpwOUwO5DMskXNf8yK-0-babb693c67d8dc7c035188ec56183d96)
图3-5 输出数据的范围
4)对数据进行简单的统计分析,从而对数据有一个整体认知。清洗数据前看一下数据是很有用的。
print(rawdata.describe())
输出数据集每列的count(数量)、mean(平均值)、std(标准差)、min(最小值)、25%/50%/75%(分位数)、max(最大值),如图3-5所示。由于Region与Online Shopper两列不是数字,统计中并未囊括。
5)检查表格的行数和列数或列名。
检查表格行数和列数的代码如下:
nrow,ncol = rawdata.shape # 可以将行数和列数保存到两个变量带之后调用
检查列名的代码如下:
colNames = rawdata.columns.tolist() print(colNames) ['Region', 'Age', 'Income', 'Online Shopper']