第七次训练:Pandas扩展¶
Series常用属性¶
以下是 Series 对象中常用的一些属性:
| 属性 | 返回值 |
|---|---|
name |
Series 对象的名称 |
dtype |
Series 对象的数据类型 |
shape |
Series 对象的维度,以形式为 (行数,...) 的元组表示 |
index |
作为 Series 对象组成部分的 Index 对象 |
values |
Series 对象中的数据 |
总体而言,pandas 对象内部的数据存储主要采用 NumPy 数组。然而,对于某些数据类型,pandas 会基于 NumPy 构建自己的 arrays. 。因此,根据数据类型的不同,values 可能是 pandas.array 或 numpy.array 对象。
Index 常用属性¶
以下是 Index 对象中常用的一些属性:
| 属性 | 返回值 |
|---|---|
name |
Index 对象的名称 |
dtype |
Index 对象的数据类型 |
shape |
Index 对象的尺寸 |
values |
Index 对象中的数据 |
is_unique |
检查 Index 对象是否包含所有唯一值 |
我们可以像处理 Series 对象一样,检查底层数据的类型:
DataFrame 常用属性¶
以下是一些常用的属性:
| 属性 | 返回值 |
|---|---|
dtypes |
每列的数据类型 |
shape |
DataFrame 对象的维度,以形式为 (行数,列数) 的元组表示 |
index |
用于遍历 DataFrame 对象行的 Index 对象 |
columns |
列的名称(作为 Index 对象) |
values |
DataFrame 对象中的数据 |
empty |
检查 DataFrame 对象是否为空 |
可以通过 index 属性访问数据框(dataframe)各行对应的 Index 对象(其操作方式与 Series 对象相同):
pd.read_csv常用属性¶
Pandas通常能根据输入数据非常准确地确定应使用的选项,因此我们通常无需在调用函数时添加参数;不过,若需要,系统提供了多种可选参数,其中包括以下几种:
| 参数 | 用途 |
|---|---|
sep |
指定分隔符 |
header |
列名称所在行编号;默认设置为 pandas 会自动推断列名称是否存在 |
names |
用作标题的列名称列表 |
index_col |
用作索引的列 |
usecols |
指定要读取的列 |
dtype |
指定列的数据类型 |
converters |
指定用于转换特定列中数据的函数 |
skiprows |
要跳过的行数 |
nrows |
一次读取的行数(与 skiprows 结合使用可逐位读取文件) |
parse_dates |
自动将包含日期的列解析为日期时间对象 |
chunksize |
用于分块读取文件 |
compression |
用于直接读取压缩文件,无需预先解压 |
encodi方法传递index=False`: |
其他部分¶
关于Pandas其他功能的应用,请自行总结作为课程巩固内容