Pandas 基础入门¶

pandas（发音：/ˈpændəz/）是 Python 语言开发的用于数据处理（data manipulation）和数据分析（data analysis）的第三方库。它擅长处理数字型数据和时间序列数据，当然也文本型的数据也能轻松处理。

pandas官方介下：

Pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language.

名字来源¶

Pandas 的命名来源并非「熊猫」，而是来自于计量经济学中术语面板数据（Panel data），它是一种数据集的结构类型，具有横截面和时间序列两个维度。不过，我们不用必须了解它，它只是一种灵感、思想来源。

正如它的强大和灵活，从名字中「熊猫」的意义出发让人觉得可爱，人人都喜欢它。「熊猫」作为国宝，我们中国人更习。应该认真学习Pandas。

Pandas 用途¶

Pandas 对数据的处理是为数据的分析服务的，它所提供的各种数据处理方法、工具是基于数理统计学出发，包含了日常应用中的众多数据分析方法。我们学习它不光掌控它的相应操作技术，还要从它的处理思路中学习数据分析的理论和方法。

特别地，想成为或者转行数据分析师、数据产品经理、数据开发等和数据相关工作者的同学，学习 Pandas 更能让你深入数据理论和实践，更好地理解和应用数据。

Pandas 可以轻松应对白领们日常工作中的各种表格数据处理，还应用在金融、统计、数理研究、物理计算、社会科学、工程等领域里。

Pandas 可以实现复杂的处理逻辑，这些往往是 Excel 等工具无法处理的，还可以自动化、批量化，对于相同的大量的数据处理我们不需要重复去工作。

Pandas 可以做到非常震撼的可视化，它对接众多的高颜值可视化库，可以做出各种各样可视化图形。

Pandas 数据特征¶

Pandas 适合处理一个规正的二维数据（一维也可以，应用较少），即有 N 行 N 列，类似于 SQL 执行后产出的，或者无合并单元格Excel 表格这样的数据。它可以把多个文件的数据合并在一起，如果结构不一样，也可以经过处理进行合并。

这里说的二维数据是指，像一个矩形的平面在横向和纵向被分隔成多个格

pandas图形标识

基本功能¶

常用的基本功能有：

从 Excel、CSV、网页、SQL、剪贴板等读取文件
据合并多个文件或者 sheet 数据，拆分数据为独立文件
数据清洗，如去重、缺失值、填充默认值、格式补全、极端值处理等。
建立有效的索引
支持大体量数据
按一定业务逻辑插入计算后的列、删除列
灵活方便的数据查询、筛选
分组聚合数据，可独立指定分组后的各字段计算方式
数据的转置，如行转列列转行变更处理
连接数据库，直接 SQL 查询数据并进行处理
对时序数据进行分组采样，如按月、按季、按工作小时，也可以自定义周期，如工作日
窗口计划，移动窗口统计、日期移动等
灵活的可视化图表输出，支持所有的统计图形
融合在表格的样式风格，提高数据识别效率

对Pandas的常规做法是将pandas导入，并使用简写np:

import pandas as pd

In [ ]:

Copied!

#常规引用并查看版本
import pandas as pd
pd.__version__
#常规引用并查看版本
import pandas as pd
pd.__version__