Python数据科学教程：Pandas库（高性能数据处理和数据分析）

terry 3年前 (2023-09-25) 阅读数 143 #后端开发

Pandas是一个开源Python库，具有强大的数据结构，用于高性能数据处理和数据分析。 Python 和 Pandas 在各种学术和商业领域都有应用，包括金融、经济、统计、广告、网络分析等。通过 Pandas，我们可以完成数据处理和分析的五个典型步骤：加载、组织、操作、建模和分析数据，无论数据源如何。

以下是Pandas专门为数据处理和数据分析工作设计的一些重要功能。

Pandas 的主要功能是 -

具有标准和自定义索引的快速高效的 DataFrame 对象。
用于将数据从各种文件格式加载到内存数据对象中的工具。
数据对齐和缺失数据的综合处理。
重置和轮换日期集。
基于标签的大数据集分片、索引和子集。
数据结构中的列可以删除或插入。
通过数据分组进行聚合和转换。
高性能数据合并和连接。
时间序列功能。

Pandas 处理以下三种数据结构 -

Dimension
Series
Dataframe

这些数据结构构建在 Num 之上，因此快速高效。

维度和描述注释

使用这些数据结构的最佳方法是在具有较低维度数据结构的容器中构建高维度数据。例如，DataFrame 是Series 的容器，Panel 是Series 的容器。

数据结构	尺寸	描述
系列	1	尺寸不可更改的一维标记的均匀阵列。
DataFrame	2	通用二维标签，可变大小的表结构，可能具有非统一类型的列。

DataFrame 应用广泛，是最重要的数据结构。

系列

系列（系列）是具有同质数据结构的一维数组。例如，以下系列是整数集：10、23、56...。

例如

10    23    56    17    52    61    73    90    26    72

Shell系列的关键点是 
 数据同质 
 大小不可变   可变数据a  DataFrame (数据帧
 ) 是一个具有异构数据的二维数组。例如，姓名 年龄 性别 分数 
Steve 32 男 
 Fe男 4.6
Vin 45 男 3.9
Katie 38 女 2.78
此表代表组织销售团队的整体绩效数据。数据以行和列表示。每列代表一个属性，每行代表一个人。 
列的数据类型 
四列的数据类型如下 - 
列名称 数据类型 
名称 ❀年龄 数字 
性别  弦
 分数  浮点数 
 数据框的关键点 - 
 异构数据  变量  变量  大小  在接下来的章节中，我们将看到许多 Python 的示例 熊猫 图书馆和数据科学工作使用。