博客
关于我
Pandas库常用方法、函数集合
阅读量:794 次
发布时间:2023-02-26

本文共 1935 字,大约阅读时间需要 6 分钟。

Pandas是Python数据分析处理的核心第三方库,它以二维数组形式模拟Excel表格,封装了大量实用函数和方法,帮助数据分析师对数据集进行操作和分析。本文将系统介绍Pandas中常用功能,方便用户快速查找和应用。

1. 数据读取与写入

Pandas提供丰富的数据读取和写入功能,支持多种文件格式:

  • read_csv:读取CSV文件,适合处理文本数据。
  • to_csv:将数据框导出为CSV文件,便于数据输出。
  • read_excel:读取Excel文件,支持多工作表。
  • to_excel:将数据框写入Excel文件,格式美观。
  • read_json:读取JSON文件,支持复杂数据结构。
  • to_json:将数据转换为JSON格式。
  • read_html:解析网页中的HTML表格数据。
  • to_html:将数据生成网页表格。
  • read_clipboard:读取剪切板中的数据。
  • to_clipboard:将数据导出到剪切板。
  • to_latex:将数据转换为LaTeX格式。
  • read_sasread_spssread_stata:读取统计软件格式数据。
  • read_sql:通过SQL查询读取数据(需数据库连接)。
  • to_sql:将数据框写入数据库。

2. 数据连接、合并与重塑

Pandas支持数据操作,类似SQL:

  • merge:按键连接多个数据框,实现join操作。
  • concat:合并多个数据框(类似UNION)。
  • pivot:按行或列重塑数据框。
  • pivot_table:创建数据透视表。
  • cutqcut:将数值分割为离散区间。
  • crosstab:生成交叉表。
  • join:通过索引或键合并数据框。
  • stackunstack:将数据框转换为层次化Series或反之。
  • append:将数据追加到数据框末尾。

3. 分组、聚合、转换与过滤

Pandas支持灵活的分组操作:

  • groupby:按列或多列分组。
  • agg:对每组应用聚合函数。
  • transform:对每组应用转换函数。
  • rank:计算分组内的排名。
  • filter:根据分组属性筛选数据。
  • sum、mean、median、min、max等:计算分组统计量。
  • count、size:统计分组中非缺失值数量。
  • std、var:计算标准差和方差。
  • describe:生成分组统计摘要。
  • first、last:获取分组首尾元素。
  • nunique、cumsum、cummin、cummax、cumprod:计算分组累积统计量。

4. 数据清洗

Pandas提供强大的数据清洗功能:

  • dropna、fillna:处理缺失值。
  • interpolate:对缺失值进行插值。
  • duplicated、drop_duplicates:处理重复数据。
  • str.strip、str.lower、str.upper、str.replace:字符串操作。
  • astype:将数据类型转换。
  • sort_values:排序数据框。
  • rename、drop:重命名或删除列/行。

5. 数据可视化

Pandas提供丰富的可视化功能:

  • plot.area、bar、barh、box、density、hexbin、hist、line、pie、scatter:绘制基础图表。
  • plot_andrews_curves:绘制多变量数据曲线。
  • autocorrelation_plot:分析时间序列自相关性。
  • bootstrap_plot:评估统计数据不确定性。
  • lag_plot:绘制时滞图。
  • parallel_coordinates:展示多变量数据关系。
  • scatter_matrix:生成散点矩阵图。
  • table:绘制表格可视化。

6. 日期与时间处理

Pandas对日期时间数据处理功能强大:

  • to_datetime、date_range:日期时间转换和生成。
  • to_timedelta、timedelta_range:时间间隔处理。
  • shift、resample、asfreq:时间序列处理。
  • cut:将连续数据划分为离散箱。
  • period_range:生成周期范围。
  • infer_freq:推断时间频率。
  • tz_localize、tz_convert:时区操作。
  • dt属性:访问日期时间属性。
  • day_name、month_name:获取日期信息。
  • total_seconds:计算时间间隔总秒数。
  • rolling、expanding:滚动和展开窗口操作。
  • at_time、between_time:时间点和时间段查询。
  • truncate:截断时间序列数据。

通过以上功能,Pandas为数据分析提供了强大的工具,能够高效处理数据操作和分析任务。

转载地址:http://wvvfk.baihongyu.com/

你可能感兴趣的文章