首页
Preview

高级数据整理:15个Pandas数据分析的高级函数

图片来源:https://github.com/YueErro/pandas

Pandas是每个数据爱好者的终极武器。这个Python中的强大库使数据处理和探索变得轻松愉悦。直观的语法和广泛的功能可以将原始数据转化为有价值的洞察力,这对于任何与数据工作的人都是至关重要的。Pandas,你让我们的数据之旅变得完整。

在本文中,我们将使用一个名为“Palmer Penguins”的流行数据集,介绍Pandas中的20个高级函数,并提供如何使用它们的示例。

1. apply()

此函数用于将函数应用于DataFrame或Series的每个元素或行/列。

import pandas as pd
penguins_df = pd.read_csv("penguins.csv") # read_csv is also a function to read csv file
penguins_df["bill_length_mm"] = penguins_df["bill_length_mm"].apply(lambda x: x/10)

Apply()函数

2. nunique()

此函数用于计算DataFrame列中唯一值的数量。

penguins_df["species"].nunique()

在此输出中,我们仅有3个独特物种。

3. sort_values()

此函数用于按升序或降序排序一个或多个列的DataFrame。

penguins_df.sort_values("body_mass_g", ascending=False)

4. rename()

此函数用于更改DataFrame的列名称。

penguins_df = penguins_df.rename(columns={"species":"penguin_species"})

5 . groupby()

此函数用于按一个或多个列对DataFrame中的数据进行分组,然后对分组数据执行计算。这是一个强大的函数,通常用于数据聚合和分析。

grouped_df = penguins_df.groupby("species").mean()
grouped_df # groups data by species and calculate the mean for each group

6. query()

此函数用于基于查询字符串过滤DataFrame的行。

Adelie_penguins = penguins_df.query('species == "Adelie"')

7. melt()

melted_df = penguins_df.melt(id_vars=["species"], value_vars=["bill_length_mm", "bill_depth_mm"])
melted_df

8. crosstab()

此函数用于在DataFrame中创建两个或多个列的交叉表。它对于分析两个分类变量之间的关系非常有用。

crosstab = pd.crosstab(penguins_df['species'], penguins_df['sex'])
crosstab

9. pivot_table()

此函数用于从DataFrame创建一个数据透视表。数据透视表是按一个或多个列分组的数据摘要,它对于数据探索和分析非常有用。

pivot_df = penguins_df.pivot_table(index='species', columns='sex', values='bill_length_mm', aggfunc='mean')
pivot_df  # create a pivot table with the mean of bill_length_mm grouped by species and sex

10. iloc()和loc()

这些函数用于通过索引或标签从DataFrame中选择行和列。 iloc函数用于通过基于整数的索引选择行和列,而loc函数用于通过基于标签的索引选择行和列。

penguins_df.iloc[0, 0] # selects the first element in the first row
penguins_df.loc[0, "species"] # selects the element in the first row and species column 

iloc()和loc()的输出均为**“Adelie”**。

11. cut()

此函数用于将连续数据分成离散间隔,它对于数据探索和可视化非常有用。

penguins_df['body_mass_g_binned'] = pd.cut(penguins_df['body_mass_g'], bins=np.linspace(0, 6000, num=6))

12. isin()

此函数用于通过将值与值列表进行匹配来过滤DataFrame。

species_list = ['Adelie', 'Chinstrap']
penguins_df = penguins_df[penguins_df['species'].isin(species_list)]

13. value_counts()

此函数用于计算DataFrame列中每个唯一值的出现次数。

species_count = penguins_df['species'].value_counts()

14. drop()

此函数用于从DataFrame中删除一个或多个列或行。

penguins_df = penguins_df.drop("species", axis=1)

15 . rolling()

此函数用于在DataFrame或Series上创建一个特定大小的滚动窗口,从而允许计算每个窗口的统计量。

penguins_df["rolling_mean_bill_length"] = penguins_df["bill_length_mm"].rolling(window=3).mean()

这些是 pandas 中最常用的高级函数以及如何使用它们的示例。这些函数是数据操作和分析的强大工具。这些函数通常被数据科学家、数据分析师和许多数据爱好者使用。

版权声明:本文内容由TeHub注册用户自发贡献,版权归原作者所有,TeHub社区不拥有其著作权,亦不承担相应法律责任。 如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

点赞(0)
收藏(0)
alivne
复杂的问题简单化

评论(0)

添加评论