Pandas是每个数据爱好者的终极武器。这个Python中的强大库使数据处理和探索变得轻松愉悦。直观的语法和广泛的功能可以将原始数据转化为有价值的洞察力，这对于任何与数据工作的人都是至关重要的。Pandas，你让我们的数据之旅变得完整。

在本文中，我们将使用一个名为“Palmer Penguins”的流行数据集，介绍Pandas中的20个高级函数，并提供如何使用它们的示例。

1. apply()

此函数用于将函数应用于DataFrame或Series的每个元素或行/列。

import pandas as pd
penguins_df = pd.read_csv("penguins.csv") # read_csv is also a function to read csv file
penguins_df["bill_length_mm"] = penguins_df["bill_length_mm"].apply(lambda x: x/10)

Apply()函数

2. nunique()

此函数用于计算DataFrame列中唯一值的数量。

penguins_df["species"].nunique()

在此输出中，我们仅有3个独特物种。

3. sort_values()

此函数用于按升序或降序排序一个或多个列的DataFrame。

penguins_df.sort_values("body_mass_g", ascending=False)

4. rename()

此函数用于更改DataFrame的列名称。

penguins_df = penguins_df.rename(columns={"species":"penguin_species"})

5 . groupby()

此函数用于按一个或多个列对DataFrame中的数据进行分组，然后对分组数据执行计算。这是一个强大的函数，通常用于数据聚合和分析。

grouped_df = penguins_df.groupby("species").mean()
grouped_df # groups data by species and calculate the mean for each group

6. query()

此函数用于基于查询字符串过滤DataFrame的行。

Adelie_penguins = penguins_df.query('species == "Adelie"')

7. melt()

melted_df = penguins_df.melt(id_vars=["species"], value_vars=["bill_length_mm", "bill_depth_mm"])
melted_df

8. crosstab()

此函数用于在DataFrame中创建两个或多个列的交叉表。它对于分析两个分类变量之间的关系非常有用。

crosstab = pd.crosstab(penguins_df['species'], penguins_df['sex'])
crosstab

9. pivot_table()

此函数用于从DataFrame创建一个数据透视表。数据透视表是按一个或多个列分组的数据摘要，它对于数据探索和分析非常有用。

pivot_df = penguins_df.pivot_table(index='species', columns='sex', values='bill_length_mm', aggfunc='mean')
pivot_df  # create a pivot table with the mean of bill_length_mm grouped by species and sex

10. iloc()和loc()

这些函数用于通过索引或标签从DataFrame中选择行和列。 iloc函数用于通过基于整数的索引选择行和列，而loc函数用于通过基于标签的索引选择行和列。

penguins_df.iloc[0, 0] # selects the first element in the first row
penguins_df.loc[0, "species"] # selects the element in the first row and species column

iloc()和loc()的输出均为**“Adelie”**。

11. cut()

此函数用于将连续数据分成离散间隔，它对于数据探索和可视化非常有用。

penguins_df['body_mass_g_binned'] = pd.cut(penguins_df['body_mass_g'], bins=np.linspace(0, 6000, num=6))

12. isin()

此函数用于通过将值与值列表进行匹配来过滤DataFrame。

species_list = ['Adelie', 'Chinstrap']
penguins_df = penguins_df[penguins_df['species'].isin(species_list)]

13. value_counts()

此函数用于计算DataFrame列中每个唯一值的出现次数。

species_count = penguins_df['species'].value_counts()

14. drop()

此函数用于从DataFrame中删除一个或多个列或行。

penguins_df = penguins_df.drop("species", axis=1)

15 . rolling()

此函数用于在DataFrame或Series上创建一个特定大小的滚动窗口，从而允许计算每个窗口的统计量。

penguins_df["rolling_mean_bill_length"] = penguins_df["bill_length_mm"].rolling(window=3).mean()

这些是 pandas 中最常用的高级函数以及如何使用它们的示例。这些函数是数据操作和分析的强大工具。这些函数通常被数据科学家、数据分析师和许多数据爱好者使用。

高级数据整理：15个Pandas数据分析的高级函数

1. apply()

2. nunique()

3. sort_values()

4. rename()

5 . groupby()

6. query()

7. melt()

8. crosstab()

9. pivot_table()

10. iloc()和loc()

11. cut()

12. isin()

13. value_counts()

14. drop()

15 . rolling()

alivne

评论(0)

高级数据整理：15个Pandas数据分析的高级函数

高级数据整理：15个Pandas数据分析的高级函数

1. apply()

2. nunique()

3. sort_values()

4. rename()

5 . groupby()

6. query()

7. melt()

8. crosstab()

9. pivot_table()

10. iloc()和loc()

11. cut()

12. isin()

13. value_counts()

14. drop()

15 . rolling()

alivne

评论(0)

相关阅读

高级数据整理：15个Pandas数据分析的高级函数