图片来源:https://github.com/YueErro/pandas
Pandas是每个数据爱好者的终极武器。这个Python中的强大库使数据处理和探索变得轻松愉悦。直观的语法和广泛的功能可以将原始数据转化为有价值的洞察力,这对于任何与数据工作的人都是至关重要的。Pandas,你让我们的数据之旅变得完整。
在本文中,我们将使用一个名为“Palmer Penguins”的流行数据集,介绍Pandas中的20个高级函数,并提供如何使用它们的示例。
1. apply()
此函数用于将函数应用于DataFrame或Series的每个元素或行/列。
import pandas as pd
penguins_df = pd.read_csv("penguins.csv") # read_csv is also a function to read csv file
penguins_df["bill_length_mm"] = penguins_df["bill_length_mm"].apply(lambda x: x/10)
2. nunique()
此函数用于计算DataFrame列中唯一值的数量。
penguins_df["species"].nunique()
在此输出中,我们仅有3个独特物种。
3. sort_values()
此函数用于按升序或降序排序一个或多个列的DataFrame。
penguins_df.sort_values("body_mass_g", ascending=False)
4. rename()
此函数用于更改DataFrame的列名称。
penguins_df = penguins_df.rename(columns={"species":"penguin_species"})
5 . groupby()
此函数用于按一个或多个列对DataFrame中的数据进行分组,然后对分组数据执行计算。这是一个强大的函数,通常用于数据聚合和分析。
grouped_df = penguins_df.groupby("species").mean()
grouped_df # groups data by species and calculate the mean for each group
6. query()
此函数用于基于查询字符串过滤DataFrame的行。
Adelie_penguins = penguins_df.query('species == "Adelie"')
7. melt()
melted_df = penguins_df.melt(id_vars=["species"], value_vars=["bill_length_mm", "bill_depth_mm"])
melted_df
8. crosstab()
此函数用于在DataFrame中创建两个或多个列的交叉表。它对于分析两个分类变量之间的关系非常有用。
crosstab = pd.crosstab(penguins_df['species'], penguins_df['sex'])
crosstab
9. pivot_table()
此函数用于从DataFrame创建一个数据透视表。数据透视表是按一个或多个列分组的数据摘要,它对于数据探索和分析非常有用。
pivot_df = penguins_df.pivot_table(index='species', columns='sex', values='bill_length_mm', aggfunc='mean')
pivot_df # create a pivot table with the mean of bill_length_mm grouped by species and sex
10. iloc()和loc()
这些函数用于通过索引或标签从DataFrame中选择行和列。 iloc函数用于通过基于整数的索引选择行和列,而loc函数用于通过基于标签的索引选择行和列。
penguins_df.iloc[0, 0] # selects the first element in the first row
penguins_df.loc[0, "species"] # selects the element in the first row and species column
iloc()和loc()的输出均为**“Adelie”**。
11. cut()
此函数用于将连续数据分成离散间隔,它对于数据探索和可视化非常有用。
penguins_df['body_mass_g_binned'] = pd.cut(penguins_df['body_mass_g'], bins=np.linspace(0, 6000, num=6))
12. isin()
此函数用于通过将值与值列表进行匹配来过滤DataFrame。
species_list = ['Adelie', 'Chinstrap']
penguins_df = penguins_df[penguins_df['species'].isin(species_list)]
13. value_counts()
此函数用于计算DataFrame列中每个唯一值的出现次数。
species_count = penguins_df['species'].value_counts()
14. drop()
此函数用于从DataFrame中删除一个或多个列或行。
penguins_df = penguins_df.drop("species", axis=1)
15 . rolling()
此函数用于在DataFrame或Series上创建一个特定大小的滚动窗口,从而允许计算每个窗口的统计量。
penguins_df["rolling_mean_bill_length"] = penguins_df["bill_length_mm"].rolling(window=3).mean()
这些是 pandas 中最常用的高级函数以及如何使用它们的示例。这些函数是数据操作和分析的强大工具。这些函数通常被数据科学家、数据分析师和许多数据爱好者使用。
评论(0)