首页
Preview

数据科学家一直在等待的无代码Pandas替代品

照片来自 Unsplash,摄影师:Robert Anasch

动机

讲故事对于所有数据科学项目的工作流程都至关重要。

在这方面,从数据中提取有价值的见解是每个组织在数据科学家中寻找的基本技能。

值得庆幸的是,在过去的几年中,全球的开发人员已经深刻地为开发可靠和复杂的工具做出了贡献,这些工具使数据科学家的工作相对容易。

Python 最流行的开源工具包括 Pandas、NumPy、Matplotlib、Seaborn 等等。

基本上,这些工具包允许用户使用编码指令执行各种数据分析操作。

虽然它们的巨大实用性使它们在今天的数据科学项目工作流程中几乎不可或缺,但我认为:

→ #1 初学者 没有先前的经验,通常会在试图掌握这些工具时感到不知所措。

→ #2 更令人担忧的是, 专家每天花费大量时间和精力编写相同的代码,以在不同的项目中执行数据分析。

  • 为了有所了解,请尝试记住你明确编写 df.sort_values()pd.merge()df.value_counts() 或通过反复编写相同的代码创建不同的散点图的次数。
  • 简单地说,冗余比你想象的更频繁,这会抑制工作输出。

因此,这两个群体特别寻找节省时间、无代码和基于 GUI 的工具,这些工具具有:

  • 对于 初学者 来说,入门门槛极低。
  • 帮助 专家 消除冗余工作,并做他们认为重要的事情。 有人可能会认为 Excel 可能是这种情况的一个潜在选择。在这一点上,我部分地同意,因为 Excel 的最大行限制是最大的问题。这会抑制在涉及数据分析的大规模项目上的工作。

为此,我特别感兴趣讨论一种使用 Pandas 的无代码辅助工具,名为 Gigasheet 的潜在工具。

为了使表格数据分析相对容易,我将在 Pandas 中执行 15 个典型操作,并演示如何使用 Gigasheet 只需点击几下按钮即可完成这些操作。

让我们开始吧 🚀!

先决条件

要使用 Pandas,你应该首先导入库。如下所示:

要使用 Gigasheet,你应该有一个 Gigasheet 账户,一切都已经预先安装好了。

数据集

我将使用一个由我自己创建的包含 30 万行和九列的 数据集 作为本文的案例。前五行如下所示:

数据集的前五行(图片来自作者)

#1 读取 CSV

Pandas

你可以使用 pd.read_csv() 方法读取 CSV 文件并创建 Pandas DataFrame。

Gigasheet

在这里,读取 CSV 文件也非常简单。只需上传 CSV 文件即可。

读取 CSV 文件(动图来自作者)

你还可以上传其他文件格式,例如 JSON、XLSX、TSV、GZIP 等等。

或者,你可以利用数据连接器,如 Amazon S3、Google Drive、Dropbox 等,上传你的数据集。这样可以节省从本地机器上传文件的时间。

#2 DataFrame 的维度

Pandas

如果你想要打印 DataFrame 的形状(行数和列数),可以使用 DataFrame 的 shape 属性。

Gigasheet

在这里,一旦你上传了文件,就会显示其形状。

数据集的维度(图片来自作者)

注意:它会计算一个额外的列,该列计算索引。

#3 查看前 N 行

通常,在实际数据集中,你需要处理许多行。

在这种情况下,你通常只对 DataFrame 的前 n 行感兴趣。

Pandas

你可以使用 df.head(n) 方法打印前 n 行:

Gigasheet

一旦你打开表格,它会默认显示前 100 行。这让你快速了解数据集。

查看 DataFrame 的前 N 行(动图来自作者)

#4 查看列的数据类型

Pandas

你可以使用 dtypes 参数查看列的数据类型。

Gigasheet

要查看列的数据类型,请单击特定列标题,然后选择“更改数据类型”。

在此示例中,“Company_Name” 列的数据类型显示为突出显示的文本“纯文本”。

查看列的数据类型(动图来自作者)# #5 修改列的数据类型

Pandas

要更改列的数据类型,可以使用astype()方法,如下所示:

Gigasheet

要更改列的数据类型,请单击特定列标题并选择“更改数据类型”。

更改列的数据类型(作者提供的GIF)

正如你所注意到的,这个修改不是原地进行的。简单地说,它会自动创建一个带有所需数据类型的新列,并隐藏原始列以供以后参考。

#6 删除列

Pandas

如果要删除一列,请使用df.drop()方法:

Gigasheet

从右侧边栏临时隐藏列是第一种删除列的方法。

删除列(作者提供的GIF)

第二种方法是永久删除列。为此,请单击特定列标题并选择“删除”。

删除列(作者提供的GIF)

#7 打印DataFrame的描述信息

Pandas

df.info()df.describe()是两种常用的方法,用于生成关于DataFrame的统计信息。

Gigasheet

你可以使用底部工具栏提供的各种聚合方法查看上述信息。

打印列的描述性统计信息(作者提供的GIF)

#8 排序DataFrame

Pandas

可以使用df.sort_values()方法对DataFrame进行排序。

Gigasheet

对DataFrame进行排序(作者提供的GIF)

#9 重命名列

Pandas

如果要重命名列标题,请使用df.rename()方法,如下所示:

Gigasheet

要更改列名,请单击特定列标题并选择“重命名”。

重命名列(作者提供的GIF)

#10 过滤DataFrame

Pandas

有多种方法可以过滤DataFrame。这些包括布尔过滤、选择列、按标签选择、按位置选择等。

Gigasheet

要过滤DataFrame,请转到“筛选”选项卡。选择列并指定要过滤的条件。

基于条件过滤DataFrame(作者提供的GIF)

此外,它还显示筛选后的行数在工作表底部。

#11 拆分列

Pandas

如果要将一列拆分为多个列(例如将“Name”拆分为“First_Name”和“Last_Name”),可以对字符串列使用split()方法。

Gigasheet

要拆分列,请转到“工具”→“列”→“拆分”。

拆分列(作者提供的GIF)

#12 分组DataFrame

Pandas

可以使用Pandas中的groupby()方法对DataFrame进行分组并执行聚合:

Gigasheet

要对DataFrame进行分组,请转到顶部的“组”按钮。

分组后,你可以在此执行各种常见的聚合操作。

对DataFrame进行分组(作者提供的GIF)

#13 添加新列

Pandas

可以使用赋值运算符添加新列:

Gigasheet

在这里,你可以转到“插入”→“计算”并执行上述操作,如下所示:

向DataFrame添加新列(作者提供的GIF)

#14 合并DataFrame

Pandas

如果要使用连接键合并两个DataFrame,请使用pd.merge()方法:

Gigasheet

为了演示这一点,我将合并以下CSV文件。合并列为“Employment_Status”。

下面演示了这些步骤。我们将使用“跨文件VLOOKUP”工具合并数据帧。

合并两个DataFrame(作者提供的GIF)

#15 将DataFrame存储到CSV中

Pandas

你可以使用df.to_csv()方法将DataFrame转储为CSV,如下所示:

Gigasheet

将DataFrame保存的步骤如下(文件→导出)。# 存储DataFrame(作者提供的GIF图)

在本文中,我演示了如何利用Gigasheet执行15个最常见的Pandas操作而无需编写任何代码。

我是无代码解决方案的忠实粉丝。我认为它们在消除冗余工作方面真正是改变游戏规则,从而使生活更加轻松。

当然,我同意编码解决方案提供了自定义(以及更多)的功能,这是它最重要的好处之一。因此,我想再次强调,我并不是在声称Gigasheet是(或将成为)Pandas的终极替代品。

然而,根据我的经验,我认为Gigasheet对于初学者非常方便,因为它降低了开始数据科学基础操作的障碍。

本文将帮助初学者学习如何在Gigasheet中回溯Pandas的操作。

同时,本文还可以帮助该领域的专家将常见的Pandas操作转化为Gigasheet。这将帮助他们通过避免重复编写相同的代码来更快,更轻松地工作。

另一组可以利用Gigasheet的潜在用户是Excel用户。有人可能会争辩说,本文演示的大多数操作在Excel中可以轻松执行。

然而,Excel的最大行限制是最大的问题。这限制了在大规模数据分析项目上的工作,而Excel不支持这样的工作。

总之,虽然Gigasheet还没有到能够淘汰Pandas(或Excel)的地步,但它的发展轨迹肯定存在。我迫不及待地想看看他们的发展!

译自:https://towardsdatascience.com/the-no-code-pandas-alternative-that-data-scientists-have-been-waiting-for-9e22aaa9cf02

版权声明:本文内容由TeHub注册用户自发贡献,版权归原作者所有,TeHub社区不拥有其著作权,亦不承担相应法律责任。 如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

点赞(0)
收藏(0)
alivne
复杂的问题简单化

评论(0)

添加评论