首页
Preview

3个用于交互式数据分析的Python包

Photo by Towfiqu barbhuiya on Unsplash

数据分析是数据从业者必备的活动,需要用来了解我们正在处理的内容。为了帮助数据分析过程,我们使用Python语言进行更轻松的工作流程。但是,有时我们需要更交互式的方式来探索数据。一些人开发了Python包以交互方式探索数据以满足需求。

本文将探讨三个Python包,可用于交互式探索数据集。让我们开始吧。

1. PandasGUI

PandasGUI是一个简单的Python包,提供了数据集探索的GUI。该包提供了单独的GUI,具有类似Excel的体验,我们可以使用它来探索数据集,获取统计信息,可视化数据等等。让我们尝试一下这个包,亲身体验一下。

首先,我们需要安装PandasGUI包。

pip install pandasgui

安装完包后,我们可以立即使用包来探索我们的数据集。作为示例数据集,我将使用seaborn中的mpg数据集。

#Load Dataset
import seaborn as sns
mpg = sns.load_dataset('mpg')#Initiate the GUI
from pandasgui import show
show(mpg)

使用上述代码,你将在新屏幕上获得以下GUI。

图片由作者提供

PandasGUI提供了各种功能来探索数据,包括:

  • 数据过滤,
  • 统计信息,
  • 绘图,
  • 数据重塑。

首先,让我们在PandasGUI选项卡周围转一圈。在下面的GIF中,你可以看到我们可以根据需要安排选项卡要求。

GIF由作者创建

接下来,让我们看一下过滤数据选项卡。此选项卡允许你使用特定查询过滤数据帧。填写的查询基于Pandas查询,因此如果你已经学习过它,则会感到熟悉。

GIF由作者创建

请查看上面的GIF。在我的示例中,我编写了“model_year > 72”的查询,其中结果是带有复选框的查询。筛选条件将永久保存在查询筛选器列表中,你可以在不需要它时取消选中。

如果在查询编写过程中出现错误,则只需双击查询并重新编写即可。

现在,让我们看一下统计选项卡。

GIF由作者创建

统计选项卡为你提供数据的简单变量统计信息,例如计数,平均值和标准偏差。它类似于Pandas的describe属性。

如果在上一个选项卡中进行过滤,则统计信息将根据你的过滤条件进行更改。

接下来,我们将进入Grapher选项卡或绘图GUI。此选项卡允许你创建单个变量图或多个变量图。让我向你展示下面的示例。

GIF由作者创建

创建绘图只是拖放的问题,就是这么简单。plotly包用于可视化,因此我们可以通过将光标悬停在图表上来探索图表。

最后是重塑选项卡。这是一个选项卡,我们可以通过创建新的透视表或融合数据集来重塑数据集。

图片由作者提供

如果要将数据集导入新的CSV文件或将新的CSV文件导出到PandasGUI,则还可以单击下图所示的选项。

图片由作者提供

2. D-Tale

D-Tale是一个Python包,用于交互式数据探索,使用Flask后端和React前端轻松分析数据。数据分析可以直接在Jupyter笔记本电脑上或笔记本电脑外完成。让我们尝试使用该包。

首先,我们需要安装该包。

pip install dtale

然后,我们可以使用以下代码启动D-tale进程。我将使用之前示例中使用的MPG数据集。

import dtale
d = dtale.show(mpg)
d

图片由作者提供你可以使用 D-Tale 进行许多操作,我无法解释每一个细节。我只会解释我认为你需要知道的功能。

首先,让我们看一下 Actions 选项卡。我们可以在此选项卡中操作我们拥有的数据集,例如筛选、合并或删除。让我们看看 Actions 选项卡为我们提供了什么。

图片来自作者

Actions 选项卡具有所有操作数据集的功能,例如数据转换、创建数据框函数和筛选。此外,你可以使用 Summarize Data 函数获取数据摘要。

如果你不确定每个功能的作用,可以选择突出显示,解释将可用。

图片来自作者

个人认为 D-tale 最好的功能是其可视化功能。

图片来自作者

如上图所示,我们可以尝试各种可视化方式,例如:

  • 描述

描述允许我们获取基本统计可视化。

图片来自作者

  • 预测功率分数

PPS 分数可视化数据集。

图片来自作者

  • 各种图表

图片来自作者

在可视化之后,我们可以使用 Highlight 选项卡来帮助我们突出显示数据集中的各种数据,例如缺失数据或异常值。

图片来自作者

最后,你可以更改 D-tale 设置,例如主题、语言和屏幕大小。

图片来自作者

3. Mito

让我们尝试安装 Mito 包。 Mito 是一个 Python 包,可将数据框转换为类似于 Excel 的分析数据框。想象一下,如果你有一个 Excel 文件,但它在你的 Jupyter Notebook 中。我们可以使用以下代码来实现。

python -m pip install mitoinstaller
python -m mitoinstaller install

安装完成后,我们可以使用以下代码激活 Mito 包以创建类似于 Excel 的表格。

import mitosheet
mitosheet.sheet(mpg)

图片来自作者

如上图所示,我们之前拥有的数据框已被转换为类似于 Excel 的数据表。

该包易于探索,如果你已经熟悉 Excel,你会感到很自在。让我们尝试使用我认为对数据探索有用的一些功能。

首先,我们可以使用 View column summary statistics 查看列摘要统计信息。

图片来自作者

然后,我们可以使用 Graph 按钮轻松创建各种图表。

图片来自作者

如果需要,我们还可以直接在列中过滤数据。

图片来自作者

你仍然可以尝试许多 Mito 的功能。如果你喜欢使用 Excel 进行分析,则 Mito 将是一个不错的选择。

结论

任何数据人员进行数据分析都是必要的步骤。有时,我们希望以更交互式的方式分析数据。为此,以下是三个 Python 包可进行交互式数据分析:

  • PandasGUI
  • D-tale
  • Mito 希望它能有所帮助!

译自:https://towardsdatascience.com/3-python-packages-for-interactive-data-analysis-3063a201a589

版权声明:本文内容由TeHub注册用户自发贡献,版权归原作者所有,TeHub社区不拥有其著作权,亦不承担相应法律责任。 如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

点赞(0)
收藏(0)
alivne
复杂的问题简单化

评论(0)

添加评论