首页
Preview

如何打造一个强大的数据科学作品集

建立一个数据科学项目集是一个很好的学习机会,同时也非常有效地展示你的技术专长。

数据科学项目集

图片来自 Alex PadurariuUnsplash

在规划如何成为数据科学家时,其中最重要的一步就是决定如何展示你的技能、成就和知识。

一个专业的项目集对于数据科学家来说是建立联系的重要手段,为了开始,评估你已经掌握(或正在学习)的技能。基于这些技能,建立一个为贡献、实习机会和工作而设计的项目集。

数据科学岗位招聘中的要求让每个求职者都难以脱颖而出。

然而,你的项目集将加强你的数据科学求职努力。因此,公共项目集是你技能的框架。通过展示你的数据技能来打动雇主,你可以申请各种入门级数据科学岗位。

在本指南中,我们将解释通过项目建立项目集的重要性,并提供实际的提示,这将为你打开职业机会的大门。

技术栈: 数据科学资源(链接)

数据科学项目集的重要性

寻找入门级数据科学岗位可能会是一次挫败的经历,因为你需要经验才能找到工作,但你也需要工作才能积累经验。这对初学者来说可能很困惑。大多数数据科学岗位要求具备多年的工作经验,这使得进入该领域变得困难。

你如何才能进入数据科学领域呢?如果你没有所需的经验,数据科学证书会对你有所帮助吗?不会

有许多方法可以获得入门级数据科学岗位,如实习、高级编程营、硕士学位,但有一件事情帮助了许多人,那就是创建项目集。要在数据科学领域找到工作,你需要通过实际项目展示专业知识。

当你正在建立数据科学技能时,可以花费更多时间学习编程、进行统计分析、部署解决方案和创建数据可视化,以便有效地传达结果。

以下是一些关于为什么投入时间工作在数据科学项目上以及创建项目集如何提高你的职业前景的关键原因。

  • 实践经验:完成数据科学项目将巩固你的知识并增强你的自信心。
  • 数据社区:你可以在 Kaggle、Reddit 和 Stack Overflow 等平台上与致力于数据科学和机器学习的人联系,以获得免费和专业的指导。
  • 贡献:对你的项目感兴趣的数据科学家也会查看你的项目集,以评估你的技能、经验和兴趣,并可能推荐你参与开源贡献。
  • 实习:在你的项目集中展示项目通常是找到实习机会的关键工具。
  • 工作:寻找机会是建立项目集的主要原因,你可以通过展示你在项目上的工作增加获得工作的机会。

我们已经详细讨论了为什么基础不应被忽视以建立正确的基础,以及如何通过项目来实现特长,详见我们的数据科学家技能文章,现在在本指南中,我们将通过项目来实现特长。

在数据科学项目和公共数据集上工作将帮助你建立专注于一特定领域的好奇心。

就像如果你想成为某个专业的专家,你必须先学习成为该专业的通才。

这需要时间、勤奋、研究和与数据合作的时间。

有许多方法可以展示你的工作,同时你还在学习,以便使你的生活更加轻松,并建立一个强大的数据科学项目集。

让我们仔细看看它们是什么,以及你如何使用它们。

创建项目

作为初学者,你可以从简单的项目开始,并观察你的同行如何创建文档完备的项目并传达分析质量。

创建项目很重要,以及如何最大限度地利用你可以使用的科学库、包和工具。你本质上是在学习概念,并通过确定目的,通过专注于优化时间来增长逻辑推理技能。

没有目的,你的努力是徒劳的,但是通过回答以下问题可以实现目的:

  • 我在这里解决什么问题?
  • 我如何从我的分析中受益?
  • 我将获得什么技能?

项目不是你工作经验的替代品,但是如果你投入时间来提高你的技能,你可以展示大多数人通过工作经验获得的专业知识。

在学习项目的过程中,可以在 GitHub 和 Deepnote 等平台上记录你的工作。

项目集和文档

最引人注目的项目集是那些文档完备的项目。文档将决定你的项目和整个项目集的成功或失败。

代码质量对于相关性和清晰度至关重要。如果你的工作不简单,那么它就不是优秀的。

以下是一个优雅的 Python 代码示例。

from github import Github

# First create a Github instance:

# using an access token
g = Github("access_token")

# Github Enterprise with custom hostname
g = Github(base_url="https://{hostname}/api/v3", login_or_token="access_token")

# Then play with your Github objects:
for repo in g.get_user().get_repos():
    print(repo.name)

这段代码片段来自 PyGitHub,它是可读的,注释用较少的单词解释了每个函数和变量的用途。

一个好的作品集项目能展示你的技术和软技能。通过写作和展示贡献来扩展作品集,将提高你被潜在雇主注意到的机会,因为你的作品集的预期用途是提供你技能的快速浏览。

如果你花费了数小时爬取公共数据集以完成特定任务,你也可以创建一个项目存储库,使你的爬取工具可访问,并通过撰写一篇涵盖整个过程的文章来展示你的技术技能。

下面是一个很好的作品集的例子:

kanger.dev的数据科学作品集示例

所有相关信息都在主页上。“我是Chris Tran。深度学习、自然语言处理和计算机视觉的机器学习工程师。还有什么需要知道的吗?”这个简短而直接的陈述很有力。Chris有统计编程和机器学习的教育背景。

从Chris Tran的方法中可以看出,简洁和组织是最重要的。作品集部分清晰地展示了Chris通过撰写深入的教程来展示他的技能,为每个项目解释了每个重要细节。

他将访问者从他的项目存储库中引导出去。他为每个存储库创建了一个清晰直观的README文件,其中包含了学习构建该项目所涉及的主题特定文章的链接。这是维护一个健康的作品集的绝妙方法。

从这个简短的剪辑中值得注意的是Chris如何在他的网站上进行详细的案例研究,我们也可以了解到他的个性和沟通技巧。

提示:从GitHub的README指南中学习项目文档。

发布

再次强调,部署的最重要方面是代码质量。学习编写更有效的程序的最佳实践。这将帮助你学习包括什么、避免什么、如何平衡并为什么是最佳选择。

你的工作不会被忽视。磨练你的编码技能,向他人学习,这将帮助你成为一个更好的研究者。

你可以使用GitHub或Deepnote配置本地Jupyter环境来发布你的项目。Jupyter Notebook的单一文档方法使得开发、可视化和添加信息和公式变得容易,这使得工作更易于理解、可重复和共享。

这就是数据科学家正在做的事情。展示你具备技术技能和解释复杂话题的能力是一个常见的做法。

建立强大的数据科学作品集的3个提示

在建立一个专业的作品集时,你的目标应该是脱颖而出,成为独一无二的人,而不是众多人中的一个。

以下提示将帮助你说服潜在雇主,证明你是一个独特的人选。

加入Kaggle

Kaggle是最大、最值得信赖的数据科学家和机器学习爱好者的在线社区。你可以与其他用户合作,查找和发布数据集,使用GPU集成笔记本电脑,并参加解决数据科学挑战的比赛。

雇主们非常关注你的Kaggle个人资料。一个强大的个人资料肯定会带来很多曝光,这将有助于你获得入门级工作。

这对学习机器学习很有好处。它是完全免费的,所有数据集、参与竞赛和讨论都可以使用。你还可以通过工作委员会与招聘人员联系。

数据集

这是一个学习如何思考和解决实际问题的好平台。你可以从真实的数据集中产生项目想法,有超过160k个数据集可以在整个学习过程中保持你的动力。

竞赛

像谷歌和美国运通这样的公司主办Kaggle比赛。你的表现是展示你解决复杂问题能力的强有力的方式。

这些比赛通常持续3个月,提供10,000-150,000美元的奖金。世界上只有94个大师,其中大多数人已经使用Kaggle超过两年。

要接受尖锐的批评,Kaggle为渴望成为数据科学家的人们提供了免费的学习机会。

你在Kaggle上获得的专业知识将是无价的。

始终使用GitHub

GitHub会跟踪你的日常贡献。你的工作是公开可见的,人们可以看到你的工作知识和对数据科学的承诺。

你应该充分利用GitHub。数据科学家普遍使用GitHub,因为它托管了几乎所有的数据科学存储库、强大的库/包和大量的其他编程资源。

突出你的技能的最佳方法之一是在GitHub上保持活跃。拥有一个活跃的GitHub个人资料可以开启巨大的合作或实习机会,你也可以在你的作品集中展示这些机会。

你可以在GitHub上托管基于代码和内容的项目

项目示例 👇🏾👇

kanger.dev的项目示例

一眼就能看出Chris Tran的技能所在:Python、机器学习和构建AI系统。

将你编写的代码定期放在GitHub上是一个好的实践。你可以像Chris Tran一样创建一个静态网站,使用GitHub Pages免费托管你的博客和作品集。你可以轻松地自定义你的 GitHub 个人资料页面,添加链接到你的文章并展示你的项目。最好的做法是链接你的 GitHub、LinkedIn 和 Kaggle 个人资料。

很容易熟悉 GIT 和 GitHub 的术语,如仓库、分支、提交、拉取请求等。你可以从官方指南或下面推荐的资源中学习。

边学边写

数据科学博客是提高你的沟通技巧、展示你的分析、发现独特洞见和发布数据可视化的绝佳方式。

虽然你通过项目展示你的专业知识,但你应该从成长开始写教程。如果你写高质量的教程,你将建立读者群。

营销提示: 我们建议在你的博客上发布文章,然后在 Medium、Dev.to 和 Kdnuggets 等平台上使用规范链接重新发布你的文章。

TL;DR

没有最佳的作品集格式。然而,共同点是你应该专注于你的专业、技能和显著成就。

你的作品集应该有一个引人入胜的描述,让人们去查看你的项目、教程、文章等。

感谢你阅读到最后...

如果你喜欢这篇文章,我们有一些实用的数据科学资源供你参考。

译自:https://blog.devgenius.io/how-to-build-a-strong-data-science-portfolio-beginners-guide-701b91be1937

版权声明:本文内容由TeHub注册用户自发贡献,版权归原作者所有,TeHub社区不拥有其著作权,亦不承担相应法律责任。 如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

点赞(0)
收藏(0)
alivne
复杂的问题简单化

评论(0)

添加评论