首页
Preview

一种已证实的方法,可以让你记住数据科学概念,直到你需要它们。

自学数据科学的问题

每次我想用Anaconda安装一个库时,命令中的“-c”部分总是在移动。所以,像大多数人一样,我会在一天中搜索3-4次:

conda install -c conda-forge library_name

这很熟悉吗?

这个小例子暗示了我们今天学习数据科学和机器学习的一个根本性缺陷:数据科学知识比空气还便宜,所以我们没有认真对待学习它。

我们看到大学生为了记住那么多信息而苦苦挣扎以通过考试和测试。如果他们做得不好,他们就会被赶出他们为此付出了如此多的学校。

作为自学的数据科学家,我们没有这样的压力。我们所拥有的只是自我纪律,它不断地说服我们,我们正在做得很好,当我们坐在沙发上看YouTube课程时。

我们的学习过程是杂乱无章的。我们学到了新的东西,跳到下一个闪亮的东西,而第一件事情还没有完全渗透进我们的大脑。

我们把信息保留留给了机会。

当我们真正坐下来练习我们“学到”的东西时,我们会意识到我们在打开电脑的时间里已经忘记了80%的新知识。

于是,我们开始搜索。当这种行为成为常态时,我们向别人吹嘘我们在推特上有多么擅长搜索。我们实际上在向别人暗示,我们没有可靠的系统来学习和保留数据科学中的大量信息。

我们不是出于自己的错成为了最糟糕的学习者。

解决方案

没有有效的学习和保留新知识的方法和工具,要成为一名数据科学家就很难。

要学的东西太多了:数学、统计学、机器学习理论、Python库中的函数和方法等等。很难跟踪所有这些信息。

上面的Ebbinghaus遗忘曲线显示了新信息从记忆中泄漏的速率。

从图表中可以清楚地看出,只需要六天就可以完全遗忘新信息。当它是我们以杂乱无章和粗心的方式学到的信息时,时间会更短。

但是,一旦你努力将新知识放入可靠的重复系统中,你就会有意识地选择记住它,为了你的余生或者你需要它的时间。

我很可能在谈论背诵(🤒)吗?当然不是。我在谈论的是间隔重复

间隔重复是一种强大的记忆技术,极大地利用了Ebbinghaus遗忘曲线:

间隔重复会在适当的时间间隔内再次暴露新信息,每个间隔恰好在记忆泄漏即将发生时。

这将重置你的记忆,并增加下一个你需要回顾材料的间隔。

SR的好处是什么?

也许,间隔重复最有益的事情就是它将知识从短期记忆转移到长期记忆。

除了有效地利用时间和提高记忆力之外,研究表明该系统具有以下优点:

  • 个性化:可以根据你的独特喜好进行定制,因为它会适应你的速度和掌握材料的程度。
  • 提高理解力:通过不断地强化概念和连接,你可以更容易地构建知识网络,并更深入地理解复杂的主题。
  • 提高动力:间隔重复让我有了很大的进步和成就感,因为我的重复间隔变得越来越长。

这可能就是为什么许多医学生对这种方法发誓效果很好,因为他们用它来记忆骨骼、血管、神经分支以及有关人体的所有疲惫细节的名称。

数据科学可能没有那么复杂,但我们仍然有相当多的事情需要记住。

间隔重复算法

有许多实现间隔重复的算法,最流行的是SuperMemo

SuperMemo是一系列自1982年以来不断推出的SR算法。作者Piotr Wozniak博士在2008年被《连线》杂志评为“将人们变成天才的技术发明者”。

那么,你如何通过这种方法变成一个天才呢?

在充分学习了基本概念和事实之后,你首先要使用卡片将材料分成块(是的,我知道这是一个大问题,但请坚持到最后)。

制作好卡片数据库后,你开始在会话中审查它们。第一个会话按添加顺序或根据你的偏好进行洗牌显示卡片。然后,你根据自己的记忆力水平对卡片进行评分。

在SuperMemo-2中,有六个选项:

  • 0:我完全不知道
  • 1:不正确,但看到答案后会想起
  • 2:不正确,但看到答案后会立刻想起
  • 3:正确的反应,但我必须深入挖掘并努力记住
  • 4:正确的反应,但我犹豫不决
  • 5:我记得它好像是几分钟前的事情

然后,所选的评分将被插入长计算中,其中包括卡片在之前成功回忆的次数、卡片的容易程度因子(不要问),以及间隔重复间隔。最终结果将确定何时再次显示卡片。

对于评分低于4的卡片,SuperMemo会要求你在当前会话中多次查看卡片,直到评分高于4为止。

每个正确回忆的卡片将在越来越长的时间间隔后显示。例如,如果你记住将时间戳转换为日期时间的函数是datatime.datetime.fromtimestamp,你只需要在一个月的时间内查看显示此信息的卡片4-5次,就可以记住它在接下来的六个月内。如你所想象的那样,这种重复系统比死记硬背、固定间隔重复或者最糟糕的——情绪来临时重复要好得多。

间隔重复工具

有许多由 SuperMemo 类算法驱动的 SR 工具。

第一个(也是最好的)是 Anki。它是开源的,实现了 SuperMemo-2 的修改版本。它不提供六个召回等级,而是显示四个:

image.png

Anki 用于记忆俄语词汇。图片来自维基百科。维基共享资源。

由于它是开源的,它的外观非常古老,但它是一个跨平台的免费应用程序(iOS 版除外)。软件的 GitHub 存储库有超过 13k 个星,这表明社区对它的支持非常大。

他们已经在 Anki 上工作了十多年,目前的版本具有以下功能:

  • 到处都有:Windows、macOS、Linux、Android 和 iOS(这个版本需要付费)
  • 完全可定制:创建自己的闪卡,将它们组织成卡组,并设置自己的间隔重复算法参数
  • 跨设备同步:电脑版本的 Anki 是主要应用程序,移动和 Web 版本只是伴侣,但它们是同步的。
  • 多媒体支持:添加图像、音频、视频、文本格式和 LaTeX,使闪卡更易记忆和有趣。还支持 图像遮挡 来记忆视觉信息。
  • 插件:类似于 Python 扩展,你可以创建并添加自己的功能到软件中,例如自定义键盘快捷键、主题和高级统计信息。
  • 预建卡组:社区不断分享预制卡片的卡组,涵盖流行主题的数十万张卡片,包括语言学习、大学考试等几乎任何主题的卡片。 一个明显的痛点是我们没有强调的创建社区中不可用的闪卡。

我知道在间隔重复方面,数据科学是一个相对年轻的领域。任何人都会有大量信息要转化为闪卡,这听起来是乏味和令人恶心的。但这是必要的恶。

我坚信,为一个主题创建闪卡并通过间隔重复完全掌握它所需的总时间将比花费数小时在 Google 上搜索或经历数十个遗忘和重新学习的恶性循环要少得多。

此外,我们很幸运生活在 AI 的黄金时代(我们是吗?)。已经有了便宜的 AI 动力的闪卡软件,比如 Monic.ai

我已经试过 Monic.ai,它看起来很棒。你上传屏幕截图或 PDF 文件,它就会在短短几秒钟内自动将其内部的文本转换为闪卡。它也是由间隔重复驱动的。

如果你决定试试它,你应该考虑下载 GoFullPage Chrome 扩展程序 来获取全页截图,或者知道 如何将网页保存为 PDF,这样你就可以用 Monic.ai 将任何在线文章、教程或 Python 框架文档页变成闪卡。

总结

是时候改变我们学习数据科学的方式了。我们应该放弃随意、鲁莽地观看 YouTube 视频或者连续参加课程以寻找毫无价值的电子证书的方式。

我们应该停止学习某些东西,并希望它能留在我们的记忆中。我们应该停止幻想。

我们应该停止让记忆留给机会。

相反,我们应该采取有意识的行动,记忆每一个必要的事实、理论片段、概念、终端命令、Python 函数或函数参数,只要我们需要它们。

是的,这需要一些时间来适应,但一旦我们适应了,就可以显著缩短从“在线学习数据科学”到“在支付六位数的工作中做数据科学”所需的时间。

感谢你的阅读!

喜欢这篇文章和它奇怪的写作风格吗?想象一下,你可以获得几十篇类似的文章,都是由一位聪明、迷人、风趣的作者(那就是我了)写的。

只需 4.99 美元的会员费,你就可以访问不仅是我的故事,还有来自 Medium 上最优秀、最聪明的头脑的宝库。如果你使用 我的推荐链接,你将获得我的 超新星感激 和一个虚拟的高五,支持我的工作。

使用我的推荐链接加入 Medium - Bex T.

图片来自 Midjourney。

参考文献

[1] Anki, 强大的智能闪卡,Anki 网站

[2] 维基百科,SuperMemo,wikipedia.org

[3] E-student,间隔重复:技术指南,e-student.org

[4] 维基百科,间隔重复,wikipedia.org

译自:https://towardsdatascience.com/a-proven-method-to-remember-data-science-concepts-for-as-long-as-you-need-d6b778b11531

版权声明:本文内容由TeHub注册用户自发贡献,版权归原作者所有,TeHub社区不拥有其著作权,亦不承担相应法律责任。 如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

点赞(0)
收藏(0)
alivne
复杂的问题简单化

评论(0)

添加评论