现如今,数据内容无处不在,无论是 Medium、Twitter 还是 Substack。如果你想知道目前被认可的知识,你应该继续阅读所有这些内容。但如果你想知道未来的主题,你需要跨出去。
Zhamak Dehghani 没有在 Medium 上发布她的开创性的 Data Mesh 专著,我也没有看到她在 Twitter 上宣传。它存在于主流之外,几乎一年之久,直到 Twitter、Medium 和其他出版物才开始关注它。
以下是我寻找这些内容的地方列表,这些内容将在一年后出现在 Medium 上。这是我收集的十大令人惊讶的数据内容资源。
1. lakeFS 博客
treeverse 的创始人 Einat Orr 和 Oz Katz 构建了一个数据版本控制解决方案。这在数据空间内相当新,远未被广泛接受为最佳实践。
他们俩都带着多年的经验和尖端的知识,结合软件工程领域的经验。
他们不时地将这些尖端知识倾泻到 lakeFS 博客中,将他们对数据空间的宏伟愿景、软件工程知识和数据专业知识结合在一起。
我会密切关注这两个人以及他们的传道者 Paul Singman 所写的所有文章。他们涵盖了诸如数据烟雾测试、使用数据进行混沌工程、数据湖架构等内容。
注意:这是一篇公司博客,所以你需要“过滤掉”销售部分和广告部分,但我在他们的博客上找到了很多精华。
2. Thoughtworks、Martin Fowler 和 Tech Radar
这三个来源都在 ThoughtWorks 的轨道内,包含有基础的前沿内容。我通常首先查看 Martin Fowler 的网站,这个网站在 2019 年发布了原始的数据网格文章,然后是 Tech Radar,最后是 ThoughtWorks 的文章和博客。
在 Martin Fowler 的网站上,你会发现很多专注于软件和数据开发卓越的文章。它们几乎总是包含独特的概念和新思想。更好的是,它们中的大多数已经在实践中得到了测试。
Technology Radar 包含了边缘案例、新工具和概念,它们有些会失败。我曾经多次从中检查出后来被证明是失败的技术,而且从未被采用。而这正是新的和前沿知识的重点。
Thoughtworks 网站包含了一些关于持续智能和 Thoughtworks 所运行的大型咨询项目的见解的优秀文章。所以,确保不时查看这些头条新闻。
3. Ville Tullos 写的所有内容
Ville Tullos 的使命是让机器学习变得容易,让机器学习工程师专注于产生价值的工作,让其普及化。
有了这样的使命,他必须深入挖掘和思考许多新的和即将出现的趋势。他在公开场合分享这些想法,包括演讲、书籍和 outerbounds 博客。
Ville 甚至出版了一本最不性感但最重要的主题“数据科学基础设施”的书。那些处理这些主题的人是具有激进和有远见的思想,你应该借鉴他们的思想。最好的地方就是 outerbounds 博客。
4. a16z 的新出版物 future.a16z.com
a16z 的风险投资家们投资了三个特别有趣的领域:数据、数据基础设施和加密。加密是如此有趣,因为数据世界可以从加密世界中学到很多东西,尽管我们在利用这些相似之处的第一天。
在所有这些领域中,a16z 都会发布很棒的内容,包括 现代数据参考架构,它仍然只是在 a16z 上发布,而没有在 future 上。
他们发布了很多文章,所以大多数文章可能不像你预期的那么“有远见”,但这些主题本身以及这些想法都会引导你走向前沿。未来出版物的图片来自a16z。
5. 由蒙特利尔分析提供的
即使是像dbt + snowflake设置这样的最常见的数据堆栈,也存在着一些小众和前沿的话题。蒙特利尔分析咨询公司做了很好的工作,揭示了这些话题。
我喜欢他们关于B/G部署和如何正确使用dbt快照的文章。
我相信随着他们的扩张,他们将扩大他们的范围。
他们擅长的是将最佳实践应用于非常特定的数据堆栈。他们表明这不仅是可能的,而且是容易的,也是一个好主意。
蒙特利尔分析博客的图片。
6. NfX Library关于网络效应的
数据领域深受网络效应的支配,NfX的风险投资家在揭示许多与网络效应相关的内容方面做得很好。
他们的内容深入探讨了各种不同类型的网络效应。
NfX内容库的图片。
7. Maxime Beauchemin的一切
Maxime是Apache Airflow的联合创始人,Apache Superset的创建者,也是“功能数据工程”和数据工程的倡导者。这已经是一个很长的介绍了,不是吗?
我读Maxime写的所有东西。他写的许多东西都发生在他创立的公司Preset的博客上。
Maxime还进行了有关功能数据工程的出色演讲,并撰写了两篇有关数据工程的里程碑式博客文章。一定要看看他的所有东西。
8. Azeem Azhar的Exponential View
Azeem多年来一直在写关于指数技术的文章,事实上,所有这些技术都是由核心数据技术驱动的,无论是存储成本还是计算成本,实际生成或存储的数据,都是潜在的指数趋势。
我强烈推荐他的书和他的新闻通讯,我是一个付费订阅者。但每周他的内容中都有一个隐藏的宝藏!
隐藏的宝藏是底部的链接。Azeem在大多数新闻通讯的底部分享社区的链接。指数视图社区有时会输出令人惊叹的东西,与数据相关或不相关。因此,如果你去那里,请务必始终查看该部分并浏览它。
指数视图有免费和付费版本。
9. DataKitchen和Chris Bergh的内容
Chris Bergh是这个混合中的一个有趣的人物。多年来,他一直在推动DataOps的思想界限,因此,与数据工作流程和最佳实践相关的所有内容,在理论上都是他的优秀内容。
但是,他将它们市场化为位于中间的一组受众,这意味着传统的数据堆栈、缓慢的公司和不处于数据边缘的公司。这是一个有趣的组合,这意味着你必须关注理论和想法,并筛选出市场营销和销售部分。多关注与DataOps相关的内容,大部分都很好。
10. NotBoring由Packy提供
NotBoring的Packy,另一个很棒的新闻通讯,深入报道了公司。
他会不时地报道数据公司,但他的报道总体来说是非常出色的。
我来这里从世界各地获取公司构建实践,而不仅仅是数据空间。
例如,我喜欢他关于OpenSea的文章,这是一个NFT市场,展示了精益对指数增长的重要性。
Packy的Not Boring新闻通讯的图片。
保持前沿
数据世界发展迅速,甚至在经济衰退期间其速度也在加快。产生的数据量并没有减少。因此,如果你想了解事物的发展方向,我相信你必须走出中流砥柱,走进这些地方,进入混乱中,挑选出好的东西,或者继续使用中流砥柱,成为派对上一年的人。
想了解如何构建出色的数据公司、出色的数据重型产品、成为出色的数据团队,或如何使用开源构建任何出色的东西吗?那么考虑加入我的免费通讯“Three Data Point Thursday”。它已成为数据初创公司、风险投资公司和数据领导者的可靠资源。
对于数据工程感兴趣吗?我每周分享我最喜欢的6篇文章,请订阅Finish Slime。_
评论(0)