xinxi1368 发表于 2025-4-25 17:35:36

2022开源大数据热力报告:从Hadoop到多元化技术发展的十五年历程与未来趋势

作者| Cai

采访客人| Liu ,Jia ,Wang Feng

作为开源大数据项目的起源,它已经存在了15年以上。在过去的十年中,开源大数据领域发展迅速,我们目睹了多元化技术的兴起和变化。

In order to   the past,andof openbig data   dataandfrom thedatafrom the code, and    forandin the , ,and   andof openbig data , the Open Atom Open, X-Lab Open , andOpen   the "2022 OpenBig Data Heat " .

自2015年开发的第10年以来,该报告已收集了相关的公共数据进行相关分析,并研究了开源大数据进入新阶段以及开源模型在技术趋势上的操作模型的作用。

在研究了102个最活跃的开源大数据项目之后,该报告发现,每40个月,开源项目的热价值将增加一倍,并且该技术将完成一轮更新和迭代。在过去的8年中,已经进行了5种大规模的技术热转换,多样化,整合和云本地已经成为开源大数据当前开发趋势的最突出特征。

开放原子开源基金会副秘书长Liu 表示,该报告希望重点对以下团体有所帮助:

(1)公司和开发人员从事大数据技术的研究和开发。通过报告,他们可以理解大数据技术的发展趋势,以指导学习方向并提高自己的技能,并从技术活动的角度为应用程序开发的技术选择提供一定的参考。

(2)对为开源项目贡献代码感兴趣的开发人员。有许多开源大数据细分,并且有很多花朵开花,但是还有一些相对较弱的链接,例如数据安全和数据管理。开发人员可以输入多个细分,以帮助这些领域的发展更好。

(3)开源大数据项目的操作员或维护者。他们可以从优秀项目的热发展趋势中获得经验和规则,以更加成熟的方式运营开源项目。

对于大数据从业人员,开源大数据项目的热迁移背后的技术开发逻辑是什么?每个人都应该如何应对新技术趋势带来的挑战?为了应对这些问题,InfoQ最近与阿里巴巴集团副总裁,阿里巴巴开源委员会主席Jia 聊天,阿里巴巴云计算平台业务部门负责人和Wang Feng(发起的Mo Wen),Flink中国社区的发起人,阿里巴巴中国社区和阿里巴巴开放量大数据平台。

多元化的用户需求促进技术多元化

核心的开源大数据系统已从多元化的技术转变为2015年的平行开发。

一方面,原始系统的产品迭代已经变得稳定。一些生态项目(例如HDFS)已成为其他新兴技术的基本依赖性。开源生态市场已经测试了一些常见的开源大数据组合,例如Flink+Kafka,Spark+HDFS等,它们相对成熟且易于使用,并且已成为相对固定的标准化选择。

另一方面,开发人员的热情涌向六个主要的技术热点:“搜索和分析”,“流处理”,“数据可视化”,“交互式分析”,“数据湖”。每个热点字段都致力于解决特定方案问题。

https://img0.baidu.com/it/u=2020832883,1691679469&fm=253&fmt=JPEG&app=138&f=JPEG?w=667&h=500

报告中呈现的热区域中的热过渡(热值大跳)与以下方式一致:“数据可视化”在2016年和2021年经历了两个热过渡,“搜索和分析”和“流程处理”和“流动处理”在2019年经历了两个热过渡,“互动分析”,“交互式分析”和“在2018年和2021和2021,以及2020年的热量过渡中经历了两个热过渡,并在2021年和2020年经验丰富。

这也与大数据应用程序方案和规模变化的趋势相呼应:从高层数据可视化应用程序的普及到数据处理技术的升级到数据存储和管理的结构演变,最终,数据基础设施能力的提高又可以促进高级应用技术的创新技术。

Jia 认为,在热过渡后,技术发展是一个螺旋式向上的过程。在用户端需求推动该技术后,系统方需要向前迈出一步,以实现更好的可扩展性,更低的成本和更高的灵活性。当系统端达到可以携带大规模数据计算,处理和分析的状态时,每个人都将开始寻找用户端还是业务方面的更好的数据分析,可视化等。例如,流行的开源大数据可视化工具,其背后的商业公司最近在BI中进行了新的探索。

与原始系统变得稳定相比,在新的情况下,例如数据治理分析,流式计算 + OLAP,数据湖等,开源大数据组件仍在不断创新,将来有很多变量。

随着这些后来的大数据开源组件变得越来越复杂,开发人员也越来越困难地掌握开源数据平台。这实际上给想要使用开源组件构建企业​​级的大数据平台的企业带来了巨大的挑战。

首先,大多数业务场景都需要相互结合使用多个大数据组件,这要求技术团队同时掌握许多不同的大数据组件,并能够集成并知道如何更好地将这些组件组合在一起。但是,大多数中小型公司或传统公司没有足够的基本大数据才能。因此,企业可能需要一个更专业的大数据团队来为他们提供设计,咨询和指导,以便他们可以将开源大数据的组成部分连接在一起,以形成完整的解决方案。

其次,当业务规模增加时,企业对大数据平台的稳定性,安全性和高可用性功能的要求也将增加,这将不可避免地提高构建大数据平台的复杂性。例如,当系统中存在问题时,有什么问题?如何诊断,分析和警报以实现实时可观察性。这些支持功能本身不可用来开源大数据组件。这需要开源生态系统中的支持工具或产品,以帮助企业更好地发现,找到和解决问题。

在贾扬金和王冯的角度看,可以通过云标准化产品在一定程度上解决上述挑战。但是从另一个角度来看,云本身实际上给大数据技术堆栈带来了一些新的挑战。

云本地带来的变化和挑战

该报告表明,2015年以后出现的新项目在云土著的方向上取得了积极的技术布局。开源项目出生于云原住民时代,例如,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,发音生项目,像雨后在蘑菇一样在地面上发芽。这些新项目的热价值在2022年达到了51%。其中,数据集成,数据存储,数据开发和管理领域的项目变化非常大,新项目的热价值超过80%。从2020年开始,Spark,Kafka和Flink等主流项目也得到了正式支持。

在云本地趋势下,开源大数据技术堆栈正在重建中。其中,数据集成字段的重建速度要比其他子扇区快。

随着云中多元化数据收集需求的爆炸以及下游数据分析逻辑的变化,数据集成已从“劳动密集型” ETL工具发展为灵活,高效且易于使用的“数据处理组装线”。传统的数据集成工具水槽和骆驼处于稳定的维护状态,Sqoop于2021年从基金会退休。和Flink CDC等项目更加紧密地集成到云原生。

从报告的热趋势中可以看出,云本地数据集成在2018年超过了传统数据集成。自2019年以来,这种演变已经加速,热值逐年翻了一番。许多新孵化的项目的热力值的平均复合增长率超过100%,并且增长动量很强。

在过去的几年中,数据源和数据存储逐渐转移到云中,并且更多元化的计算负载也一直在云到云。云基础实际上更改了开源大数据的许多前提。作为这一变化的见证,王冯深受感动。

https://img0.baidu.com/it/u=889735927,1219113476&fm=253&fmt=JPEG?w=1588&h=800

十多年前,王冯(Wang Feng)参加了大数据开发的工作。当时,他是一位相对较小的工程师,他的大部分工作都是基于当地机器。需要考虑的问题包括选择哪种型号,磁盘的大小,磁盘是否大还是内存大。

如今,大数据的基础已成为云上的虚拟机,容器,对象存储和云存储。从一开始,所有开源项目都需要考虑弹性体系结构,如何具有良好的可观察性,如何自然地与云本地生态学联系等。这些问题已经存在于每个人的潜意识中,并在初始阶段改变了许多开源项目的期望。

同时,在云上运行后,数据体系结构也将改变。例如,计算和存储的分离已成为大数据平台的标准体系结构,这是每个人默认情况下必须考虑的问题。因此,无论它是什么大数据组件(Flink,Hive等),在制作数据时,您都必须考虑到您不能再依靠本地机器,并且不能假设会有本地磁盘,因为机器肯定会在云上迁移。考虑到自适应调度的云资源模型的更改,这需要一般服务来协助完成这项工作。不久前,捐赠给基金会的开源项目是帮助计算引擎改善数据性能。

在技​​术层面上,云给原始开源大数据系统带来的挑战远不止于此。例如,调度的基础知识。过去,每个人过去都在互联网上进行资源管理和调度。进入云后,每个人都接受了生态系统,并根据它进行了编排和日程安排。但是,作为一项在线调度服务,在调度大规模数据计算任务中有瓶颈,而阿里巴巴本身已经做出了许多改进。

此外,尽管云存储具有许多优势,但它在传输带宽和数据方面也存在缺陷。后来的一些开源项目(例如,等)是为了解决云存储加速的问题,而阿里巴巴云EMR上的大数据存储加速服务也正在这样做。 Wang Feng说,开源大数据系统仍在不断发展,仍然需要一段时间才能真正与Cloud 集成。

大数据从业人员将来如何发展?

作为技术创新的实验领域,Cloud 带来了更灵活的资源灵活性,较低的存储,操作和维护成本,使许多公司能够在云上进行更多大胆的尝试,这增强了每个人的意愿尝试犯错并尝试新事物,并且自然而然地有助于创新技术或软件的成功。 Jia 观察到,许多新软件或海外的新引擎将走上“首先吸引用户,然后将用户转换为客户”的道路。他认为,这可能会在未来成为中国的趋势,因为云确实提供了良好的资源和软件分销环境。

但是,Yun只是给了所有人的锤子。如果一个人没有能力,他可能会在使用它时击中自己的脚。例如,由于用户更容易在云上获得资源,因此他们可能会更随意地执行数据存储,从而导致浪费。因此,从业务角度来看,云服务提供商和用户实际上是集成的。在大规模开源数据系统上,云服务提供商需要根据企业的需求进行更多数据治理工作,以帮助用户充分利用云并避免浪费资源。 Jia 说,如何更有效地使用云平台和云资源已成为对企业的越来越关注的需求。现在是因为企业级软件正在这样做,并且将来可能会出现更多的开源工具。

为了享受未来的数据工程趋势,贾扬平(Jia )认为,大数据从业人员可以关注三个方向。首先是云化,也就是说,使用云来解决系统体系结构的问题,涵盖了四个级别:离线实时集成,大数据AI集成,流和批处理集成以及集成。现在,无论是开源项目还是封闭的源产品,它们实际上都在更集成的方向发展。 Flink社区的新项目也是朝这个方向探索。在最终分析中,它是在一定程度上降低大数据技术堆栈的复杂性。将来,计算引擎还可以与数据治理和数据编排工具相结合,以形成集成数据解决方案。

其次,高级数据的应用将变得更简单。从长远来看,对于最终用户,可以使用常见的SQL方法对所有数据进行分析。最后,将来会有更多的生态系统发展。无论是阿里巴巴云的Flink,EMR还是海外,它们都是工具平台。在这些数据平台上,有更多类似的公司来制造更丰富的垂直解决方案,并最终形成更繁荣的数据生态系统。当然,前提是数据平台首先是标准化的。

Wang Feng对数据生态系统的未来发展也很乐观,尤其是对于开源大数据,生态系统更为关键。如今,尽管许多欧美数据公司都有自己的特征,但它们可以彼此形成协同作用,因此每个人都处于健康的竞争状态。 Wang Feng认为,这将有助于促进各种制造商的产品的标准化,并为用户和客户带来许多好处。从整个应用市场的角度来看,在形成标准化之后,所有各方都可以以相对较低的成本访问此数据工程生态系统,进而可以使整个市场蛋糕在一起更大。

在数据工程快速发展的领域中,大数据从业人员将来如何发展?工作角色和职责将来会改变吗?

Jia 认为,将来,系统工程师,数据工程师和数据科学家的作用将继续存在。但是云解决了许多系统问题,因此越来越多的工程师角色将开始朝着高层业务发展。集中于系统构建的基本工作,即系统工程师的作用,可能更集中在云数据服务提供商,数据引擎服务提供商等方面,这些提供者提供了标准化的服务。其他公司将更多地关注业务本身,并在数据科学和高层业务上投入更多的人力,并且不再需要这么多的系统工程师。这是社会劳动分工的必然结果。

对于数据科学家和数据工程师,他们的责任将更多地集中在使用数据来实现业务价值,包括基于业务需求的数据建模,数据治理和其他工作,并且不再需要解决基本的系统以及以前的操作和维护问题,因为这些问题已由系统工程师和云解决。
页: [1]
查看完整版本: 2022开源大数据热力报告:从Hadoop到多元化技术发展的十五年历程与未来趋势