Apache Apex(数据流和批量大数据分析技术)被提升为Apache顶级项目

更新时间:2016-05-19 09:38:01 点击次数:2712次
Apache Apex

Apache Spark日益受到关注,表明了数据流在大数据生态系统中变得到底有多重要。在上个月于圣何塞召开的Strata + Hadoop World大会上,实时数据及支持它的技术也许是耀眼的明星。

所以,Apache Apex本周被Apache软件基金会提升为一个顶级项目(TLP)可能并非巧合。面向Hadoop的这个数据流和批量处理引擎被通用电气Predix物联网云平台用于工业数据和分析,并被资本用于实时决策和欺诈检测。

2012年,DataTorrent初开发了这项技术,后来在2015年8月把它贡献给了Apache软件基金会,作为一个孵化器项目。

泰德·邓宁(Ted Dunning)是Apache孵化器的副总裁,Apache Apex孵化器导师,也是MapR Technologies公司的首席应用架构师。他在一份事先准备好的声明中说:“Apache Apex这个例子表明,新一代的高级流处理软件比之前的方案大大增添了技术和功能。”

Apache Apex能够在Apache Hadoop上实现数据流分析。其目的在于充分利用Hadoop的两大组件YARN和Hadoop分布式文件系统(HDFS)提供的基础设施。Apache软件基金会在宣布这项技术提升为顶级项目的声明中表示,Apache Apex是一种大规模、高吞吐量、低延迟、容错、统一的大数据流和批量处理平台,面向Hadoop生态系统。

由于企业组织和开发人员将实时分析功能嵌入到流程和应用程序中,面向大数据及分析的数据流技术继续变得越来越重要。知名调研机构弗雷斯特研究公司在今年3月发布了Wave大数据流分析报告,关注了这个趋势,还介绍了提供这项技术的一些厂商。

弗雷斯特研究公司的分析师迈克“瓜尔蒂耶里(Mike Gualtieri)和罗恩”柯伦(Rowan Curran)也是这份报告的撰写者,他们写道:弗雷斯特将转眼即逝的洞察力(perishable insights)定义为紧急的业务情况(风险和机遇),公司只能在短短的时间内检测这些情况,并采取相应行动。数据流分析解决方案可以帮助公司检测高速数据流当中的这类洞察力,并实时采取相应行动。应用程序开发和交付专业人员不应该仅仅认为数据流分析只是一种用于事后分析的传统分析技术。远非如此,数据流分析可立即分析数据,分析后善加利用,可以让各种各样的应用程序能够感知场景,并变得更智能化。

弗雷斯特研究公司将Apache Apex的开发者DataTorrent列入其Wave大数据流分析报告的领导者部分,与科技界的一些大牌公司为伍,比如IBM、Software AG、SAP、TIBCO Software、Oracle和SQLstream。

弗雷斯特公司的两位分析师在报告中写道:DataTorrent是硅谷数一数二的数据流初创公司。在雅虎受过培训的几位创始人构建了一个数据流平台,处理世界上庞大、快速的数据。

弗雷斯特公司特别指出,DataTorrent还在竭力实现其他企业级要求,比如可视化开发工具以及包括400多种运算符的库。

两位撰写者得出结论:DataTorrent的核心现在已开源(作为Apache Apex),不过它想在其他开源数据流方案中脱颖而出将是个艰巨的挑战。

Apache软件基金会在宣布新的顶级项目状态时表示,Apex让开发人员可以编写或重复使用一般的Java代码,从而简化开发Hadoop应用程序的工作。这有助于尽量降低编写应用程序所需的专业技能,因而缩短产品上市时间。

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责,本站只提供参考并不构成任何投资及应用建议。本站是一个个人学习交流的平台,网站上部分文章为转载,并不用于任何商业目的,我们已经尽可能的对作者和来源进行了通告,但是能力有限或疏忽,造成漏登,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

回到顶部
嘿,我来帮您!