Kyligence AI 服务 - 让大模型完成准确、可靠的数值计算和回答! 立即了解更多

看中国谁与 TensorFlow 一起荣获最佳开源项目奖

摘要:一年一度由世界知名科技媒体 InfoWorld 评选的 Bossie Awards 于 2016 年 9 月 21 日公布,评选了最佳大数据工具奖,最佳大数据应用奖,最佳网络与安全奖等多个奖项。在最佳开源大数据工具奖中,Google 的 TensorFlow 和 Beam 无可置疑的入选,同时也有 Spark,Elasticsearch, Impala,Kylin,Kafka,Zeppelin 等市场热点,同时有很多新兴的项目入选,例如 SlamData 等。而继 2015 年获奖后,Apache Kylin 再一次入选 2016 年度最佳开源大数据工具奖,足以证明 Apache Kylin 在全球的影响力,这也是唯一来自中国的获奖项目。

Bossie Awards 科技媒体 InfoWorld 针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象,由 InfoWorld 编辑独立评选,目前已经连续近十年,是 IT 届最具影响力和含金量奖项之一。

——韩卿|Luke Han (ApacheKylin PMC Chair)

大数据,快数据,表中数据,数据这个那个-尽可能尝试不同的词语组合-但很难简单建立联系。处理大量数据的问题是很多且不同的,并且没有一个工具可以搞定所有-即使 Spark 也不行。在这几年 Bossies 大奖中,你将发现最新的,最佳的解决方案以利用大规模集群来索引和搜索,图处理,流处理,结构化查询,分布式 OLAP 及机器学习等。基于大量的处理器以及海量的 RAM -人多好办事。

Spark

Spark 是一个分布式内存处理框架,使用 Scala 编写,正在吞噬大数据世界。基于 2.0 版本的发布,其将继续保持优势。除了在实现 SQL 及性能增强的特性外,Spark2.0 将 DataFrame 近一步标准化,提供了新的结构化流式 API (Structured Streaming APIs), 及全新的并改进的 SparkSession。

从批处理的 RDD 转向不再限制的 DataFrame 标志着一个转变,Structured Streaming 将使得特定类型的流式场景(比如获取数据变化:CDC,及直接修:update-in-place)更加易于实现 ——并且允许在 DataFrame 里基于时间列进行 windowing 从而取代了仅支持时间到达的流式处理方式。这是 Spark Streaming 长时间的痛,特别是与竞争对手进行对比的时候,例如 Apache Flink 及 Apache Beam。Spark 2.0 治愈了这个伤口。如果你还没有学习 Spark,是时候学习了。

—— Andrew C. Oliver

Beam

Google 的 Beam ,一个 Apache 孵化器项目,给予我们一个在处理引擎改变时不再重写代码的机会。在Spark刚出现的时候都认为这也许是我们编程模型的未来,但如果不是呢?此外,如果你对 Google 的 DataFlow 的性能及扩展特性有兴趣,你可以在 Beam 里编写程序并且在 DataFlow,Spark,或者即使在 Flink 里运行他们。

我们是多么的喜欢编写一次到处运行的主意以致于不管失败了多少次(看着你呢,Scott McNealy,译者按,其曾为 Sun首席执行官,这句话最早来自Java的宣传语),我们会买单的。即使 Beam 不支持开发者特性例如 REPL,但它为你提供了一个伟大的方式使得你的代码可以面向未来的分布式计算逻辑并且在哪一天运行它。

——Andrew C. Oliver

TensorFlow

Google 开源的他们机器学习的秘密武器。不管你想做文本识别,图像识别,自然语言处理,或者其他类似的复杂的机器学习应用,TensorFlow 也许是你搜索的第一个答案。

TensorFlow 使用 C++ 编写却支持使用 Python编 码。此外,它提供了一个方便的方式在 GPU 和 CPU 上同时运行分布式及为并行优化过的代码。这将成为我们不断探讨的下一个大数据工具。

——Andrew C. Oliver

Solr

来自重量级 Hadoop 供应商,包括 Hortonworks,Cloudera 及 MapR 的选择,Apache Solr 为企业带来了可信任的成熟的搜索引擎技术。Solr 基于 Apache Lucene 引擎,两个项目有很多共同的贡献者。你可以在众多商业本后发现 Solr,例如 Instagram,Zappos,Comcast 及 DuckDuckGo 等。

Solr 包括 SolrCloud,其利用 Apache ZooKeeper 来创建稳定的,分布式搜索及索引解决方案以应对分布式系统常见的问题例如 network split-brain 等。随着可靠性的提升,SolrCloud 能够基于需求扩容或缩减,而且其足够成熟以应对在几百亿文档之间进行海量查询的需求。

——Ian Pointer

Elasticsearch

Elasticsearch, 也是一个基于 Apache Lucene 的开源分布式搜索引擎,它专注在提供 REST APIs 和支持 JSON 文档等更现代的理念。有效的集群可扩展机制使得我们能够以很低的运维成本处理 G 级别 到P 级别的数据。

作为 ELK 技术栈(Elasticsearch,Logstash,以及 Kibana,均为 Elasticsearch 的创建者 Elastic 公司开发)的一部分,Elasticsearch 已经成为日志分析领域的杀手级应用,成为 Splunk 的开源替代者。包括 Netflix,Facebook,Microsoft,Linkedin 等公司,均为日志处理基础设施运维着大规模的 Elasticsearch 集群。同时,ELK 技术栈也在拓展它的领域,包括欺诈检测及领域相关的业务分析等应用,在整个企业范围内广泛地使用 Elasticsearch 技术。

—— Ian Pointer

SlamData

学习 SlamData 对我而言是一个很长的旅程。为什么你用 MongoDB 来做为你的分析解决方案?那是一个操作性数据库。然而,SlamData 的 Jeff Carr 说服了我,看上去并不疯狂。有非常多的新公司及年轻的开发者正在 MongoDB 上孕育。如果你有一个 MongoDB 数据库并需要基本的分析,你需要创建一整个 Hadoo p或者其他的基础架构来构建报表吗?

在数据存储上有太多的为了报表而做的 ETL!于直接从复制节点上出报表相差甚远且非常不容易。SlamData 是一个基于 SQL 的引擎可以原生的访问 MongoDB,而不像 MongoDB 自己的解决方案,SlamDta 不是将所有数据塞进 PostgreSQL 并叫它 BI 连接器。现在核心技术已经开源,我想我们可以期待更多的公司将会采用。

——Andrew C. Oliver

Impala

Apache Impala 是 Cloudera 的 SQL on Hadoop 引擎。如果你在使用 Hive,Impala 是一个简单的方式为你的查询提升性能而不需要你重新思考你该做任何事情。基于列的,分布式的,大规模并行处理系统,Impala 比 Hive on Spark 组合更加成熟。即使不经过多少调优,Impala 也能提升你的性能,而且我敢打赌在投入同样的精力下其将比 Tez 有更好的结果。如果你需要为在 HDFS 上一些文件提供 SQL,Impala 将可能是你的最好的选择。

——Andrew C. Oliver

Kylin

如果你要做多维立方体分析并且你希望使用现代的大数据框架,那么 Kylin 将是你的目标。如果你从未听说过 OLAP 立方体,那么考虑在 RDBMS 上的一些表以一对多的关系存在,有一个计算的字段需要依据来自不同表的其他字段。你可以使用 SQL 来查询并进行计算,但天哪,太慢了!更何况如果有更多的关系及需要计算的字段呢?不同于两个平的表,想象他们是一个立方体的两个面用一些块组成并且每个块都是一个值(可能是预先计算好的)。甚至你可以有N个维度–仍然叫做立方体但比文字意义上的立方体有更多的面。Kylin 确实不是第一个实现分布式 OLAP 的技术,但却是第一个构建在现代技术上的,这也是今天你可以下载并在你喜爱的云上部署的解决方案。

——Andrew C. Oliver

(译者按:Apache Kylin 是唯一一个来自中国的 Apache 软件基金会顶级项目)

Kafka

Kafka 绝对是分布式消息发布与订阅的行业标准了。什么时候能发布 1.0?没人知道,但它已经用在了一些全球最大规模的系统中。Kafka 的消息是可靠的,这点和其他消息系统一致,但又大多数早期同类系统不同,它的提交日志是分布式的。更进一步,Kafka 的分区的流概念支持更高的数据加载以及更多的客户端连接。然而讽刺的是,不管 Kafka 的这些能力多么让人印象深刻,它竟然可以如此简单地安装和配置,这绝对是大数据以及消息领域的特殊意外。

——Andrew C. Oliver

StreamSets

打个比喻,你有很多圆形的数据,要放入方型的洞里。也许这些数据保存在文件中(比如网站日志),或许在 Kafka 的流中。有很多做法可以处理这类问题,但我可以更轻松地让 StreamSets 替我做这些事,而且看起来它比其它解决方案更完整(比如 NiFi)。它有健壮的,不断发展中的连接器(比如 HDFS,Hive,Kafka,Kinesis),有 REST API,以及监控数据流动的易用的 GUI。看起来,它们真的能最终解决这个问题!

——Andrew C. Oliver

Titan

图形数据库理应让整个世界为之燃烧,直到人们开始认识到,做真正有用的图形并不一定意味着必须要按图的方式保存数据。Titan 从某种程度上来说减小了这之间的差异。假如您有一套复杂的图数据库,使用了各种硬件设备,底层使用了可插拔的存储,但最终不得不转向分布式的列式存储。与其它图形数据库相比,Titan 的架构是水平扩展的 (scale out),而不是向上扩展 (scale up)。相比于严格的图形分析框架,Titan 可以提供更好的性能(如 Giraph),也不需要使用大量内存资源或时间来重算图形(如 GraphX)。更不用提它还具备更好的数据完整性的潜力。

——Andrew C. Oliver

Zeppelin

也许你是一个开发者,只想从 Hive 生成一个漂亮的图形;或者你是一个数据科学家,想要一个数据记事本(Notebook),Zeppelin 会非常适合。它使用现在非常流行的 Notebook 概念,用 IPython 编写,允许你生成标签、嵌入代码、执行对 Spark 和其它引擎的查询,并生成文本、表格或图表的形式输出。Zeppeline 仍然缺乏一些类似 DataBricks 产品的功能和多用户功能,但它正在取得稳步进展。如果您使用的 Spark 工作,Zeppelin 是属于你的工具包。

——Andrew C. Oliver

添加企微

kyligence
关注我们

kyligence