数据的强度
6、Wikipedia Search。一部大众百科全书应该运行在开源软件上,并且具有一个由Java驱动的搜索引擎,这是再合适不过的了。Lucene是由Doug Cutting于1999年编写,并以他妻子的中间名命名的,它实际上是Cutting开发的第五个搜索引擎。他作为工程师先后为Xerox PARC(施乐帕克研究中心)、Apple和Excite创建了其他的引擎。2014年,Wikipedia用Elasticsearch代替了Lucene引擎,Elasticsearch是一个分布式的、支持REST的搜索引擎,也是用Java编写的。
7、Hadoop。Lucene并不是唯一一个进入我们这个榜单的Cutting创建的作品。2003年,Google在一篇研究论文中描述了在大型商用计算机集群上处理数据的MapReduce算法,受该论文的启发,Cutting用Java编写了一个MapReduce操作开源框架,并以他儿子的玩具大象命名,称为Hadoop。Hadoop 1.0于2006年发布,催生了大数据趋势,并激发了许多公司开始收集“数据湖”(data lakes),制定挖掘“数据排放”(data exhaust)的策略,并将数据描述为“新石油”(the new oil)。到2008年,Yahoo(当时的Cutting曾在该公司工作)宣称他们的Search Webmap运行在10,000个内核的Linux群集上,是现有的最大的产线Hadoop应用程序。到2012年,Facebook声称在全球最大的Hadoop集群上拥有超过100PB的数据。
8、并行图形分析(Parallel Graph AnalytiX, PGX)。图形分析是有关理解数据中的关系和连接的。根据基准测试,PGX是世界上速度最快的图形分析引擎之一。PGX是用Java编写的,由Oracle Labs研究员Sungpack Hong领导的团队于2014年首次发布, PGX允许用户加载图形数据并运行分析算法,比如,社区发现(Community Detection)、聚类、路径查找、页面排名、影响因素分析、异常检测、路径分析和模式匹配等算法。在健康、安全、零售和金融领域,它的用例比比皆是。
9、H2O.ai。机器学习(ML)的曲线非常陡峭,这可能会阻止领域专家实现伟大的ML想法。自动化ML(AutoML)可以通过推断ML流程中的某些步骤(例如特征工程、模型训练和调整以及转译等)来提供一些帮助。由Java冠军Cliff Click创建的基于Java的开源H2O.ai平台,旨在实现AI的大众化,并能为那些刚入门的人们充当虚拟数据科学家,同时能帮助ML专家提高效率。