Apache 软件基金会将 DataSketches 提升为顶级项目

1511 02-05

紧跟着 Apache Superset 和 Apache ECharts 的步伐，Apache 软件基金会（ASF）近日宣布将 Apache DataSketches 提升为顶级项目（Top-Level Project，TLP）。

Apache DataSketches 是开源的高性能大数据流算法库，主要针对大规模计算环境，目前有非常多的企业均在使用，例如：尼尔森、Permutive、Splice Machine 和 Verizon 等。该项目于 2012 年起源于 Yahoo，并于 2015 年开源，随后于 2019 年 3 月进入 Apache 孵化器。

Apache DataSketches 副总裁 Lee Rhodes 说：“我们很高兴成为 ASF 的一员，我们从进入 Apache 孵化器项目至今学到了很多东西，并期待未来能与那些想要使用我们库的新用户展开合作。我们也非常欢迎那些对 DataSketches 算法感兴趣的用户进一步了解我们，以及了解这项令人兴奋的技术，并为 Apache DataSketches 做出贡献，让我们的项目变得更好。”

Apache DataSketches 的专用流算法库（也被称为 sketches）包含小型数据结构，并可大规模处理数据。对于那些想要生成精确结果，但又无法承受大量时间和计算资源消耗的查询，sketches 是一个理想的选择。而对于那些能够接受近似结果的客户，sketches 也是附带实时分析交互式查询的唯一可行选择。

Apache DataSketches 具有以下这些优势：

快速——产生近似结果的速度比传统方法快几个数量级，基于用户配置的大小与精度选择；
高效——sketches 算法可通过一次传输即可处理实时和批量数据；
可合并——允许并行化；
针对处理大数据的大规模计算环境进行了优化，例如：Apache Hadoop、Apache Spark、Apache Druid、Apache Hive、Apache Pig 和 PostgreSQL；
跨多种语言和平台——在 Java、C++ 和 Python 中可用；

Permutive 高级软件工程师 David Cromberge 则表示：“Apache DataSketches 为我们提供了扎实的理论基础，使我们能够以简单、快速和经济高效的方式大规模存储和处理数据。很高兴与他们进行合作，他们在整个过程中都提供了非常大的帮助。”

关于 Apache 孵化器

Apache 孵化器是项目和代码库能够进入 Apache Software Foundation，成为其一员的主要途径。外部组织和现有外部项目均需要通过孵化器才能进入 ASF，而且必须符合 ASF 的的相关规定。

确保所有项目代码的捐赠均符合 ASF 法律标准。
建立符合指导原则的新社区。

所有新接受的项目都需要进行孵化，直到进一步的审查表明其基础架构、通信和项目决策过程等方面已经与其他成功的 ASF 项目一致。虽然孵化状态不一定反映项目代码的完整性或稳定性，但确实表明该项目尚未得到 ASF 的完全认可。