紧跟着 Apache Superset 和 Apache ECharts 的步伐,Apache 软件基金会(ASF)近日宣布将 Apache DataSketches 提升为顶级项目(Top-Level Project,TLP)。

Apache DataSketches 是开源的高性能大数据流算法库,主要针对大规模计算环境,目前有非常多的企业均在使用,例如:尼尔森、Permutive、Splice Machine 和 Verizon 等。该项目于 2012 年起源于 Yahoo,并于 2015 年开源,随后于 2019 年 3 月进入 Apache 孵化器。

Apache DataSketches 副总裁 Lee Rhodes 说:“我们很高兴成为 ASF 的一员,我们从进入 Apache 孵化器项目至今学到了很多东西,并期待未来能与那些想要使用我们库的新用户展开合作。我们也非常欢迎那些对 DataSketches 算法感兴趣的用户进一步了解我们,以及了解这项令人兴奋的技术,并为 Apache DataSketches 做出贡献,让我们的项目变得更好。”

Apache DataSketches 的专用流算法库(也被称为 sketches)包含小型数据结构,并可大规模处理数据。对于那些想要生成精确结果,但又无法承受大量时间和计算资源消耗的查询,sketches 是一个理想的选择。而对于那些能够接受近似结果的客户,sketches 也是附带实时分析交互式查询的唯一可行选择。

Apache DataSketches 具有以下这些优势:

  • 快速——产生近似结果的速度比传统方法快几个数量级,基于用户配置的大小与精度选择;
  • 高效——sketches 算法可通过一次传输即可处理实时和批量数据;
  • 可合并——允许并行化;
  • 针对处理大数据的大规模计算环境进行了优化,例如:Apache Hadoop、Apache Spark、Apache Druid、Apache Hive、Apache Pig 和 PostgreSQL;
  • 跨多种语言和平台——在 Java、C++ 和 Python 中可用;

Permutive 高级软件工程师 David Cromberge 则表示:“Apache DataSketches 为我们提供了扎实的理论基础,使我们能够以简单、快速和经济高效的方式大规模存储和处理数据。很高兴与他们进行合作,他们在整个过程中都提供了非常大的帮助。”

关于 Apache 孵化器

Apache 孵化器是项目和代码库能够进入 Apache Software Foundation,成为其一员的主要途径。外部组织和现有外部项目均需要通过孵化器才能进入 ASF,而且必须符合 ASF 的的相关规定。

  1. 确保所有项目代码的捐赠均符合 ASF 法律标准。

  2. 建立符合指导原则的新社区。

所有新接受的项目都需要进行孵化,直到进一步的审查表明其基础架构、通信和项目决策过程等方面已经与其他成功的 ASF 项目一致。虽然孵化状态不一定反映项目代码的完整性或稳定性,但确实表明该项目尚未得到 ASF 的完全认可。