Databricks
Apache Spark创始团队创建的数据与AI平台,统一数据工程、分析和机器学习工作流。
历史时间线
- 2013年:Apache Spark创始团队(Matei Zaharia等)在伯克利创立Databricks
- 2016年:推出托管Spark云服务
- 2019年:推出Delta Lake,解决数据湖的可靠性问题
- 2021年:收购8K Technology,推出MLflow管理机器学习生命周期
- 2023年:推出Lakehouse Platform,统一数据+AI;估值430亿美元
- 2024年:年收入超20亿美元,估值约430亿美元,准备IPO
商业模式
基于云的Lakehouse平台(Databricks Workspace),按计算消耗(DBU)收费。产品覆盖:数据工程(Spark/Delta)、数据分析(SQL Warehouse)、机器学习(MLflow)、AI治理(Unity Catalog)、生成式AI(MosaicML)。
护城河分析
Apache Spark开源项目的创始团队——对核心技术的理解无人能及;Delta Lake开源标准的事实地位;Lakehouse架构统一数据湖和数据仓库,简化企业数据栈;开源+商业的双引擎模式。
关键数据
年收入超20亿美元(2024);估值约430亿美元;全球约7,000名员工;超10,000家企业客户;Fortune 500超60%使用;Delta Lake被Apache基金会接纳为顶级项目。
有趣事实
Databricks的联合创始人Matei Zaharia在斯坦福读博期间开发了Apache Spark——当时他的研究课题是'如何让大数据分析更快',结果Spark比当时最流行的Hadoop MapReduce快100倍(在内存中处理)。Databricks这个名字来源于'Data'+'Bricks'——意为用数据构建(bricks)智能。