一、Databricks 数据洞察产品介绍1、 Databricks 公司简介2、 什么是阿里云 Databricks 数据洞察产品01\ Databricks 公司简介① ApacheSpark 创始公司,也是 Spark 的最大代码贡献者,Spark 技术生态背后的商业公司。在2013年,由加州大学伯克利分校 AMPLab 的创始团队 ApacheSpark 的创建者所成立。② 核心产品和技术,主导和推进 Spark 开源生态ApacheSpark、DeltaLake、Koalas 、MLFlow、OneLakehousePlatform③ 公司定位Databricksis the Data + AI company,为客户提供数据分析、数据工程、数据科学和人工智能方面的服务,一体化的 Lakehouse 架构开源版本 VS 商业版本:公司绝大部分技术研发资源投入在商业化产品多云策略,与顶级云服务商合作,提供数据开发、数据分析、机器学习等产品,Data+AI 一体化分析平台④ 市场地位科技独角兽,行业标杆,领导Spark整体技术生态的走向及风向标2021年最受期待的科技上市公司02\ Databricks 公司估值及融资历史(来源 Databricks 官网)① 2019年10月G轮,估值 $ 6.2 Billion② 2021年2月初F轮,估值 $ 28 Billion本轮融资,三大云服务商 AWS、GCP、MSAzure 以及 Salesforce 都进行了跟投——足以看到云厂商对 Databricks 的发展的重视上市预期:计划 IPO 在2021年——多方预测 Databricks 上市之时其估值可能达到350亿美元,甚至是高达500亿美元03\ Databricks 和阿里云联手打造的高品质 Spark 大数据分析平台Apache Spark 背后的商业公司,Spark 创始团队,美国科技独角兽在全球拥有5,000多个客户和450多个合作伙伴,品牌认知强2020年,在 Gartner 发布的数据科学和机器学习(DSML)平台魔力象限报告中,位于领导者象限04\ Databricks + 阿里云 = Databricks 数据洞察产品核心:基于商业版 Spark 的全托管大数据分析& AI 平台内置商业版 Spark 引擎 Databricks Runtime ,在计算层面提供高效、稳定的保障与阿里云产品集成互通,提供数据安全、动态扩容、监控告警等企业级特性产品引擎与服务:100% 兼容开源 Spark,经阿里云与 Databricks 联合研发性能优化提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务DDI 产品能力核心构件产品关键信息与优势二、DDI 产品功能介绍1、整体架构2、引擎能力3、性能4、功能5、成本01\ 阿里云 Databricks 数据洞察 (DDI) 架构02\ 引擎:企业级性能优化,提升计算引擎效率和数据读写效率企业级高性能、稳定性、可靠性03\ 企业级 Databricks Runtime vs 社区版 Open Source Spark04\ 基于计算存储分离的架构,HDFS vs OSS 成本的对比05\ 基于 JindoFS 进行 OSS 访问优化加速,优化数据访问性能06\ 交互式分析 Notebook ,聚集数据优化的 Apache Zeppelin多语言支持Scala、Python、Spark SQL、R交互式分析数据可视化集成调度能力一站式开发平台多用户协作开发07\ 数据开发作业提交 & 工作流调度支持 jar 包提交作业及作业调度能力支持 Spark/Spark Streaming/Notebook不同作业类型工作流混合调度支持调度运维、审计日志、版本控制等08\ 丰富的数据源支持09\ 元数据管理三种元数据选择的方式三、典型场景1、客户存在的痛点问题及 DDI 如何解决2、Lambda 架构到批流一体架构3、Lakehouse 架构的演进4、DDI 在阿里云中产品的组合01\ 开源大数据平台客户普遍存在的痛点问题02\ Databricks 数据洞察在四大场景帮助客户提升生产效率03\ Delta Lake 的项目背景以及要解决的问题04\ 大数据发展进入 Lake House 时代05\ 使用 DDI 构建批流一体数仓,简化复杂架构06\ DDI 在阿里云产品中的组合07\ Databricks 数据洞察典型架构DDI 与阿里云产品深度集成(典型场景)数据获取接收实时产生的流式数据和外部云存储上批量数据。数据 ETL持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障。BI报表数据分析 & 交互式分析支持 Ad hoc 查询,Notebook 可视化分析,无缝对接多种BI分析工具。AI数据探索支持机器学习,Mllib 等 Spark 生态 AI 场景。上下游网络打通如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等。四、典型场景客户案例介绍1、基智科技(STEPONE)自建上云案例2、工业制造头部公司数据分析案例客户案例 01:基智科技(STEPONE)Databricks 上云迁移本架构描述利用 Databricks 数据洞察 解决客户大数据计算问题:数据存储:自建 Hive数仓-》OSS (降低存储成本,同时做计算存储分离)大数据分析:自建 CDH -》Databricks 数据洞察(全托管 Spark ,高性能 Runtime 引擎,Notebook 交互式分析,工作流 DAG 调度, Python 库的安装方便等)元数据:自建 CDH -》RDS MySQL 自建元数据库或使用 DDI 统一元数据库数据迁移:使用 DistCp 或 JindoDistCp 将数据迁移到 OSS,数据结果同步继续使用Sqoop 定时任务客户成本收益分析全托管 Spark 集群免运维,节省人力成本(省1运维+ 1大数据,此外免去性能调优)相比自建机器资源多了3倍,此外算上 Databricks Runtime 相比开源 spark 来说(预估3倍),整体性能提升9倍Notebook 交互式分析+ DAG 工作流调度,提升数据开发/分析体验技术方案统一,计算存储分离方案 OSS 存储节省客户存储成本,并为以后数据湖、多计算架构铺路Delta Lake 解决了客户增量数据更新的问题客户案例 02:工业制造头部空调公司– 大数据分析方案架构数据收集/存储: 接收实时产生的流式数据和外部云存储上批量数据数据 ETL:持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障BI数据分析&交互式分析: 支持查询,Notebook 可视化分析,无缝对接多种BI分析工具数据科学:支持机器学习/深度学习⽣态对接:如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等讲师:棕泽,阿里云技术专家,计算平台事业部开放平台-生态企业团队负责人本文为阿里云原创内容,未经允许不得转载。
本文出自快速备案,转载时请注明出处及相应链接。