hive使用动态CBO:在执行计划生成的过程中动态优化的方式 数据源通过离线的方式导入到离线数仓中 业务实时性要求不断提高,实时处理从次要部分变成主要部分 不足 不足 处理方式 整个架构中实时计算一般是Spark+Flink配合文章目录
1.什么是大数据平台?
2.数仓和数据库的区别
 
项目 
Hive 
RDBMS 
 
查询语言 
HQL 
SQL 
 
数据存储 
HDFS 
本地磁盘 
 
索引 
无 
有 
 
执行 
MapReduce 
Executor 
 
执行延时 
高 
低 
 
数据规模 
大 
小 
3.大数据技术栈

4.数仓的分层

 
5.离线数仓架构和实时数仓架构
离线数仓架构
 数据分层架构:ODS、DWD、DM
 下游应用根据业务需求选择直接读取DM实时数仓架构
 Lambda架构:在离线大数据架构基础上加了一个加速层,使用流处理技术完成实时性较高的计算
 Kappa架构:一实时事件处理为核心,统一数据处理对比
 
数仓类型 
准确性 
实时性 
稳定性 
 
离线数仓 
准确度高 
时延一般在一天 
稳定性好,方便重算 
 
实时数仓 
准确度低 
分钟级延迟 
稳定性差,需考虑数据回溯 
6.数仓架构发展
Lambda架构
Kappa 架构
7.实时数仓建设案例

 
8.实时数仓建设
 消息队列Kafka一家独大,配合HBase、ES、Mysql进行数据落盘
 OLAP领域Presto、Druid、Clickhouse、Greenplum等等层出不穷
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算
 官方软件产品操作指南 (170)
官方软件产品操作指南 (170)