[toc]
数仓分层概念
为什么要分层
分层结构图
原始数据层
明细数据层
服务数据层
数据应用层
区分数据集市和数据仓库
数仓搭建环境准备
Hive&MySQL安装
Hive运行引擎Tez
cdh版本的hive需要下载Tez源码自己编译
编译参考:
然后将编译好的tez-0.9.2.tar.gz 进行与hive整合
运行hive时遇到报错:
IllegalArgumentException: Illegal Capacity
解决办法:在hive-site.xml中添加 (参考 CDH环境下安装Tez(Hive on Tez ) )
Code
1 | <property> |
问题解决!
数仓搭建之ODS & DWD
创建数据库
ODS层
为啥创建外部表?
如何分区?
创建启动日志表ods_start_log
创建事件日志表ods_event_log
ODS层加载数据脚本
DWD层数据解析
只有最后一层不用压缩,中间过程都可以用压缩格式
parquet? 列式存储






