avatar

目录
数据仓库-用户行为数据仓库

参考:http://blog.sina.com.cn/s/blog_c30a9e680102z9mp.html

[toc]

数仓分层概念

为什么要分层

分层结构图

原始数据层

明细数据层

服务数据层

数据应用层

区分数据集市和数据仓库

数仓搭建环境准备

Hive&MySQL安装

Hive运行引擎Tez

cdh版本的hive需要下载Tez源码自己编译

编译参考:

CDH 5.16.1 Hive 整合 Tez

大数据之CDH5.16.1集成Tez0.9.2

然后将编译好的tez-0.9.2.tar.gz 进行与hive整合

运行hive时遇到报错:

IllegalArgumentException: Illegal Capacity

解决办法:在hive-site.xml中添加 (参考 CDH环境下安装Tez(Hive on Tez )

Code
1
2
3
4
<property>
<name>hive.tez.container.size</name>
<value>1024</value>
</property>

问题解决!

数仓搭建之ODS & DWD

创建数据库

ODS层

为啥创建外部表?

如何分区?

创建启动日志表ods_start_log

创建事件日志表ods_event_log

ODS层加载数据脚本

DWD层数据解析

只有最后一层不用压缩,中间过程都可以用压缩格式

parquet? 列式存储

创建基础明细表

自定义UDF函数(解析公共字段)

自定义UDTF函数(解析具体事件字段)

解析启动日志基础明细表

解析事件日志基础明细表

DWD层数据解析脚本

DWD层

商品点击表

商品详情页表

商品列表页表

DWD层加载数据脚本

业务知识准备

业务术语

系统函数

需求一:用户活跃主题

需求二:用户新增主题

需求三:用户留存主题

文章作者: Machine
文章链接: https://machine4869.gitee.io/2019/12/04/20191204140743901/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 哑舍
打赏
  • 微信
    微信
  • 支付宝
    支付宝

评论