DW :data warehouse 翻译成数据仓库
使用hive作为数据仓库中的数据存储一般都是首选,数据仓库分层是指计算和存储共同的分层。
1.为什么要分层
为了不同的业务 ,也为了解耦
1.1、通过数据预处理提高效率,因为预处理,所以会存在冗余数据
1.2、如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大
1.3、通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了
标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集市层),app(应用层)
1.4、空间换时间。通过建设多层次的数据模型供用户使用,避免用户直接使用操作型数据,可以更高效的访问数据。
1.5、把复杂问题简单化。讲一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。
1.6、便于处理业务的变化。随着业务的变化,只需要调整底层的数据,对应用层对业务的调整零感知
2.分哪些层
常见的分层
DW数据分层,由下到上为 DWD,DWB,DWS
DWD:data warehouse detail 细节数据层,有的也称为 ODS层,是业务层与数据仓库的隔离层。
DWB:data warehouse base 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
DWS:data warehouse service 服务数据层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。宽表就是字段比较多,冗余的表。