数仓为什么要分层举例
京东经济仓是什么?
在观赏鱼的日常养殖中,安装循环过滤系统是很有必要的。主体是过滤箱,过滤箱的分层主要用于上层过滤的滴流过滤箱。过滤不同于两层和三层过滤箱。两层过滤箱和三层过滤箱都包括物理过滤层和生化过滤层,但三层过滤箱比两层过滤箱多一个溢流仓。
1)合理将混凝土分层分块,控制每次浇筑的几何尺寸,加快混凝土散热;
2)控制水化热;
3)降低混凝土仓的温度;
4)控制混凝土的内外温差。
1)合理将混凝土分层分块,控制每次浇筑的几何尺寸,加快混凝土散热;
2)控制水化热;
3)降低混凝土仓的温度;
4)控制混凝土的内外温差。
为了避免底层业务的变化对顶层需求的影响,屏蔽底层复杂的业务逻辑,尽可能简单完整地在接口层呈现业务数据,构建一个高内聚、松耦合的数据组织,使数据从业务角度分离出来,显得尤为重要。从整个集团的业务线出发,形成数据仓库的整体概念框架,划分整个系统所需的功能模块,明确各个模块的技术细节,构建一套完整的开发规范。
分层规格
ODS(原始数据层):又称附源层,ODS层是数据仓库准备区,为DWD层提供基础原始数据。
DWD(详细数据层):与ODS粒度相同的详细数据,用于重复数据删除、脏数据过滤和空处理,保证数据质量。
DWS(服务数据层):简单地汇总数据,并建立一个宽表(按主题)来存储数据。
ADS(应用数据层):存储应用类表数据。
ODS DWD DWS ADS
ODS-DW(轻量级数据汇总层,高级数据汇总层)-DM(数据集市)
表格规格
名字
维度表的命名形式:dim_ description
事实表的命名形式:fact_ description _[AB]
临时表的命名形式:tmp_正式表名_ [C自定义序号]
宽表命名格式:dws_ Subject _ Description _[AB]
备份表的命名形式:正式表名_bak_yyyymmdd
表命名的解释:
1)英文小写字母用于表名。单词之间用下划线隔开,长度不超过40个字符,命名一般控制在小于等于6级。
ABC # 34A # 34的时间粒度:使用#34c#34表示当前数据,#34h#34表示小时数据,#34d#34表示日数据,#34w#34表示周数据,#34m#34表示月数据,#34q#34表示季度数据,#34y#34。
3)其中,ABC的第二位#34B#34表示对象属性,#34t#34表示表格,#34v#34表示视图。
ABC的第三个#34C#34自定义序列号用于标识多个临时表的运行顺序。
给…作注解
注释应结合表的英文名称,注释应简洁明了,反映表的业务来源、主题和目的。
存储格式
所谓存储格式,就是Hive建表时,表中数据的存储。如果指定了,在向表中插入数据时,相应的数据类型将通过这种添加到HDFS中。在几个仓库中默认使用拼花存储格式来构建表,相关语句如下:
存储为输入格式
##39
输出格式
##39
字符集
Hadoop和hive都是utf-8编码,可能会涉及到建表时中文的问题,所以导入文件的字符编码统一为utf-8格式。
任命
理论上,数据仓库中的表中不应该有null未知类型。对于可能有null的字段,如果是字符型,就统一为空字符串,如果是数值型,就给0。
字段规格
名字
1)使用英文小写字母,单词之间用下划线隔开,长度不超过30个字符,命名一般控制在小于等于四级;
2)字段名称与源数据的ods层表的名称相同。如果是新领域,尽量简洁;
3)英文名字尽量专业,符合行业要求,不使用汉语拼音;
4)尽量避免使用关键词。如果不可避免,使用 "` "逃避;
5)如果指标字段可以使用缩写,尽量使用统一的缩写,比如应用金额统计apply_amt_sum。
给…作注解
笔记以简洁、详细、完整为原则。对于有业务含义的字段,需要在注释中列举并解释其业务含义,如ODS _ Loan _ Apidata _ Order _ Info。Order _ Status: 1待支付,2支付不成功,3支付成功;
类型
日期、时间等格式都是字符串类型,字符串也是字符串类型。数值将根据字段定义来确定。小数点要求的需要小数型,比如某些金额和利率,没有小数点要求的用浮点型double和整数型(in)。t,bigint).
代码规格
Sql编码
1)右对齐关键字、详细代码注释、查询字段时每行不超过三个字段、缩进时空四框等相关书写规范。
2)详细数据层依赖于ods层,应用数据层依赖于服务数据层。原则上不允许跨层查询。
3)如果SQL语句连接多个表,应该使用表的别名来引用列。
4)用于4)WHERE条件中的参数和参数值的类型应该匹配,以避免隐式类型转换。
5)在SELECT语句中只获得实际需要的字段。
命令过程
调度脚本主要是通过运行shell脚本,shell脚本的注意点如下:
1)名称与目标表的名称相同,注释要完善,后缀以结尾。先令
2)脚本头需要添加分割线、作者、日期、目的、描述等信息。