博客
关于我
2024年大数据最新数据仓库的基本架构是什么样的?(2),经典好文
阅读量:798 次
发布时间:2023-04-17

本文共 1521 字,大约阅读时间需要 5 分钟。

数据仓库的数据存储

源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。关于数据仓库是否需要存储细节数据,存在两大观点。一部分人认为数据仓库面向分析,所以只需存储特定需求的多维分析模型;另一部分人则认为数据仓库应先建立并维护细节数据,再根据需求从中聚合和处理数据生成特定的分析模型。后一种观点更为倾向。数据仓库并不需要储存所有原始数据,但需要存储细节数据,并且导入的数据必须经过整理和转换,使其面向主题。

具体原因如下:

(1)不需要所有原始数据。数据仓库面向分析处理,但某些源数据对分析价值较低,或其价值远低于储存这些数据的实现和性能成本。例如,用户的省份、城市信息通常已足够,至于用户具体住在哪里可能只对物流商有用,而博客评论中的文本内容可能对文本挖掘有用,但将这些冗长的评论文本存入数据仓库反倒徒增负担。
(2)需要存储细节数据。数据仓库的分析需求会随着时间和业务需求不断变化。只有通过维护细节数据,才能以不变应万变。如果我们仅存储特定需求下搭建的数据模型,当需求变化时将手忙无策。
(3)面向主题处理更具优势。面向主题是数据仓库的核心特性,主要是指合理组织数据以方便分析。源数据的组织形式通常较为混乱,例如点击流数据格式复杂,前台数据库数据是为OLTP操作优化的,这些形式不适合直接分析。只有将数据整理成面向主题的形式,才能真正提升分析效率。例如,将点击流日志整理为页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,便能显著提升分析效率。

数据仓库基于维护细节数据,在对数据进行处理后,使其能够真正应用于分析。主要包括以下三个方面:

数据的聚合

聚合数据指基于特定需求的简单聚合。简单聚合体现在多维数据模型中,例如网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg. time on page、Avg. time on site等平均数据,这些数据可以直接展示于报表上。

多维数据模型

多维数据模型提供了多角度、多层次的分析应用。例如,基于时间维、地域维构建的销售星形模型、雪花模型,可以实现不同时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。多维数据模型的应用通常与联机分析处理(Online Analytical Process, OLAP)相关,同时面向特定需求群体的数据集市也会基于多维数据模型进行构建。

业务模型

业务模型是基于某些数据分析和决策支持而建立的数据模型。例如,用户评价模型、关联推荐模型、RFM分析模型等;或者是决策支持的线性规划模型、库存模型等。此外,数据挖掘中前期数据的处理也可以在这里完成。

数据仓库的数据应用

报表展示
报表是数据仓库中最基础、最直观的数据应用之一。它将聚合数据和多维分析数据展示于报表,提供最为简单直观的数据呈现形式。

即席查询

理论上,数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询。即席查询提供了足够灵活的数据获取方式,用户可以根据需求查询数据,并支持将数据导出至Excel等外部文件。

数据分析

数据分析是数据仓库的重要应用之一。通过分析数据,可以为业务决策提供支持。以下是数据分析的具体方法:

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

一个人可以走得很快,但一群人才能走得更远!不论你是从事IT行业的老鸟,还是对IT行业感兴趣的新人,都欢迎加入我们的技术交流群。这里不仅有丰富的学习资源,还有职场吐槽、面试辅导、内推信息,等等。让我们一起学习、成长!

转载地址:http://fagfk.baihongyu.com/

你可能感兴趣的文章
MySQL 数据类型和属性
查看>>
mysql 敲错命令 想取消怎么办?
查看>>
Mysql 整形列的字节与存储范围
查看>>
mysql 断电数据损坏,无法启动
查看>>
MySQL 日期时间类型的选择
查看>>
Mysql 时间操作(当天,昨天,7天,30天,半年,全年,季度)
查看>>
MySQL 是如何加锁的?
查看>>
MySQL 是怎样运行的 - InnoDB数据页结构
查看>>
mysql 更新子表_mysql 在update中实现子查询的方式
查看>>
MySQL 有什么优点?
查看>>
mysql 权限整理记录
查看>>
mysql 权限登录问题:ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: YES)
查看>>
MYSQL 查看最大连接数和修改最大连接数
查看>>
MySQL 查看有哪些表
查看>>
mysql 查看锁_阿里/美团/字节面试官必问的Mysql锁机制,你真的明白吗
查看>>
MySql 查询以逗号分隔的字符串的方法(正则)
查看>>
MySQL 查询优化:提速查询效率的13大秘籍(避免使用SELECT 、分页查询的优化、合理使用连接、子查询的优化)(上)
查看>>
mysql 查询数据库所有表的字段信息
查看>>
【Java基础】什么是面向对象?
查看>>
mysql 查询,正数降序排序,负数升序排序
查看>>