博客
关于我
2024年大数据最新数据仓库的基本架构是什么样的?(2),经典好文
阅读量:798 次
发布时间:2023-04-17

本文共 1521 字,大约阅读时间需要 5 分钟。

数据仓库的数据存储

源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。关于数据仓库是否需要存储细节数据,存在两大观点。一部分人认为数据仓库面向分析,所以只需存储特定需求的多维分析模型;另一部分人则认为数据仓库应先建立并维护细节数据,再根据需求从中聚合和处理数据生成特定的分析模型。后一种观点更为倾向。数据仓库并不需要储存所有原始数据,但需要存储细节数据,并且导入的数据必须经过整理和转换,使其面向主题。

具体原因如下:

(1)不需要所有原始数据。数据仓库面向分析处理,但某些源数据对分析价值较低,或其价值远低于储存这些数据的实现和性能成本。例如,用户的省份、城市信息通常已足够,至于用户具体住在哪里可能只对物流商有用,而博客评论中的文本内容可能对文本挖掘有用,但将这些冗长的评论文本存入数据仓库反倒徒增负担。
(2)需要存储细节数据。数据仓库的分析需求会随着时间和业务需求不断变化。只有通过维护细节数据,才能以不变应万变。如果我们仅存储特定需求下搭建的数据模型,当需求变化时将手忙无策。
(3)面向主题处理更具优势。面向主题是数据仓库的核心特性,主要是指合理组织数据以方便分析。源数据的组织形式通常较为混乱,例如点击流数据格式复杂,前台数据库数据是为OLTP操作优化的,这些形式不适合直接分析。只有将数据整理成面向主题的形式,才能真正提升分析效率。例如,将点击流日志整理为页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,便能显著提升分析效率。

数据仓库基于维护细节数据,在对数据进行处理后,使其能够真正应用于分析。主要包括以下三个方面:

数据的聚合

聚合数据指基于特定需求的简单聚合。简单聚合体现在多维数据模型中,例如网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg. time on page、Avg. time on site等平均数据,这些数据可以直接展示于报表上。

多维数据模型

多维数据模型提供了多角度、多层次的分析应用。例如,基于时间维、地域维构建的销售星形模型、雪花模型,可以实现不同时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。多维数据模型的应用通常与联机分析处理(Online Analytical Process, OLAP)相关,同时面向特定需求群体的数据集市也会基于多维数据模型进行构建。

业务模型

业务模型是基于某些数据分析和决策支持而建立的数据模型。例如,用户评价模型、关联推荐模型、RFM分析模型等;或者是决策支持的线性规划模型、库存模型等。此外,数据挖掘中前期数据的处理也可以在这里完成。

数据仓库的数据应用

报表展示
报表是数据仓库中最基础、最直观的数据应用之一。它将聚合数据和多维分析数据展示于报表,提供最为简单直观的数据呈现形式。

即席查询

理论上,数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询。即席查询提供了足够灵活的数据获取方式,用户可以根据需求查询数据,并支持将数据导出至Excel等外部文件。

数据分析

数据分析是数据仓库的重要应用之一。通过分析数据,可以为业务决策提供支持。以下是数据分析的具体方法:

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

一个人可以走得很快,但一群人才能走得更远!不论你是从事IT行业的老鸟,还是对IT行业感兴趣的新人,都欢迎加入我们的技术交流群。这里不仅有丰富的学习资源,还有职场吐槽、面试辅导、内推信息,等等。让我们一起学习、成长!

转载地址:http://fagfk.baihongyu.com/

你可能感兴趣的文章
mysqldump实现数据备份及灾难恢复
查看>>
mysqldump数据库备份无法进行操作只能查询 --single-transaction
查看>>
mysqldump的一些用法
查看>>
mysqli
查看>>
MySQLIntegrityConstraintViolationException异常处理
查看>>
mysqlreport分析工具详解
查看>>
MySQLSyntaxErrorException: Unknown error 1146和SQLSyntaxErrorException: Unknown error 1146
查看>>
Mysql_Postgresql中_geometry数据操作_st_astext_GeomFromEWKT函数_在java中转换geometry的16进制数据---PostgreSQL工作笔记007
查看>>
mysql_real_connect 参数注意
查看>>
mysql_secure_installation初始化数据库报Access denied
查看>>
MySQL_西安11月销售昨日未上架的产品_20161212
查看>>
Mysql——深入浅出InnoDB底层原理
查看>>
MySQL“被动”性能优化汇总
查看>>
MySQL、HBase 和 Elasticsearch:特点与区别详解
查看>>
MySQL、Redis高频面试题汇总
查看>>
MYSQL、SQL Server、Oracle数据库排序空值null问题及其解决办法
查看>>
mysql一个字段为空时使用另一个字段排序
查看>>
MySQL一个表A中多个字段关联了表B的ID,如何关联查询?
查看>>
MYSQL一直显示正在启动
查看>>
MySQL一站到底!华为首发MySQL进阶宝典,基础+优化+源码+架构+实战五飞
查看>>