博客
关于我
2024年大数据最新数据仓库的基本架构是什么样的?(2),经典好文
阅读量:798 次
发布时间:2023-04-17

本文共 1521 字,大约阅读时间需要 5 分钟。

数据仓库的数据存储

源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。关于数据仓库是否需要存储细节数据,存在两大观点。一部分人认为数据仓库面向分析,所以只需存储特定需求的多维分析模型;另一部分人则认为数据仓库应先建立并维护细节数据,再根据需求从中聚合和处理数据生成特定的分析模型。后一种观点更为倾向。数据仓库并不需要储存所有原始数据,但需要存储细节数据,并且导入的数据必须经过整理和转换,使其面向主题。

具体原因如下:

(1)不需要所有原始数据。数据仓库面向分析处理,但某些源数据对分析价值较低,或其价值远低于储存这些数据的实现和性能成本。例如,用户的省份、城市信息通常已足够,至于用户具体住在哪里可能只对物流商有用,而博客评论中的文本内容可能对文本挖掘有用,但将这些冗长的评论文本存入数据仓库反倒徒增负担。
(2)需要存储细节数据。数据仓库的分析需求会随着时间和业务需求不断变化。只有通过维护细节数据,才能以不变应万变。如果我们仅存储特定需求下搭建的数据模型,当需求变化时将手忙无策。
(3)面向主题处理更具优势。面向主题是数据仓库的核心特性,主要是指合理组织数据以方便分析。源数据的组织形式通常较为混乱,例如点击流数据格式复杂,前台数据库数据是为OLTP操作优化的,这些形式不适合直接分析。只有将数据整理成面向主题的形式,才能真正提升分析效率。例如,将点击流日志整理为页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,便能显著提升分析效率。

数据仓库基于维护细节数据,在对数据进行处理后,使其能够真正应用于分析。主要包括以下三个方面:

数据的聚合

聚合数据指基于特定需求的简单聚合。简单聚合体现在多维数据模型中,例如网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg. time on page、Avg. time on site等平均数据,这些数据可以直接展示于报表上。

多维数据模型

多维数据模型提供了多角度、多层次的分析应用。例如,基于时间维、地域维构建的销售星形模型、雪花模型,可以实现不同时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。多维数据模型的应用通常与联机分析处理(Online Analytical Process, OLAP)相关,同时面向特定需求群体的数据集市也会基于多维数据模型进行构建。

业务模型

业务模型是基于某些数据分析和决策支持而建立的数据模型。例如,用户评价模型、关联推荐模型、RFM分析模型等;或者是决策支持的线性规划模型、库存模型等。此外,数据挖掘中前期数据的处理也可以在这里完成。

数据仓库的数据应用

报表展示
报表是数据仓库中最基础、最直观的数据应用之一。它将聚合数据和多维分析数据展示于报表,提供最为简单直观的数据呈现形式。

即席查询

理论上,数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询。即席查询提供了足够灵活的数据获取方式,用户可以根据需求查询数据,并支持将数据导出至Excel等外部文件。

数据分析

数据分析是数据仓库的重要应用之一。通过分析数据,可以为业务决策提供支持。以下是数据分析的具体方法:

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

一个人可以走得很快,但一群人才能走得更远!不论你是从事IT行业的老鸟,还是对IT行业感兴趣的新人,都欢迎加入我们的技术交流群。这里不仅有丰富的学习资源,还有职场吐槽、面试辅导、内推信息,等等。让我们一起学习、成长!

转载地址:http://fagfk.baihongyu.com/

你可能感兴趣的文章
Mac book pro打开docker出现The data couldn’t be read because it is missing
查看>>
MAC M1大数据0-1成神篇-25 hadoop高可用搭建
查看>>
mac mysql 进程_Mac平台下启动MySQL到完全终止MySQL----终端八步走
查看>>
Mac OS 12.0.1 如何安装柯美287打印机驱动,刷卡打印
查看>>
MangoDB4.0版本的安装与配置
查看>>
Manjaro 24.1 “Xahea” 发布!具有 KDE Plasma 6.1.5、GNOME 46 和最新的内核增强功能
查看>>
mapping文件目录生成修改
查看>>
MapReduce程序依赖的jar包
查看>>
mariadb multi-source replication(mariadb多主复制)
查看>>
MariaDB的简单使用
查看>>
MaterialForm对tab页进行隐藏
查看>>
Member var and Static var.
查看>>
memcached高速缓存学习笔记001---memcached介绍和安装以及基本使用
查看>>
memcached高速缓存学习笔记003---利用JAVA程序操作memcached crud操作
查看>>
Memcached:Node.js 高性能缓存解决方案
查看>>
memcache、redis原理对比
查看>>
memset初始化高维数组为-1/0
查看>>
Metasploit CGI网关接口渗透测试实战
查看>>
Metasploit Web服务器渗透测试实战
查看>>
MFC模态对话框和非模态对话框
查看>>