本文共 1521 字,大约阅读时间需要 5 分钟。
数据仓库的数据存储
源数据通过ETL的日常任务调度导出,并经过转换后以特性的形式存入数据仓库。关于数据仓库是否需要存储细节数据,存在两大观点。一部分人认为数据仓库面向分析,所以只需存储特定需求的多维分析模型;另一部分人则认为数据仓库应先建立并维护细节数据,再根据需求从中聚合和处理数据生成特定的分析模型。后一种观点更为倾向。数据仓库并不需要储存所有原始数据,但需要存储细节数据,并且导入的数据必须经过整理和转换,使其面向主题。具体原因如下:
(1)不需要所有原始数据。数据仓库面向分析处理,但某些源数据对分析价值较低,或其价值远低于储存这些数据的实现和性能成本。例如,用户的省份、城市信息通常已足够,至于用户具体住在哪里可能只对物流商有用,而博客评论中的文本内容可能对文本挖掘有用,但将这些冗长的评论文本存入数据仓库反倒徒增负担。(2)需要存储细节数据。数据仓库的分析需求会随着时间和业务需求不断变化。只有通过维护细节数据,才能以不变应万变。如果我们仅存储特定需求下搭建的数据模型,当需求变化时将手忙无策。(3)面向主题处理更具优势。面向主题是数据仓库的核心特性,主要是指合理组织数据以方便分析。源数据的组织形式通常较为混乱,例如点击流数据格式复杂,前台数据库数据是为OLTP操作优化的,这些形式不适合直接分析。只有将数据整理成面向主题的形式,才能真正提升分析效率。例如,将点击流日志整理为页面(Page)、访问(Visit或Session)、用户(Visitor)三个主题,便能显著提升分析效率。数据仓库基于维护细节数据,在对数据进行处理后,使其能够真正应用于分析。主要包括以下三个方面:
数据的聚合
聚合数据指基于特定需求的简单聚合。简单聚合体现在多维数据模型中,例如网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg. time on page、Avg. time on site等平均数据,这些数据可以直接展示于报表上。多维数据模型
多维数据模型提供了多角度、多层次的分析应用。例如,基于时间维、地域维构建的销售星形模型、雪花模型,可以实现不同时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。多维数据模型的应用通常与联机分析处理(Online Analytical Process, OLAP)相关,同时面向特定需求群体的数据集市也会基于多维数据模型进行构建。业务模型
业务模型是基于某些数据分析和决策支持而建立的数据模型。例如,用户评价模型、关联推荐模型、RFM分析模型等;或者是决策支持的线性规划模型、库存模型等。此外,数据挖掘中前期数据的处理也可以在这里完成。数据仓库的数据应用
报表展示报表是数据仓库中最基础、最直观的数据应用之一。它将聚合数据和多维分析数据展示于报表,提供最为简单直观的数据呈现形式。即席查询
理论上,数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即席查询。即席查询提供了足够灵活的数据获取方式,用户可以根据需求查询数据,并支持将数据导出至Excel等外部文件。数据分析
数据分析是数据仓库的重要应用之一。通过分析数据,可以为业务决策提供支持。以下是数据分析的具体方法:网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走得很快,但一群人才能走得更远!不论你是从事IT行业的老鸟,还是对IT行业感兴趣的新人,都欢迎加入我们的技术交流群。这里不仅有丰富的学习资源,还有职场吐槽、面试辅导、内推信息,等等。让我们一起学习、成长!
转载地址:http://fagfk.baihongyu.com/