快捷搜索:

数据集市入门

为何构建数据集市?

快速成长的、充溢竞争的商业天下对付及时、准确的信息有着永无止境的需求,一些 IT 专家对此觉得其一定结果便是创建数据集市。其他专家却质疑用户和客户所要付出的事情和资源。终究,难道不能直接从遗留系统和在线事务处置惩罚(On Line Transaction Processing,OLTP)系统经由过程特定的报表得到相同的信息吗?在 EDS 的商业智能小组里,我们就常常被问到这一问题。履历让我们有许多时机使我们的同业和客户懂得这项有用技巧的代价。这篇文章评论争论了商业智能的根基,以及我们为何和若何建议构建数据集市办理规划。我们共享了从构建数据集市的履历中得到的关键教训,并且盼望本文能赞助其他从事实现数据集市的人。

那么,一个组织为何要构建数据集市呢?虽然 OLTP 和遗留系统拥有宝贵的信息,然则可能难以从这些系统中提取故意义的信息并且速率也较慢。而且这些系统虽然一样平常可支持预先定义操作的报表,但却常常无法支持一个组织对付历史的、联合的、“智能的”或易于造访的信息的需求。由于数据散播在许多跨系统和平台的表中,而且平日是“脏的”,包孕了不同等的和无效的值,使得难于阐发。

例如,一个索赔支付系统为了尽可能快地支付或回绝索赔,平日要处置惩罚许多日常或实时的事务。大年夜多半环境下,这些系统都易于查看单一索赔以及经由过程系统来加速其处置惩罚。然而,这些系统一样平常没有供给查看组合索赔数据的对象,来用以相应即席(ad hoc)或基于营业的问题,也没有供给对象,用以联合查看索赔信息和在索赔系统外部的、与之相关的系统中所包孕的信息(如策略所有者或办事供给者的数据)。

数据集市将合并不合系统的数据源来满意营业信息需求。若能有效地得以实现,数据集市将可以快速且方便地造访简单信息以及系统的和历史的视图。一个设计优越的数据集市将:

宣布特定用户群体所需的信息,且无需受制于源系统的大年夜量需乞降操作性危急。

支持造访非易变(nonvolatile)的营业信息。(非易变的信息因此预定的光阴距离进行更新的,并且不受 OLTP 系统进行中的更新的影响。)

调和来自于组织里多个运行系统的信息,比如账目、贩卖、库存和客户治理以及组织外部的行业数据。

经由过程默认有效值、使各系统的值维持同等以及添加描述以使隐含代码故意义,从而供给净化的(cleansed)数据。

为即席阐发和预定义报表供给合理的查询相应光阴(不合于 OLTP 系统中所需的调优需求)。

经由过程供给对付遗留系统和 OLTP 利用法度榜样的选择来削减对这些利用法度榜样的要求,以得到更多所需信息。

图 1. 商业智能

数据集市适用于商业智能天下中的哪些位置?

数据集市是向组织提交的商业智能总体计划中的一个部分。Gartner Group 提出“商业智能是将数据转换为信息,然后经由过程发明又将该信息转换为常识的历程”。商业智能的范围包括信息体系布局、造访和阐发数据的措施、根基举措措施以及组织将数据变为智能的能力和历程(图 1)。信息体系布局存储致力于向组织传送信息的数据,此中包括元数据。元数据是有关于逻辑和物理模型以及数据字典等数据的信息。在该图中, information architecture中的数据与驻留在遗留系统和 OLTP 系统中的数据是分开的。

操作数据存储(Operational Data Store,ODS)集成了当前的而非历史的明细操作数据,以支持操作情况和急速做出的决策。不是所有组织都有 ODS,然则假如他们有的话,ODS 可被算作“记录系统”,这表示它是势力巨子信息的滥觞。遗留系统和 OLTP 系统将实时地、每小时或天天添补 ODS。数据仓库是组织信息体系布局的组成部分,它包孕了历史的、明细的和概要的集成信息来支持决策和添补数据集市。数据仓库中的数据长短易变的,这意味着将周期性地进行更新和刷新并且被用户群体所理解。 数据集市(Data marts)是为满意已定义的用户组或营业领域(Business Area)对付特定营业信息的需求而创建的。它们比数据仓库更小且更关注在数据中构建繁杂的营业规则来支持功能强大年夜的阐发。

图 2. Inmon 的措施

Ralph Kimball 说“数据仓库仅仅是构成它的数据集市的联合”(Figure 3,The Data Warehouse Lifecycle Toolkit,第 27 页)。他觉得“可以经由过程一系列维数相同的数据集市递增地构建数据仓库”。每个数据集市将联合多个数据源来满意特定的营业需求。经由过程应用“同等的”维,能够合营看到不合数据集市中的信息,这表示它们拥有公共定义的元素。 Kimball 的措施将供给集成的数据往返答组织迫切的营业问题并且要快于 Inmon 的措施。Inmon 的措施是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市。而 Kimball 觉得该措施短缺机动性并且在现在的商业情况中所花光阴太长。

图 3. Kimball 的措施

哪种信息体系布局更好?

实际上,措施的选择取决于项目的主要商业驱动。假如该组织正忍受糟糕的数据治理和不同等的数据,或者盼望为往后打下优越的根基,那么 Inmon 的措施就更好一些。 假如该组织迫切必要给用户供给信息,那么 Kimball 的措施将满意该需求。而一旦满意了迫切的信息需求后,就应该斟酌包孕自力数据仓库的数据体系布局的转换计划。数据仓库将使数据集市与遗留系统和 OLTP 系统隔离,并且支持更快地创建将来的数据集市。因为数据仓库在全部成长中不停承担了重任,以是它将支持逝世力关注数据集市。

遗憾的是,个别部门常常滥用 Kimball 的措施,并将之作为离开集中节制而构建他们自己的数据集市的饰辞。当试图跨集市造访数据以获取联合视图时,这将造成严重问题,由于或许连诸如数据类型同等性等基础标准都未斟酌。而集中式信息体系布局将避免这一点。

图 4. 数据集市构建块

此时最好斟酌一下将要定义和应用该数据集市的组织的类型。 该组织是否很轻易就能吸收并且适应此改变呢?为了成功利用数据集市,必要改变该组织的各个层次。显然,终端用户必要进修新的数据和软件。此外,经理必要支持他们的进修,并且为紧张的和天天应用的信息创建情况。 信息在组织中是气力的源泉吗?假如是的,那么该气力将跟着数据集市的实现而转移!或许存在政治上的阴谋而试图节制,或更糟的是,限定对付信息的造访,也因而抑制了该功能。 若何做出企业级决策呢?尤其假如这是第一个数据集市,那么将必要做出许多决策以建立一个企业信息体系布局。假如企业决策易于卷入政治逆境,那么数据集市可能被耽搁,或被迫仅仅斟酌数据集市的必要从而放弃企业视图。 用户群体的能力若何呢?纵然是最优秀的 OLTP 用户,他们异常善于按阐明书操作,要想成为数据集市的用户,也必要付出困难的努力。假如出于商业目的,必要阐发数据和许多即席(ad hoc)哀求,那么用户将必要拥有较强的阐发技能、技巧技能以及办理问题的技能。

构建块 2: 信息

着末,用户将经由过程一个终端用户数据造访对象造访在数据库中组织的信息(图 6)。首先,必要确定信息滥觞并将之组织到数据模型中去,而该数据模型将驻留在数据库中。然后,基于营业规则和标准,构建添补数据库的历程。着末还要创建元数据来描述数据和用于添补数据的逻辑。

数据源

数据集市的主要信息滥觞便是该组织中的遗留系统和 OLTP 系统。其他滥觞包括杂项引用表和外部行业数据。一个组织平日对付相似的信息有多个滥觞,例若何时存在两个或更多客户文件。在这种环境时,应该从中选择最可托的和最关键的滥觞,或者创建一个合并了可托文件的新文件。然后应将选择的数据用于所有将来的数据集市。这将避免因为不合的信息源而导致无法进行对照的查询结果。此外,还可使用来自于首次实现的文档和提取逻辑。

您可能还会对下面的文章感兴趣: