登陆注册
16318600000021

第21章 数据库与数据仓库(4)

数据仓库中的信息存储,是根据对数据的不同深度处理来分成不同层次的。其结构一般划分为以下几个方面。

①历史性详细数据层。它存储历史数据,供分析、建模、预测之用。

②当前详细数据层。存储最新详细数据,是进一步分析数据的基础。

③不同程序的归纳总结信息层。可包含多个层次,根据所需分类和归纳的不同深度而定,如按周、月、年统计的数据。

④专业分析信息层。进一步专业分析的结果,如统计分析、运筹分析、时间序列分析及表面数据的内在规律分析等。

⑤结构信息。数据仓库的内部结构信息,反映各种信息在数据仓库中的位置分布和处理方式等,以便检索查询之用。

5)数据仓库工具的组成

一个典型的数据仓库产品应包括以下几个部分:数据集市、关系数据库、数据源、数据准备区、各种服务工具等。

(1)数据集市

数据集市是数据仓库的子集,是按照主体从数据仓库中划分的数据集合。它可以理解为是一个小型的部门或者工作组级别的数据仓库。

(2)关系数据库

关系数据库是数据仓库非常重要的组成部分,数据仓库要想发挥真正的威力,必须由关系数据库为其提供强大的基础引擎。

(3)数据源

使用数据仓库的根本目的是向企业决策制定者提供各种决策信息,因此数据仓库必须将企业内部或外部的各种信息集中起来,合并为一致的数据集。数据仓库必须把来自不同数据源的数据收集并整理好,以准确地反映企业的业务运作情况和历史状态。虽然这些数据源的数据不能直接用于决策支持,但也必须将其捕获到数据仓库中,因为这些长期积累的数据是建立数据仓库的重要基础。

(4)数据准备区

数据准备区又称数据中间存储区,它是一个关系数据库,数据仓库从其他数据源所抽取的数据首先保存在这个关系数据库中,在此将数据转换为数据仓库所要求的统一格式,检查数据的一致性与引用完整性,并准备载入数据仓库中。

(5)

数据仓库需要相关工具来分析和评估数据仓库中浩瀚的数据,如联机分析处理(OLAP)、数据挖掘工具、预定义报表等。此外,还要预留支持用户开发自定义工具的应用程序接口。

2.数据挖掘

1)数据挖掘的概念

数据挖掘(DataMining),又称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简单来说,数据挖掘就是从大量数据中提取或“挖掘”知识。典型的数据挖掘系统结构如图414所示。

图414典型数据挖掘系统结构

并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(InformationRetrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也用来增强信息检索系统的能力。

2)数据仓库与数据挖掘的关系

数据挖掘和数据仓库作为决策支持新技术,在近10年来得到了迅速发展。数据仓库和数据挖掘是相互结合起来一起发展的,二者是相互影响、相互促进的。二者的关系可以概括为以下几点。

①数据仓库为数据挖掘提供了更好的、更广泛的数据源。数据仓库中集成和存储着来自异质的信息源,而这些信息源本身就可能是一个规模庞大的数据库。同时数据仓库存储了大量长时间的历史数据,这就可以进行数据长期趋势的分析,为决策者的长期决策行为提供。

②数据仓库为数据挖掘提供了新的支持平台。数据仓库的发展平台不仅仅是为了数据挖掘开辟了新的空间,更对数据挖掘提出了更高的要求。数据仓库的体系机构努力保证查询和分析的实时性。

③数据仓库为更好地使用数据挖掘工具提供了方便。数据仓库的建立,充分考虑到数据挖掘的要求。用户可以通过数据仓库服务器得到所需要的数据,形成开采中间数据库,利用数据挖掘方法进行开采并获得知识。数据仓库为数据挖掘集成了企业内各部门的全面的、综合的数据。数据仓库中的数据已经被充分地收起来,进行了整理、合并,并且有些还进行了初步的分析处理,使数据挖掘的注意力能够更集中于核心处理阶段。

④数据挖掘为数据仓库提供了更好的决策支持。基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。数据挖掘对数据仓库中的数据进行模式抽取和知识发现,这些正是数据仓库所不能提供的。

⑤数据挖掘对数据仓库的数据组织提出了更高的要求。数据仓库作为数据挖掘的对象,能为数据挖掘提供更多、更好的数据,其数据的设计、组织都要考虑到数据挖掘的一些要求。

⑥数据挖掘还为数据仓库提供了广泛的技术支持。数据挖掘的可视化技术、统计分析技术等都为数据挖掘提供了强有力的技术支持。

总之,数据仓库在纵向和横向都为数据挖掘提供了更为广泛的活动空间。数据仓库完成数据的收集、集成、存储、管理等工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘能更专注于知识的发现。又由于数据仓库所具有的新特点,对数据挖掘提出了更高的要求。另一方面,数据挖掘为数据仓库提供了更好的决策支持,同时促进了数据仓库技术的发展。可以说,数据挖掘与数据仓库技术要充分发挥潜力,就必须结合起来。

3)数据仓库与数据挖掘的区别

数据仓库是一种存储技术,它的数据存储量是一般数据库的百倍,它包含了大量的历史数据、当前的详细的数据及综合数据,能为不同用户的不同决策需要提供所需的数据和信息。

4)数据挖掘方法与算法

数据挖掘有两种类型:一种是自下而上的方法,称之为有监督的数据挖掘方法;另一种是从下往上的方法,这种方法让数据自己解释自己,在数据中寻找模式,然后把产生的结果留给使用者去判断,找出哪些模式是重要并有用的。目前常见的主要有以下几种。

①特征概括(DataCharacterization)。特征概括是目标类数据的一般特征或特性的汇总,如饼图、条图、曲线、多维数据立方体等形式,还能实现数据的区分。

②分类预测(Classfication&Prediction)。分类与预测的区别在于,分类是对离散值变量的估计,而预测是对连续变量的估计。

③聚类分析(Clustering)。聚类和分类建立分类模型,主要有监督学习(分类)和非监督学习(聚类)之分。

④规则提取。关联知识(Association)决定哪些事件将一起发生。

⑤异常检测。描述一些数据与数据的常规行为不一致,揭示其偏离常规的异常现象。

这些数据往往是一些极端数据,有时也称孤立点。

BP、、、、

模糊聚类、支持向量机、粗糙集、孤立点分析、Bayes网络等。要实现不同的数据挖掘功能,需要采用相应的合适算法。一般来说,要解决某个特定问题,可能有若干种算法,如图415所示的预测分类,就有BP神经网络、决策树、支持向量机3种算法。

图415数据挖掘功能与其实现的算法

5)数据挖掘的主要应用方向

(1)财务分析的数据挖掘

大多数银行保险和金融机构都提供多种银行服务,如核算、存储、商业和个体客户服务、信贷、贷款等,可获得的财务数据往往完整性好,可行度高,质量也好,方便进行系统化的数据分析和数据挖掘,以提高公司的竞争力。

(2)电信行业的数据挖掘

像AT&T这样的公司已经宣布数据挖掘的应用,改进了他们的销售活动,而Lightbridge公司使用数据挖掘技术来解决电信业的欺诈行为,数据挖掘技术正在电信行业获得越来越深入、越来越广泛的应用。

(3)零售业的数据挖掘

微利时代的到来,使得零售商们比其他行业更早进入数据仓库阶段。由于零售业收集大量的销售数据、顾客购物记录、货物运送、消费模式等,尤其是由于Web与电子商务的风行,收集的数据量迅速增长,因此零售业成为数据挖掘的主要运用领域。

(4)生物医药学研究中的数据挖掘

以电子格式存储的病人记录及医学信息系统的发展产生大量的在线利用临床数据。用数据挖掘方法从这些数据抽取的规律性的、趋势和令人惊奇的事件,对辅助临床医生作出准确判断非常重要。

(5)证券行业中的数据挖掘

证券市场存在巨大的风险。证券公司应该能够给自己的客户提供大盘及各股的未来走势的信息,给客户的投资、选股提供有价值的参考,尽可能地回避风险。更何况,大多数证券公司本身就是证券的投资者。股票价格的变动受多方面因素的影响,而证券投资分析的方法,:,

庞大、复杂的研究课题,这就给了数据挖掘技术的运用提供了广阔的空间。

(6)冶金行业中的数据挖掘

采用数据挖掘技术,通过对冶金相关生产过程的历史数据、实时数据及正常工况数据的预处理与数据挖掘建模,开发具有指定功能的计算机用户界面软件,实现在线或离线的数据分析处理平台,以解决设备的负荷能力评价和操作参数优化问题,同时为工艺人员掌握过程的控制机理并进一步提高生产管理水平提供一个良好的工作平台。

(7)电子商务中的数据挖掘

电子商务网站每天都会产生大量的数据,运用数据挖掘技术可以从这些数据中发现对市场分析及预测非常有益的信息。

数据挖掘是信息技术和数据处理的必然潮流,是商务智能的核心和灵魂。可以说,只要有大量的复杂数据产生和分析需求,就有数据挖掘的用武之地。数据挖掘技术和相关的系统软件将会得到越来越广泛的应用。

习题

一、名词解释

1.数据库2.记录3.DBMS4.DBS5.概念模式6.数据模型7.概念模型

8.键或码9.数据操作10.1NF11.2NF12.3NF13.关系14.关系模式15.数据仓库16.数据挖掘

二、简答题

1.数据库系统组织数据的特点是什么?

2.数据库系统与文件系统的区别是什么?

3.数据管理经历了哪几个阶段?各个阶段的特点是什么?

4.数据模型的三要素是什么?

5.数据库管理系统的主要功能是什么?

6.信息模型的要素有哪些?

7.试述概念模式在数据库中的重要地位。

8.举出实例,要求实体型之间具有一对一、一对多和多对多的联系。

9.实体之间的联系方式有几种?不同的联系方式在转换为关系模型时的处理方式有什么不同?

10.什么是ER图?构成ER图的基本要素是什么?如何将ER模型转换为关系模型?

11.某工厂生产多种产品,每种产品又要使用多种零件,一种零件可能装在多种产品上。每种零件由一种材料制造,每种材料可用于不同零件的制作。有关产品、零件、材料的数据字段如下。

:(GNO),(GNA),(GUP)

零件:零件号(PNO),零件名(PNA),单重(UW),单价(UP)材料:材料号(MNO),材料名(MNA),计量单位(CU),单价(MUP)以各产品需要各种零件数为GQTY,各零件需要的材料数为PQTY。

(1)请画出产品、零件、材料的ER图。

(2)请将该ER图转换为关系数据模型。

12.教学管理涉及的实体有

教员:职工号、姓名、年龄、职称

学生:学号、姓名、年龄、性别

课程:课程号、课程名、学时数

这些实体间的联系如下:一个教员只讲授一门课程,一门课程可由多个教员讲授;一个学生学习多门课程,每门课程有多个学生学习。请画出教员、学生、课程的ER图,并构造其关系数据模型。

三、单选题

1.DBMS对数据库的保护主要通过4个方面实现,因而在DBMS中应该包括以下4个子系统:数据库的并发控制、数据库的恢复、数据完整性控制和()。

A.数据的检索B.数据的更新

C.数据安全性控制D.数据的存储

2.在数据库系统的三级模式结构中,外模式通常还称为()。

A.用户模式B.内模式C.物理模式D.概念模式

3.实体型与实体型间的联系方式有()种。

A.1B.2C.3D.4

4.若联系为m∶n,则关系的码为所连接的()。

A.n端和m端的码的组合B.n端的码

C.m端的码D.都不是

5.数据仓库有4个重要的特点:面向主题、相对稳定的、反映历史变化和()。

A.分散的B.合并的C.集中的D.集成的

同类推荐
  • 大卫·科波菲尔(新课标同步课外阅读)

    大卫·科波菲尔(新课标同步课外阅读)

    大卫·科波菲尔早年丧父,因为母亲的性格比较柔弱,童年时他受尽继父的折磨和虐待。在母亲病逝后,他不得不投身社会,开始工作。在许多善良人们的帮助下,最终他克服了种种困难,在事业和生活上得到一个完满的结局,成为一位名作家。本书译本选用著名翻译家宋兆霖的译本,让青少年在感受经典的同时,还可近距离地接触大师,汲取人生智慧,并提高青少年的写作能力。
  • 青少年最喜欢的民间故事(青少年必读经典)

    青少年最喜欢的民间故事(青少年必读经典)

    民间故事是吸引人的,也作为青少年的必读物,学习民间故事,了解社会百态。
  • 营销圣经

    营销圣经

    为什么大众化销售如此之火?为什么最佳的销售策略仍是那句老话——顾客就是上帝。为什么你已经具备了成功的条件却还没有成功?为什么说培训经费越多,在营销上花的力量就越少?在市场经济时代,那些持续增长的公司无不以盈利客户为增长基础,这些公司都能识别出他们最有价值的客户,创造出强劲的客户忠诚,并锻造出坚实的客户关系。营销学是每个营销人员创造佳绩必须遵循的推销法则,更是所有人营销自我,走向成功的金科玉律,拥有它,你将在商场上战无不胜、攻无不克。
  • 看这本书,能帮你掌握学习法则

    看这本书,能帮你掌握学习法则

    本书内容涉及如何学好语文、数学、英语,如何获得高分,如何准备考试,如何提高记忆,如何提高学习效率,如何提高学习能力,注意哪些学习细节,最重要的快乐学习法则有哪些等方面,注重案例与方法的有效结合,目的是为了让青少年读者在有趣而易懂的案例或故事中领会有效的记忆窍门、实用的学习方法。
  • 筑梦蓝天

    筑梦蓝天

    罗阳同志是我国航空科技战线上的优秀代表,为我国航空工业的振兴和科技事业的发展无私奉献了一生。2012年11月25日,罗阳同志在歼15舰载机研制现场因劳累过度突发心肌梗死牺牲在工作岗位上。习近平、李克强、张德江、刘云山等党和国家领导人第一时问要求相关部门宣传、弘扬罗阳同志精神,宣传、弘扬航空报国精神,要求广大党员、干部学习罗阳同志的优秀品质和可贵精神。国务院追授罗阳同志“航空工业英模”称号,巾共中央组织部追授罗阳同志“全国优秀共产党员”称号。之后,中共巾央组织部、中共中央宣传部联合下发了《关于广泛开展向全国优秀共产党员罗阳同志学习活动的通知》,在全国范围内开展向罗阳同志学习的活动。
热门推荐
  • 血棺幽女

    血棺幽女

    身怀至阳之气,命克父母。十八岁和她的相遇改变人生,走上了斩鬼除尸灭妖之路!
  • 新人类盟约

    新人类盟约

    这是一个光荣与伟大并存的时代!这是一个充满了血与火,悲歌与史诗的时代!无论再过多少年,即使历史成了故事,故事成了传说,传说渐渐被演绎成了神话……人类!一定会铭记这个时代!我有幸生在这个时代,与那些必将为后世传唱的名字同行,行走在那些伟大的荣光之中。即便是在那些最黑暗的寒夜里,即便是在最危困,最无助的时刻,他们也从未放弃希望,谱写了一次又一次传奇!而我,只是一个记录者,用自己最卑微、最崇敬的目光,见证他们用血肉、生命、灵魂,铸就了人类的黄金之路!——摘自安瑾兰《黄金之路》序章粉丝群:560652023
  • 一个人的悲伤

    一个人的悲伤

    因为爱着你,我狠狠地伤了自己。寂静的夜,一个人听自己心碎的声音……
  • 缘来陌陌

    缘来陌陌

    美丽心地善良的女主——顾陌陌,会疼人的哥哥——易烊千玺,因为突发状况而分开的青梅竹马——王源,执行任务终生情——王俊凯。究竟顾陌陌会选择谁呢?
  • 我该怎样爱你

    我该怎样爱你

    我忐忑,我高兴,可是,我怎样爱你,才算是和谐呢?我如何爱你教你,才算是科学呢?
  • 美男一大锅

    美男一大锅

    女主是一个做事随心,没有定律。爱吃,爱玩,最爱看小说。是个快乐的孩子
  • 超级渔船

    超级渔船

    都市落魄少年李丰,被神秘系统认主,拥有了一艘,不断升级的超级渔船.一船在手,天下我有.从此五湖四海出现了他的身影,只有想不到的,没有做不到的不平凡的生活从这一刻开始.
  • 谋女皇妃

    谋女皇妃

    一朝国破,公主流离。遇上萧劫,是对还是错?即便是后宫充满了魑魅魍魉,也挡不住两个人的风雨同舟。
  • 仟仟的微笑

    仟仟的微笑

    在这个追逐名利看着金钱的社会,不幸大致都相同,而快乐却截然相反。剥开所有的烦恼发现心里最简单,最真,最开心的微笑……
  • 错嫁,先婚后爱

    错嫁,先婚后爱

    卫子凌为了报恩与天之娇子,高官子弟叶君临订为婚契,不料却遭其羞辱,折磨,纠缠一生。她不是爱情里的佼佼者,却在婚姻上为了所爱的人全力拼战。“你处心积虑不就是为了报复我吗?”她仰起脸挑视着。“报复?呵呵!现在我只想上你!”他慢条丝理的解着衬衫扣子,步步朝她逼近。