数据库期末复习重点
一、四个基本概念
- Data: 其核心作用是存储和管理信息。
- Database: 它提供了一套组织和存取数据的机制。
- DBMS: 其功能包括数据的逻辑结构管理和物理操作优化。
- DBS: 它整合了上述三个要素以提供完整的数据分析支持。
1.数据(Data)是数据库中存储的基本对象
数据的定义
描述事物的符号记录 数据的种类
文字、图形、图象、声音
数据的特点
数据与其语义是不可分的
2. 数据库的定义
数据库(Database,简称DB)是长期储存在计算机
内、有组织的、可共享的大量数据集合
数据库的特征
数据按一定的数据模型组织、描述和储存 可为各种用户共享 、冗余度较小 、数据独立性较高 、易扩展
3. 什么是DBMS
数据库管理系统(Database ManagementSystem,简称DBMS)是位于用户与操作系统之间的一层数据管理软件。
DBMS的用途
科学地组织和存储数据、高效地获取和维护数据
数据定义功能
数据操纵功能:提供数据操纵语言
数据库的运行管理
什么是数据库系统
4. 数据库系统(Database System,简称DBS)是指在计算机系统中引入数据库后的系统构成。
在不引起混淆的情况下常常把数据库系统简称为数据库。
什么是数据管理
对数据进行分类、组织、编码、存储、检
索和维护
数据处理的中心问题
数据管理技术的发展过程
人工管理阶段(20世纪50年代中之前)
文件系统阶段(20世纪50年代末–60年代
中)
数据库系统阶段(20世纪60年代末–现在)
5.数据库人工管理阶段
数据的管理者:用户(程序员),数据不
保存
数据面向的对象:某一应用程序
数据的共享程度:无共享、冗余度极大
数据的独立性:不独立,完全依赖于程序
数据的结构化:无结构
数据控制能力:应用程序自己控制
6.数据库文件系统阶段特点
数据的管理者:文件系统,数据可长期保存
数据面向的对象:某一应用
数据的共享程度:共享性差、冗余度大
数据的结构化:记录内有结构,整体无结构
数据的独立性:独立性差
数据控制能力:应用程序自己控制
7.数据库系统的特点
数据的整体结构化
数据的高共享性
数据的独立性高
DBMS对数据的控制能力强
数据的安全性
数据的完整性
并发控制
数据库的恢复
7.1数据的整体结构化是数据库的主要特征之一
整体结构化
不再仅仅针对某一个应用,而是面向全组织
不仅数据内部结构化,整体是结构化的,数据之间具有联系
数据记录可以变长
数据的最小存取单位是数据项
数据的用数据模型描述,无需应用程序定义
数据库阶段数据的共享性高,冗余度低且易扩充
数据面向整个系统,可以被多个用户、多个应用共享使用。
数据共享的好处
减少数据冗余,节约存储空间
避免数据之间的不相容性与不一致性
使系统易于扩充
7.2数据独立性高
7.2.1 物理独立性
指用户的应用程序与数据库中数据的物理存储是相互独立的。当数据的物理存储改变了,应用程序不用改变。
7.2.2 逻辑独立性
指用户的应用程序与数据库的逻辑结构是相互独立的。数据的逻辑结构改变了,应用程序不用改变。
数据独立性由数据库管理系统的二级映像功能来保证
8. DBMS对数据的控制功能 数据的安全性(Security)保护
使每个用户只能按指定方式使用和处理指定数据,保护数据以防止不合法的使用造成的数据的泄密和破坏。
数据的完整性(Integrity)检查
将数据控制在有效的范围内,或保证数据之间满足一定的关系。
9.DBMS对数据的控制功能
并发(Concurrency)控制
对多用户的并发操作加以控制和协调,防止相互干扰而得到错误的结果。
数据库恢复(Recovery) 将数据库从错误状态恢复到某一已知的正确状态。
10.数据库概念小结
数据库是长期存储在计算机内有组织的大量的共享的数据集合。
可以供各种用户共享,具有最小冗余度和较高的数据独立性。
数据库管理系统在数据库建立、运用和维护时对数据库进行统一控制,以保证数据的完整性、安全性,并在多用户同时使用数据库时进行并发控制,在发生故障后对数据库进行恢复。
二、数据模型
- 数据模型分为两种类型(两个不同的层次)
(1)信息论中被广泛采用的概念模型也被称作信息论中的数据建模方法它主要基于用户的认知视角对数据与知识进行建模并应用于数据库的设计过程中。
(2)逻辑数据结构与物理存储机制结合的理论体系即逻辑数据与物理存储体系主要包含网状型、层次型、关系型面向对象型数据建模方法以及半结构化数据建模技术这些理论框架都被用来实现数据库管理系统的功能。
这些理论框架主要包括网状型结构层状型结构关系型结构面向对象型数据建模方法以及半结构化建模技术它们都被用来描述不同领域中的实体及其相互关联关系。
该理论体系的核心内容在于对数据在存储层面上的具体表示方式进行定义并规定其在存储设备上的实现方式包括磁盘或磁带上的存储策略及存取算法。 - 客观对象的抽象过程——从两步层次进行建模
将现实世界的元素通过概念建模的方法映射到信息世界的相应维度上;
将现实世界的元素通过概念建模的方法映射到信息世界的相应维度上;
将基于概念层的信息建模结果转换为特定数据库管理系统支持的数据建模方案;
\lambda 将基于概念层的信息建模结果转换为特定数据库管理系统支持的具体数据建模方案;
3.概念模型
概念模型的用途
概念模型用于信息世界的建模
是现实世界到机器世界的一个中间层次
是数据库设计的有力工具
数据库设计人员和用户之间进行交流的语言
对概念模型的基本要求
较强的语义表达能力
简单、清晰、易于用户理解
概念模型是信息世界中的基本概念,概念模型的一种表示方法:实体-联系方法
(1)实体(Entity)
客观存在并可相互区别的事物称为实体。
可以是具体的人、事、物或抽象的概念。
(2)属性(Attribute)
实体所具有的某一特性称为属性。
一个实体可以由若干个属性来刻画。
(3)码(Key)
唯一标识实体的属性集称为码。
(4)实体型(Entity Type)
用实体名及其属性名集合来抽象和刻画同类实体称为
实体型
(5)实体集(Entity Set)
同一类型实体的集合称为实体集
(6)联系(Relationship)
现实世界中事物内部以及事物之间的联系在信息世界中反映为实体(型)内部的联系和实体(型)之间的联系。
实体内部的联系通常是指组成实体的各属性之间的联系
实体之间的联系通常是指不同实体集之间的联系
实体之间的联系有一对一、一对多和多对多等多种类型
3.1实体-联系方法(Entity-Relationship Approach)
用E-R图来描述现实世界的概念模型
E-R方法也称为E-R模型
3.2数据结构
数据模型的数据结构
描述数据库的组成对象,以及对象之间的联系
描述的内容
- 与对象的类型、内容、性质有关
- 与数据之间联系有关
数据结构是对系统静态特性的描述
3.3数据操作
数据操作
对数据库中各种对象(型)的实例(值)允许执行的
操作的集合,包括操作及有关的操作规则
数据操作的类型
查询
更新(包括插入、删除、修改)
3.4数据模型对操作的定义
操作的确切含义
操作符号
操作规则(如优先级) 实现操作的语言
数据操作是对系统动态特性的描述
3.5数据的完整性约束条件
一组完整性规则的集合
完整性规则:给定的数据模型中数据及其联系所具有
的制约和依存规则
用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效和相容数据模型对完整性约束条件的定义
反映和规定必须遵守的基本的通用的完整性约束条件。
提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件。
4.层次模型
层次模型是数据库系统中最早出现的数据模型
层次数据库系统的典型代表是IBM公司的IMS(Information Management
System)数据库管理系统
层次模型用树形结构来表示各类实体以及实体间的联系
满足下面两个条件的基本层次联系的集合为层次模型
3. 有且只有一个结点没有双亲结点,这个结点称为根结点
4. 根以外的其它结点有且只有一个双亲结点
层次模型中的几个术语
根结点,双亲结点,兄弟结点,叶结点
4.1层次模型的特点:
结点的双亲是唯一的
只能直接处理一对多的实体联系
每个记录类型可以定义一个排序字段,也称为码字段
任何记录值只有按其路径查看时,才能显出它的全部意义
没有一个子女记录值能够脱离双亲记录值而独立存在
4.2网状模型
网状数据库系统采用网状模型作为数据的组织方式
满足下面两个条件的基本层次联系的集合:
允许一个以上的结点无双亲;
一个结点可以有多于一个的双亲。
表示方法(与层次数据模型相同)
实体型:用记录类型描述
每个结点表示一个记录类型(实体)
属性:用字段描述
每个记录类型可包含若干个字段
关联:通过结点之间的连线表示实体间的一对多关系。
4.3 网状模型与层次模型的区别如下:
- 在网状模型中,并非所有结点都具有双亲节点。
- 网状模型允许一个节点拥有多个双亲节点。
- 网状模型支持两个节点之间建立多种联系(即复合联系)。
- 该种数据组织方式能更直观地反映现实世界的复杂性。
4.4 网状模型的优势与劣势如下:
优点: - 能够更直观地反映现实世界的复杂性(例如一个节点可同时拥有多个父节点);
- 该种组织方式具有较高的查询效率;
缺点: - 该种数据结构体系较为复杂,在应用范围扩大后会导致整体架构变得越来越难以管理;
- 需要使用较为复杂的DDL和DML操作符;
- 数据间的关联性仅通过路径连接实现,在一定程度上增加了用户的认知难度。
- 关系模式
5.1 关系(Relation)
一张表通常被称为一种关系;
5.2 元组(Tuple)
表中的每一行代表一个元组;
5.3 属性(Attribute)
表中的每一列代表一个属性,并为每个属性赋予一个名称即为属性名;
5.4 主码(Key)
主码是指能够唯一标识一个元组的属性组合;
5.5 域(Domain)
域指的是同一数据类型值集合中的某一部分;
5.6 分量
元组中的各个属性值即为分量;
5.7 关系模式
是对一张表的总体描述:
包括表格名称及各列名称构成的模式即为关系模式,
例如:
学生(学号 姓名 年龄 性别 专业 年级)
该系统设计应当遵循规范化原则以确保数据质量与可靠性;为实现这一目标需满足必要的规范化要求即每个分量都应作为一个不可分割的数据项存在避免出现表内部嵌套的情况
7.数据库系统的三级模式结构
7.1.1 模式(Schema)
7.1模式(也称逻辑模式)是数据库中全体数据的逻辑结构和特征的描述
1) 所有用户的公共数据视图
2)一个数据库只有一个模式
3)模式的地位:是数据库系统模式结构的中间层
4) 与数据的物理存储细节和硬件环境无关
5) 与具体的应用程序、开发工具及高级程序设计语言无关
7.1.2模式的定义
数据的逻辑结构(数据项的名字、类型、取值范围等) 数据之间的联系
数据有关的安全性、完整性要求
以下是经过同义改写的文本
