当前位置:网站首页>软考 --- 数据库(6)数据仓库、分布式数据库
软考 --- 数据库(6)数据仓库、分布式数据库
2022-07-30 20:18:00 【想写程序的毛毛虫】
1.1 数据仓库
1.1.1 概念
- 是一个用以更好地支持企业( 或组织 )决策分析处理的数据集合;
- 本质上和数据库一样,是长期储存在计算机内的、有组织、可共享的数据集合;
1.1.2 数据操控的数据特征
- 数据仓库的数据是面向主题的;
- 数据仓库的数据是集成的;
- 数据仓库的数据是不可更新的;
- 数据仓库的数据是随时间不断变化的;
1.1.3 数据仓库反映历史变化的属性主要表现在:
- 数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限;
- 传统操作型数据系统中的数据含有 " 当前值 " 的数据,这些数据在访问时是有效的,当然数据的当前值也能被更新,但数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照;
- 传统操作型数据系统中可能包含也可能不包含时间元素,如年、月、日、时、分、秒等,而数据仓库中一定会包含时间元素;
1.1.4 数据仓库系统的体系结构
数据仓库的后台工具:
- 数据抽取;
- 数据清洗;
- 数据转换;
- 数据装载;
- 维护工具;
数据仓库服务器:
- 相当于数据库系统中的 DBMS ;
- 负责管理数据仓库中的存储管理和数据存取;
- 给 OLAP 服务器和前台工具提供存取接口(如 SQL 查询接口);
OLAP服务器:
- 透明地为前台工具和用户提供多维数据视图;
- OLAP 服务器必须考虑物理上这些分析数据的存储问题;
前台工具:
- 查询报表工具;
- 多维分析工具;
- 数据挖掘工具;
- 分析结果可视化工具等。
1.2 数据挖掘
1.2.1 定义
概念:
数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但可能有用的信息和知识的一种新技术;
目的:
帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素;
涉及:
- 数据库技术;
- 人工智能技术;
- 机器学习;
- 统计分析等。
1.2.2 数据挖掘和传统分析方法的区别
本质区别:
数据挖掘是在没有明确假设的情况下去挖掘信息,发现知识;
数据挖掘的特征:
- 事先未知;
- 有效;
- 可实用;
1.2.3 数据源
从数据仓库来
优点:
许多数据不一致的问题都比较好地解决了,在数据挖掘时大大减少了清理数据的工作量;
缺点:
建立数据仓库是一项巨大的工程,耗时耗力;
从数据库来
如果只是为了挖掘数据,可以把一个或几个 OLTP 数据库导入一个只读的数据库中,然后在上面进行数据挖掘;
1.2.4 功能
- 趋势和演变分析;
- 关联分析;
- 聚类;
- 概念描述;
- 偏差检测;
1.2.5 数据挖掘的流程
- 问题定义
在开始挖掘数据之前最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求;
- 建立数据库挖掘库
要进行数据挖掘必须要收集要挖掘的数据资源,以阿布那个建议把要挖掘的数据都收集到一个数据库中;
- 分析数据
分析数据就是通常所进行的对数据深入调查的过程,从数据集中找出规律和趋势,发现因素之间的相关性;
- 调整数据
通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解决的要求能进一步明确化、进一步量化;
- 模型化
在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型;
- 评价和解释
1.3 分布式数据库
1.3.1 概念
分布式数据库由一组数据组成,这些数物理上分布在计算机网络的不同结点(场地)上,逻辑上是属于同一个系统,每个结点可以执行局部应用,也能通过网络通信子系统执行全局应用;
1.3.2 特点
- 数据独立性;
- 集中和自治相结合的控制结构;
- 适当增加数据冗余度;
- 全局的一致性、可串行性和可恢复性;
1.3.3 数据存储
分布式数据存储可以从数据分配( **指在计算机网络各场地上的分配策略 **)和数据分片(指数据存放单位不是全部关系,而是关系的一部分)两个角度考察;
数据分配:
- 集中式;
- 分割式;
- 全复制式;
- 混合式;
数据分片:
- 水平分片:按一定的条件把全局关系的所有元组划分成若干不相交的子集,每个子集为关系的一个片段;
- 垂直分片:把一个全局关系的属性集分成若干子集,并在这些子集上做投影运算,每个投影为垂直分片;
- 混合型分片:将水平分片与垂直分片方式综合使用为混合型分片;
1.3.4 分布式 DBMS 组成
- LDBMS( 局部 DBMS ):
建立和管理局部数据库,提供场地地自治能力、执行局部应用及全局查询的子查询;
- GDBMS( 全局 DBMS ):
提供分布透明性,协调全局事务的执行,协调各 LDBMS 以完成全局应用,保证数据库的全局一致性,执行并发控制,实现更新同步,提供全局恢复功能;
- 全局数据字典:
- 存放全局概念模式、分片模式、分布模式的定义,以及各模式之间映像的定义;
- 存放有关用户存取权限的定义,以保证全局用户的合法权限和数据库的安全性;
- 存放数据完整性约束条件的定义,其功能与集中式数据库的数据字典类似;
- 通信管理:
在分布式数据库各场地之间传送消息和数据,完成通信功能;
边栏推荐
- Recommended system: cold start problem [user cold start, item cold start, system cold start]
- These services can't ali interview?Then don't go to, the basic notification, etc
- MySQL 视图(详解)
- Android Studio 实现登录注册-源代码 (连接MySql数据库)
- canvas基础讲解加示例
- MySQL 高级(进阶) SQL 语句 (一)
- 从离线到实时对客,湖仓一体释放全量数据价值
- 想要写出好的测试用例,先要学会测试设计
- MySQL的 DDL和DML和DQL的基本语法
- 【PM专用】快速统计团队还有谁没有登记上报信息,快速筛选出属于自己项目组的成员,未完成XXX工作事项的名单
猜你喜欢

倾斜文档扫描与字符识别(opencv,坐标变换分析)

网络安全实验环境搭建

ECCV2022 | 对比视觉Transformer的在线持续学习

PPT如何开启演讲者模式?PPT开启演讲者模式的方法

推荐系统-排序层:排序层架构【用户、物品特征处理步骤】

excel数字下拉递增怎么设置?
![Recommendation System - Sorting Layer - Model (1): Embedding + MLP (Multilayer Perceptron) Model [Deep Crossing Model: Classic Embedding + MLP Model Structure]](/img/bb/25b0493398901b52d40ff11a21e34c.png)
Recommendation System - Sorting Layer - Model (1): Embedding + MLP (Multilayer Perceptron) Model [Deep Crossing Model: Classic Embedding + MLP Model Structure]

Activiti 工作流引擎 详解

MySQL的DATE_FORMAT()函数将Date转为字符串

YOLO V3详解
随机推荐
ECCV2022 | 对比视觉Transformer的在线持续学习
[Ask] SQL statement to calculate the sum of column 2 by deduplicating column 1?
[Node implements data encryption]
4年测试经验去面试10分钟就被赶出来了,面试官说我还不如应届生?都这么卷吗...
【回归预测-CNN预测】基于卷积神经网络CNN实现数据回归预测附matlab代码
vlookup函数匹配不出来的原因及解决方法
7、MySQL Workbench 导出导入数据库
[PM only] Quickly count who else in the team has not registered and reported information, and quickly screen out the members of their own project team who have not completed the list of XXX work items
GateWay实现负载均衡
线性结构:顺序表和链表
FFmpeg —— 裁剪视频(含音视频),不需编解码(附完整源码)
如何解决gedit 深色模式下高亮文本不可见?
【视频】极值理论EVT与R语言应用:GPD模型火灾损失分布分析
多线程获取官方汇率
YOLO V3详解
MySQL——几种常见的嵌套查询
网络层协议------IP协议
MySQL 视图(详解)
【PM专用】快速统计团队还有谁没有登记上报信息,快速筛选出属于自己项目组的成员,未完成XXX工作事项的名单
HarmonyOS Notes ------------- (3)