当前位置:网站首页>【数据库】结构化数据、非结构化数据、半结构化数据的区别
【数据库】结构化数据、非结构化数据、半结构化数据的区别
2022-06-10 17:36:00 【bandaoyu】
林中鹿
结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data

半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表
<person>
<name>A</name>
<age>13</age>
<gender>female</gender>
</person><person>
<name>B</name>
<gender>male</gender>
</person>
非结构化数据不可以通过键值获取相应信息。
其实感觉也不能笼统地说文档就是非结构化数据,这要看你想要获取的信息层次,比如我就是要统计公司的财报,且把财报整体作为我的信息单元,那么在这里财报也是结构化数据;而如果我想要获取的是财报里面的具体信息,比如总收入,那么在这里财报就是非结构化数据。
链接:https://www.zhihu.com/question/50986354/answer/276099917
Ai打羽球喊我:
结构化:SQL
半结构化:json
非结构化:图片
SQL: 结构化查询语言。它的数据都是结构化的。通过固有键值获取相应信息
json: 通过灵活的键值调整, 获取相应信息
NOSQL数据库: 它不需要结构化的数据设计。这样它的容错性就很强,也不存在太严格的设计,所
以以后的扩展和修改都比较容易。
NOSQL数据库里面不存在关系这个概念,如果你想实现关系,比如说1对1,一对多,多对多,你需要用程序来实现,而不是用数据库本身来实现。
https://www.zhihu.com/question/50986354/answer/1849823026
极道科技(北京)有限公司
结构化数据
固定的数据模型Schema,一组特定数据类型的数据组合,比如数据库表
• 存储在RDBMS或者Spreadsheet中
• 优点:关联查询和修改简便
• 缺点:表结构固定,增加一个属性变更表结构困难。引入表关联会带来更多的应用的麻烦。
• 应用:CRM,ERP,航班火车预定系统
非结构化数据
• 没有固定的数据结构和类型,没有固定的数据模型schema
• 存储在文件存储系统或者对象存储系统里
• 优点:随心所欲,各种类型
• 缺点:无标准,难以规范化管理,检索,查询
• 应用:BLOB,音视频文件,办公文档,报表,日志
半结构化数据
• 有格式但没有固定的数据模型Schema,具备自描述的属性信息表达数据内容。
• 以键值对儿存储,JSON/XML类似的文档描述,存储在文件或者文档形数据库中,或者以图的方式存储在图数据库中,数据仓库中。
• 优点:扩展性好,对任意数据可以增、删、改描述信息,通过特定的算法和方法可以进行检索和分析。
• 缺点:特定应用场景的特定用法,不善于存储BLOB
链接:https://www.zhihu.com/question/50986354/answer/2214580874
飘哥:
总结:
- 结构化、半结构化、非结构化其实是按照数据格式分类。
- 结构化数据属于非结构化数据,是非结构化数据的特例。
- 结构化与半结构化数据都是有基本固定结构模式的数据
- 半结构与非结构化数据与目前流行的大数据之间只是有领域重叠的关系,本质讲两者并无必然联系。
- 业界有将大数据认为半结构/非结构化数据,是因为大数据技术最初是在半结构化数据领域发挥作用,其本质是将数据处理技术与数据格式混淆,是不正确的。
链接:https://www.zhihu.com/question/50986354/answer/683873405
边栏推荐
猜你喜欢
随机推荐
High number_ Chapter 6 infinite series__ Properties of positive series
LeetCode 321. 拼接最大数***
Abbexa CDAN1 siRNA使用说明书
Talk about those things about telecommuting, participate in the essay solicitation, receive the contribution fee and win the grand prize!
Noise line h5js effect realized by canvas
最新好文 | 基于因果推断的可解释对抗防御
苹果放大招!这件事干的太漂亮了……
c语言---3 初识变量
mmdetection之dataloader构建
4. ssh
Abbexa低样本量鸡溶菌酶 C (LYZ) ELISA 试剂盒
盛最多水得容器
Postman interface test tool
基于注解和反射生成xml
关于目前CIM(BIM+GIS)行业的一些看法
c语言---7 初识操作符
yml文件配置参数定义字典和列表
Record of cmake and GCC installation
Abbexa 8-OHdG CLIA 试剂盒解决方案
mmdetection之dataset类解读








