当前位置:网站首页>003:AWS认为什么是数据湖?
003:AWS认为什么是数据湖?
2022-06-12 09:21:00 【YoungerChina】
什么是数据湖?
以任意规模将您的所有数据存储在一个集中式存储库中
1. 什么是数据湖?
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
2.为什么需要数据湖?
通过数据成功创造商业价值的组织将胜过同行。Aberdeen 的一项调查表明,实施数据湖的组织比同类公司在有机收入增长方面高出 9%。这些领导者能够进行新类型的分析,例如通过日志文件、来自点击流的数据、社交媒体以及存储在数据湖中的互联网连接设备等新来源的机器学习。这有助于他们通过吸引和留住客户、提高生产力、主动维护设备以及做出明智的决策来更快地识别和应对业务增长机会。
3. 数据湖和分析解决方案的基本要素
组织构建数据湖和分析平台时,他们需要考虑许多关键功能,包括:
数据移动
数据湖允许您导入任何数量的实时获得的数据。您可以从多个来源收集数据,并以其原始形式将其移入到数据湖中。此过程允许您扩展到任何规模的数据,同时节省定义数据结构、Schema 和转换的时间。
安全地存储和编目数据
数据湖允许您存储关系数据(例如,来自业务线应用程序的运营数据库和数据)和非关系数据(例如,来自移动应用程序、IoT 设备和社交媒体的运营数据库和数据)。它们还使您能够通过对数据进行爬网、编目和建立索引来了解湖中的数据。最后,必须保护数据以确保您的数据资产受到保护。
分析
数据湖允许组织中的各种角色(如数据科学家、数据开发人员和业务分析师)通过各自选择的分析工具和框架来访问数据。这包括 Apache Hadoop、Presto 和 Apache Spark 等开源框架,以及数据仓库和商业智能供应商提供的商业产品。数据湖允许您运行分析,而无需将数据移至单独的分析系统(如何理解)。
机器学习
数据湖将允许组织生成不同类型的见解,包括报告历史数据以及进行机器学习(构建模型以预测可能的结果),并建议一系列规定的行动以实现最佳结果。
4. 数据湖的价值
能够在更短的时间内从更多来源利用更多数据,并使用户能够以不同方式协同处理和分析数据,从而做出更好、更快的决策。数据湖具有增值价值的示例包括:
改善客户互动
数据湖可以将来自 CRM 平台的客户数据与社交媒体分析相结合,有一个包括购买历史记录和事故单的营销平台,使企业能够了解最有利可图的客户群、客户流失的原因以及将提升忠诚度的促销活动或奖励。
改善研发创新选择
数据湖可以帮助您的研发团队测试其假设,改进假设并评估结果 – 例如在产品设计中选择正确的材料从而提高性能,进行基因组研究从而获得更有效的药物,或者了解客户为不同属性付费的意愿。
提高运营效率
物联网 (IoT) 引入了更多方式来收集有关制造等流程的数据,包括来自互联网连接设备的实时数据。使用数据湖,可以轻松地存储,并对机器生成的 IoT 数据进行分析,以发现降低运营成本和提高质量的方法。
5. 数据湖的挑战
数据湖架构的主要挑战是存储原始数据而不监督内容。对于使数据可用的数据湖,它需要有定义的机制来编目和保护数据。没有这些元素,就无法找到或信任数据,从而导致“数据沼泽”的出现。 满足更广泛受众的需求需要数据湖具有管理、语义一致性和访问控制。
边栏推荐
- 自动化测试学习路线,快来学吧
- III Regular expression to finite state automata: NFA to DFA
- Swagger documentation details
- Auto.js学习笔记7:js文件调用另一个js文件里的函数和变量,解决调用失败的各种问题
- 2022 极术通讯-安谋科技迎来发展新机遇
- (12) Interactive component selectable
- Auto.js学习笔记10:实例化自定义对象,在子线程使用JSON.stringify()方法导致报错(已解决)
- Difference between MySQL unreal reading and non repeatable reading
- Common technical questions in functional test interview. Would you like to summarize them?
- Tool classes for extracting zip files
猜你喜欢

卖疯了的临期产品:超低价、大混战与新希望
软件测试面试题精选

科创人·世界500强集团CIO李洋:数字化转型成事在人,决策者应时刻聚焦于「柴」
Do you know how to improve software testing ability?

I Regular expression to finite state automata: regular expression to NFA
How should the test plan be written? A thought teaches you

JVM virtual machine

Visualization of two-dimensional feature logistic regression prediction results

Black screen solution for computer boot

Hotspot Metaspace
随机推荐
Top command meaning
II Transforming regular expressions into finite state automata: NFA state machine recognizes input strings
MySQL-MVCC
重启Kubernetes Pod的几种方式
Notes on data mining in Tsinghua University (1)
(JS) three digits are separated by commas, and two decimal places are reserved (or rounded)
抽象类和接口
Latex common symbols summary
Change tabledata column name
Distributed transaction solution 2: message queue to achieve final consistency
端午节安康--诸佬在我心里越来越粽要了
Jenkins Pipeline 语法
Microservice gateway
Selenium面试题分享
Mysql5.7 partition table
After going to the bathroom, I figured out the ES search server
JVM garbage collection
Es6-- common basic knowledge
Automated test learning path, come and learn
Filters and listeners