当前位置:网站首页>华为云数据治理生产线DataArts,让“数据'慧'说话”
华为云数据治理生产线DataArts,让“数据'慧'说话”
2022-07-30 16:32:00 【InfoQ】


- 能进得来,各种大量、多样性、实时的数据源能被高效集成;
- 能放得下,海量数据长期存储的性价比高,不用做各种模式转换,易于分析计算;
- 能理得清,基于业界最佳实践建模,数据之间的关系清晰可见,含义简单易懂,质量问题及时发现;
- 能找得快,迅速找到需要的是数据资产,能快速分析出价值;
- 能用得好,数据价值显性化,快速响应业务需求,驱动经营完善。
- 数据治理难:从数据到支撑业务的资产,传统数据库、数仓建模和知识图谱等技术无法满足企业全业务流程分析和决策需求,导致难以管理和分析海量异构数据,治理好的数据也难以和应用有效融合;
- 众多的系统和复杂的架构:随着业务成长,需要管理众多系统如湖、仓、AI等;
- 技术门槛高:大多数企业缺乏大数据相关人员,研发效率低,维护成本高。
1.DataArts使能数据治理向自动化、智能化升级
- DataArts LakeFormation:负责整合所有云原生数据湖的组建工作,统一管理一系列数据引擎的源数据,方便上层开发者使用。
- DataArts Studio:面向数据域的开发者、管理者、架构师,涵盖数据生产、处理、使用的全流程生命周期,帮助开发者系统管理和使用数据。

2.DataArts5大新特性面面观
2.1 元数据自动发现和表格化存储

- 支持OBS、HDFS/SFTP、Kafka、REST等数据存储上的文件、消息元数据自动发现;
- 自定义分类器,支持CSV、JSON、文本、Parquet、ORC、Hudi等半结构化数据进行Schema自动模式推断和提取;
- 构建表、字段、分区,并感知其变化等元数据信息,便于数据的搜索、计算和分析。
2.2 智能增强的自动

- 融合code模式与no-code模式:支持No-code模式开发流/批数据处理作业,作业节点数量降低20%,数据作业开发效率由天级别降到小时/分钟级别;
- 丰富的数据处理算子库:支持清洗、过滤、合并、Join等数据处理类别10+,算子数量200+。
2.3 智能增强的数据异常检测

- 通过模糊索引、模式挖掘等方法发现潜在重复数据区块;
- 通过相似性对比检查数据的语法差异,以及领域知识库的实体解析检查数据的语义差异;
- 支持实时采样计算数据质量预览,支持高性能扫描计算数据质量,万张表扫描速度提升5倍。
2.4 企业级数据目录

- 企业级数据目录 面向多云多Region逻辑数据湖的统一数据目录,技术元数据自动同步更新,并与业务元数据和管理元数据信息关联;
- 自然语义搜索,智能推荐 支持以自然语言搜索数据资产,并智能给出搜索建议、资产推荐和排序;
- 360全景“实体-关系”知识图谱 自动发现数据联系。智能导航,路径分析、社群分析等高级图分析,1W+点图分析响应时间200ms以内。
2.5全链路数据安全保护

- 中心化数据安全治理,支持企业实现企业数据安全策略统一管控;
- 智能数据安全:内置GDPR安全规则库、支持数据访问权限控制、敏感数据自动识别,智能数据保护(加密、脱敏、水印);
- 全链路数据安全保障,数据集成、传输、存储、数据架构设计、开发准备、资产搜索、服务开放等全链路都集成了数据安全能力。
- 面向生态开放,引入BI、主数据、数据建模、数据标签等数据管理行业TOP伙伴SaaS产品,并与数据治理生产线的DataArts Studio、Lakeformation等云原生服务集成,为客户提供一致性体验
- 伙伴产品与华为云"联营联运",支持客户一键购买开通,以及按需订阅消费
3.华为云DataArts帮助企业快速构建数字化运营能力



- 编辑器优化:更丰富的语法联想、快速补全SQL,自动格式优化;异常关闭脚本可恢复,防止代码丢失;支持全库代码检索。
- 团队协作增强:作业和脚本的多版本管理,生产与开发环境隔离审核;多人开发抢锁、解锁机制,防止意外覆盖;跨空间依赖,方便多部门协作。
- 调度引擎升级:调度机制优化,支持自然周期核心调度;调度性能升级,支持千万级/日任务调度。
- 图形化运维:作业依赖关系自动解析,图形化展示作业依赖树;DAG图形化运维,集中查看上下游的作业和运行结果、日志提高问题定位效率。
最后
边栏推荐
- Scheduling_Channel_Access_Based_on_Target_Wake_Time_Mechanism_in_802.11ax_WLANs
- SwiftUI SQLite教程之带有历史的搜索栏List App (教程含完整代码)
- Security business revenue growth rate exceeds 70% 360 builds digital security leader
- 疫情之下的裁员浪潮,7点建议帮你斩获心仪offer
- 完美绕开CRC32检测的无痕hook
- onenote使用
- 支付系统架构设计详解,精彩!
- 李沐d2l(七)kaggle房价预测+数值稳定性+模型初始化和激活函数
- 【C语言】指针和数组的深入理解(第二期)
- Gorilla Mux 和 GORM 的使用方法
猜你喜欢
What does a good resume look like in the eyes of a big factory interviewer?
[NCTF2019]Fake XML cookbook-1|XXE漏洞|XXE信息介绍
Visual Studio 集成Qt开发环境的一些注意事项
Redis 复习计划 - Redis 数据结构和持久化机制
3D激光SLAM:LeGO-LOAM论文解读---系统概述部分
【Linux操作系统】 虚拟文件系统 | 文件缓存
【Linux Operating System】 Virtual File System | File Cache
23. Please talk about the difference between IO synchronization, asynchronous, blocking and non-blocking
如何写一份高可读性的软件工程设计文档
大厂面试官眼中的好简历到底长啥样
随机推荐
huato 热更新环境搭建(DLL方式热更新C#代码)
游戏多开检测的几种实现方法及破解方法参考
登录模块调试-软件调试入门
onenote使用
归一化与标准化
SMI 与 Gateway API 的 GAMMA 倡议意味着什么?
为人处世之道,与君共勉!
【SOC FPGA】Peripheral KEY LED
Minio 入门
华为云WeLink携手伙伴,共建协同办公生态
Windows MySQL 安装配置
The way of life, share with you!
Mysql进阶优化篇01——四万字详解数据库性能分析工具(深入、全面、详细,收藏备用)
如何快速拷贝整个网站所有网页
Mirror stand to collect
You are a first-class loser, you become a first-class winner
[HMS core] [FAQ] Collection of typical problems of push kit, AR Engine, advertising service, scanning service 2
【Linux Operating System】 Virtual File System | File Cache
如何在分面中添加数学表达式标签?
2022-07-30 Androd 进入深度休眠后把WIFI给关掉,唤醒之后重新打开WIFI