当前位置:网站首页>商城商品的知识图谱构建
商城商品的知识图谱构建
2022-07-06 19:26:00 【人工智能曾小健】
知识图谱构建
下面重点介绍阿里数字商业知识图谱的升级和相关工作。
1. 数字商业知识图谱升级

在这样大的机制和模型设计之下,数字商业知识图谱大致如上图所示。通过知识图谱去管理和组织庞大的商业要素。大概会分成四层:
① 第一层本体层,即商品知识图谱的schema,这一层的数据建设主要需要解决的问题主要有:
如何智能化地动态更新schema,使得这棵schema树能够快速高效地捕捉、洞察市场新趋势、新变化。
阿里各个业态都有自己的商品、店铺CPV,如何建设标准的schema,让不同市场的商品数据能够通起来,如何做跨市场类目归一、属性归一。
之前的schema设计多数都是类目属性体系,其能够较为全面准确地刻画商品偏客观部分的认知和理解,但随着个性化、精细化需求越来越多,如何捕捉刻画商品偏主观部分的认知和理解,也是未来亟需解决的难点和问题。
② 本体层之下是概念层,具备某个相同属性的一类商品可以抽象概括为一个概念,比如适合「约会」的商品,有「保湿」功效的商品,「杨幂代言」的商品等等,其具备一定的泛化性,可解释性,抽象性,且概念与概念之间有各种关系,例如「人群=0-3个月宝妈」需要「尺码=NB,品类=尿不湿」,「成分=玻尿酸,品类=面霜」具有「功效=保湿」等等,这些共同构成了概念图谱。科研界也有类似常识图谱的概念,这一层主要作用就是将存在于零售导购人员或者行业运营脑海中的知识或者经验进行数字化,用概念、概念-概念之间的关系去描述这种知识/经验,这一层主要需要解决的问题主要有:
如何确保概念图谱的丰富性,快速高效地捕捉市场上最新的元素、概念。
如何高效地挖掘概念图谱里的「知识三元组」,即做大规模的知识挖掘。
③ 实体层,更多是指具体的生态内的每一个商品、每一个店铺、每一个门店,这一层的实体规模非常巨大,规模在百亿级别,这一层需要解决的问题主要有:
如何确保这么大规模的海量商品数据与schema层、概念层的挂载准确丰富,即构建商品/店铺 profile。
如何面对海量商品数据构建高可用跨渠道的商品关系服务,其中尤以同款关系最为重要。
④ 事件层是客观生活当中的一些事件,包括对环境做的一些数字化的工作。
2. 本体层

本体层要解决的一个核心挑战点是提升标准化程度。之前阿里的每个业态,包括淘宝、国际化、本地生活等,都有独立的类目属性去管理,之间没有交互,数据也不通,因此为了能够让商品流通起来,我们进行了一些探索和试错,大概经历如下几个阶段:
① 相互独立:不同市场体系两两之间建立映射关系,这样的方案优点相对比较直接,信息损失较少,缺点是成本较高,运营维护不方便。
② 关系互通:从各个市场schema体系中,抽象沉淀能够满足大部分业务基本需求的相对标准的知识体系,即标准CPV,然后通过标准CPV体系和每一个渠道CPV建设映射关系,优点是相比方案1,成本相对有所降低,N个市场只需要建立N个映射关系即可,缺点是标准较难确定,信息损失较大。
③ 共享+个性定制:在方案2的基础上,希望未来一些新市场需要构建自身市场的类目属性体系时,可以先参考借鉴标准CPV,帮业务快速建设到60分,然后60分-90分个性化、精细化的部分,业务可以根据自身需要和市场特点进行个性定制和延展,这样能进一步降低各市场信息互通的成本,同时又保持各市场个性化的定制和需求。
3. 概念层

在构建概念图谱之前,首先要想清楚要构建的概念的范围和约束是什么,因为人类社会抽象沉淀下来的概念实在太多,凡事万物皆可概念化,「天空」「白云」「桌子」「美好」可能都是一种概念,那我们到底要建设哪些概念,建设到什么程度才算建设完成。对于这个问题的回答,核心还是看所要解决的场景和问题是什么。
对于阿里数字商业知识图谱而言,所服务的核心场景依然是导购,希望帮助平台更好地理解商品,更好地进行人货匹配,因此要构建什么样的概念图谱首先要研究消费者决策理论,去洞察消费者在购买决策过程中核心的决策节点有哪些,好在传统零售,很多经济、市场学家已经有相当成熟的方法论去阐述这个问题,我们要做的就是将这套理论数字化、智能化。
通过对霍华德一谢思模式对消费者购买决策的理论分析,我们最终将其数字化建模成以下几个步骤及环节:
需要认识
购物需求的建模,什么人(人群实体)在什么地方(地点实体)什么时间(时间实体)做什么事(事件实体)。
信息收集
有了需求之后可能就会随之而来产生购物的需求,比如约会需要穿连衣裙,带首饰,生孩子需要奶瓶、奶粉、奶嘴等等,而目前往往消费者对这部分的拆解都是通过百度、知乎、宝宝树、朋友等一些其他通用搜索或者垂直领域app获取了解的,那这里从需求拆解到品类,甚至细分品类(属性项属性值+品类),例如连衣裙、斩男色的口红、佳能的相机、硅胶的奶嘴、牛油果绿的连衣裙。
方案评估
这里主要是从品类众多商品中选择一个最适合自己的产品,例如需要买相机,是买「佳能5D2」还是「索尼奶昔7」。
购买决策
如果确定要买哪款产品了,需要解决的问题主要是平台上的商品、sku太多,如何快速让消费者在众多选择中选择一个最适合自己的,这里主要涉及一些商品item颗粒度上的认知和刻画,比如一些热点主题标、服务标、营销标、资质标、价格、商户/商家标。
购后行为
这块主要就是评价,需要构建评价标签体系。
边栏推荐
- Static proxy of proxy mode
- Es6中Promise的使用
- Redis入门完整教程:复制拓扑
- Kubernetes源码分析(二)----资源Resource
- Google Earth Engine(GEE)——Landsat 全球土地调查 1975年数据集
- Detailed explanation of 19 dimensional integrated navigation module sinsgps in psins (filtering part)
- LeetCode 77:组合
- 【软件测试】最全面试问题和回答,全文背熟不拿下offer算我输
- What are the applications and benefits of MES management system
- Form validation of uniapp
猜你喜欢

实施MES管理系统时,哪些管理点是需要注意的

Number theory --- fast power, fast power inverse element

The panel floating with the mouse in unity can adapt to the size of text content

Google Earth engine (GEE) -- 1975 dataset of Landsat global land survey
MySQL提升大量数据查询效率的优化神器

uniapp的表单验证

Redis getting started complete tutorial: client management

Read fast RCNN in one article

Detailed explanation of 19 dimensional integrated navigation module sinsgps in psins (time synchronization part)

从零安装Redis
随机推荐
Static proxy of proxy mode
Leetcode 77: combination
Qpushbutton- "function refinement"
Software testing -- common assertions of JMeter interface testing
Redis入门完整教程:客户端案例分析
MMDetection3D加载毫米波雷达数据
Es6中Promise的使用
Mmdetection3d loads millimeter wave radar data
Convert widerperson dataset to Yolo format
从零安装Redis
Electrical engineering and automation
Huitong programming introductory course - 2A breakthrough
The panel floating with the mouse in unity can adapt to the size of text content
Statistics of radar data in nuscenes data set
【2022国赛模拟】多边形——计算几何、二分答案、倍增
Examples of how to use dates in Oracle
CDB PDB user rights management
widerperson数据集转化为YOLO格式
MySQL提升大量数据查询效率的优化神器
Kysl Haikang camera 8247 H9 ISAPI test