当前位置:网站首页>31. Opinion-based Relational Pivoting forCross-domain Aspect Term Extraction 阅读笔记
31. Opinion-based Relational Pivoting forCross-domain Aspect Term Extraction 阅读笔记
2022-07-26 14:26:00 【薰珞婷紫小亭子】
目录
3.1 Opinions vs. Aspect Domain Variability
3.3 Deterministic Relational Pivoting
3.4 Analysis of Domain Differences
Author Information:
,
,
,
,
,

Institutions Information:
Abstract
领域自适应(Domain adaptation)方法经常利用领域可转移(domain-transferable)的输入特征, 又叫做pivots。属性和情感抽取的任务对领域转移提出了一个特殊的挑战:虽然情感词主要是跨领域转移的,但不同领域的属性词却又明显的差异(如Restaurant领域到Laptop领域)。
在本文中,我们研究并建立了一个先验猜想(conjecture),它表明将情感词与各个属性词联系起来的语言关系可以很好地跨领域转移,因此可以用于跨领域属性词的提取。通过实验,用四种语言依赖形式(four linguistic dependency formalisms)来表示关系模式 (relation patterns),我们提出了一些分析来支持这一猜想。随后,我们提出一个属性抽取方法,该方法通过显式的多任务目标来驱动模型考虑意情感-属性(opinion-aspect)关系。这种方法提供了显著的性能提高,即使是在先前的最先进的语言信息模型之上,这些模型在分析中显示为源于关系旋转信号(relational pivoting signal)。
1 Introduction

在大多数领域自适应设置中,输入的一些特征是特定于领域的,而其他特征——也称为轴特征 (pivot features)——确实转移到不可见的域。因此,跨领域泛化(generalization)关注模型的学习关注后者。然而,跨域的属性词之间几乎没有什么直接的共性。从本质上,它们的共同点是情感词所指的目标主题。由于这个原因,之前的工作建议使用手工制作的句法规则,或者在模型中注入完整的句法分析(syntactic analysis),旨在捕获属性的基于关系的属性。
本文贡献:
1)本文的第一个贡献是:在定量的数据驱动分析上建立了跨领域AT提取的关系旋转方法(relational pivoting approach)。我们使用四种不同的语言形式主义(linguistic formalisms)(e.g., suntactic and semantic dependecies ) 来描述OT-AT关系,并通过经验确认它们的领域可转移性和对任务的重要性。
2) 接下来,我们提出了一种辅助的多任务学习方法和专门的关系聚焦任务,旨在教模型在OT和AT抽取训练中集中捕获这些关系。
3 ) 当应用于普通BERT(vanilla)和最先进的SA-EXAL模型时,我们的方法提高了跨域AT提取性能。
4) 最后,我们对模型预测进行了定量分析(quantitative analysis),将观察到的性能收益归因于增强的关系旋转。
2 Background
3 Motivating Data Analysis
关系旋转假设 (Relational Pivoting hypothesis) 是由两个观察结果共同得出的:
1) 跨领域的情感词是比较相似的。
2) 对应的OT-AT对之间的关系具有共同的、领域可转移的语言特征。
综上所述,这些数据表明,OT-AT语言关系是跨领域转移属性抽取的信息支点特征。在下面的小节中,我们将展示一些支持上述观察和假设的几种分析。
3.1 Opinions vs. Aspect Domain Variability
我们首先通过计算跨域词汇重叠(overlap)来衡量OTs和ATs跨域共享的程度。Table 1 显示了目标域中至少在源域中出现一次的术语实例的百分比。

总的来说,与属性词不同,情感词在不同领域之间有显著的重叠。
3.2 OT-AT Path Patterns
接下来,我们测量连接OT-AT对的语言关系在不同领域之间共享的程度。为此,我们使用它们在依赖图中的路径模式 (path pattern)来捕获OT-AT语言关系,即,在术语之间的最短(无向)路径中出现的依赖关系标签的有序列表(图1)。
我们调查和比较了四种语言形式(four linguistic formalisms) :Spacy’s syntactic dependencies, Universal Dependencies (UD)。 以及来自语义依赖性解析的两种形式主义:— DELPH-IN MRS (DM) and Prague Semantic Dependencies (PSD)。
重要的是,由于原始的基准数据集中AT和OTs之间的相关性并没有标注,我们首先启发式地定义哪些(OT,AT)对将被认为是相关的。经过初步分析(preliminary analysis),我们为每种形式选择了最短路径长度为≤2的所有对。这产生了9K-10K对,覆盖了不同形式的60%-70%的 ATs。
我们发现一个领域中94%-97%的patterns在另一个领域中也存在。这证实了先前的OT-AT关系的语言结构是相当的域不变的前提,并提出了路径模式作为域转移的理想特征。
3.3 Deterministic Relational Pivoting
为了量化基于关系的旋转 (relation-based pivoting) 的估计潜力,我们分析了一种基于路径模式的通过黄金OTs提取AT的确定性方法,类似于先前的基于规则的方法,并评估这种方法跨领域转移的效果。

从Table 2 可知:总的来说,基于模式(pattern-based)的AT提取可以使F1的平均得分达到39(DM),召回率达到54(UD)。至关重要的是,相对于域内 (in domain)设置,跨域 (cross-domain)设置几乎没有任何下降,这肯定了来自不同源域的模式与基于情感的AT提取的域内模式一样信息丰富,这与观察到的模式稳定性一致。这些发现表明,驱动一个模型来编码OT-AT关系应该会增强领域的适应性。
3.4 Analysis of Domain Differences
为了评估每个领域内OT-AT关系的语言多样性,我们绘制了每种语言形式的相对累积模式分布(relative cumulative pattern distribution),可视化有多少OT-AT对(%)被多少不同的模式所覆盖.

4 Multi-task Learning Method
为了将关系旋转信号 (relational pivoting signal)传播到OT和AT提取模型中,我们应用了辅助多任务学习(AMTL)。
多任务主线:
1)预测相对应的AT (ASP)
2) 预测依存关系图中的关系模式 (PATT)
ASP任务应该突出OT-AT关系的隐式表征,而PATT则注入显式的、以语言导向的关系信息。
基线模型:
BERT和SA-EXAL
实现细节:
将AT和OT抽取看作成是BIO序列标注任务.
表示的是输入句子经过编码器的之后的输出。
是从提取的OT-AT对中提取的OT索引。辅助分类器的定义如下:

5 Results and Analysis
5.1 Settings vs Results:
遵循Pereg et al. (2020),我们在3个随机数据分割和3个不同的随机种子上运行每个模型,给出了9次运行的平均F1值(和标准差)。实验结果如Table 4

5.2 Performance Analysis
模型预测和确定性关系旋转方法之间的重叠表明了模型在多大程度上利用了关系枢轴特征。给定模型预测,我们设定
作为一个模型获得的召回率的提升。较大的
表明与基于模式的覆盖范围的潜在范围差异较大,这暗示了该模型包含的较少的关系枢轴特性。
几点观察:
1) 使用DM作为formalism, 我们发现对于BERT模型,6个域传输的平均
为16.5个召回点,Laptops到Restaurant(L->R)的传输为22.6个召回点。
2) BERT + ASP (DM) ,平均
是14, 而Laptops到Restaurant(L->R)是15.7
6 Conclusion
通过分析语言OT-AT路径模式的领域不变性(domain invariance),我们建立基于情感词的跨领域属性抽取方法。因此,我们提出了一种以关系为中心的多任务学习方法,并证明了它通过利用关系特征来增强模型的结果。
边栏推荐
- 『云原生』KubeSphere可插拔组件之DevOps系统
- MySQL-03 数据库操作
- 全校软硬件基础设施一站式监控 ,苏州大学以时序数据库替换 PostgreSQL
- 12437 words, take you to explore the principle of RPC communication
- Meeting seating and submission for approval of OA project
- 1对1直播源码——1对1语音聊天源码
- Multi task text classification model based on tag embedded attention mechanism
- Disease knowledge discovery based on spo semantic triples
- Unity学习笔记–无限地图
- 中部“第一城”,长沙“人才引力”从争先到领先
猜你喜欢

10 schemes to ensure interface data security

android安全基础知识学习

Plato Farm有望通过Elephant Swap,进一步向外拓展生态

Plato farm is expected to further expand its ecosystem through elephant swap

1-to-1 live broadcast source code - 1-to-1 voice chat source code
![[untitled]](/img/50/7aa01f1d8657700a11cbc26290804a.png)
[untitled]

Basic syntax of MySQL DDL and DML and DQL

Multi task text classification model based on tag embedded attention mechanism

uni-app从创建到运行到微信开发者工具
网络图片转本地导致内核退出
随机推荐
[GYCTF2020]FlaskApp
Technology evolution analysis framework based on two-level topic model and its application
【整数规划】
全校软硬件基础设施一站式监控 ,苏州大学以时序数据库替换 PostgreSQL
请问数据库规范的文档吗 参考一下?
基于多特征的技术融合关系预测及其价值评估
Leetcode36 effective Sudoku
Annotation and reflection
UE4 智能指针和弱指针
基于双层主题模型的技术演化分析框架及其应用
C语言_结构体和数组的结合
Kubernetes----Pod配置资源配额
[GYCTF2020]FlaskApp
Construction practice of pipeline engine of engineering efficiency ci/cd
"Baget" takes you one minute to build your own private nuget server
C language_ Combination of structure and array
什么是Restful风格以及它的四种具体实现形式
多线程——线程池
Research on Chinese medicine assisted diagnosis and treatment scheme integrating multiple natural language processing tasks -- taking diabetes as an example
【常微分方程求解及绘图之求解小船行走轨迹】