当前位置:网站首页>【论文阅读】GRAW+:A Two-View Graph Propagation Method With Word Coupling for Readability Assessment
【论文阅读】GRAW+:A Two-View Graph Propagation Method With Word Coupling for Readability Assessment
2022-07-26 13:52:00 【沐兮Krystal】
Key Point:
- 基于图的分类方法(利用文档之间的关系)
- 耦合词袋模型(评估词在阅读困难上的关联)
- 双视图传播方法(同时利用词袋模型与语言特征)
方法
总的来说,分为如下两个阶段:
- 特征表示(把文档映射为特征向量)
- 可读性分类(图构建、图合并与标签传播)
一. 耦合词袋模型(The Coupled Bag-of-Words Model)
1.构建词耦合矩阵(the word coupling matrix)
- 假设:简单的词倾向于出现在简单的句子中,难的词倾向于出现在难的句子中。
- 想法:评估一个词的阅读困难,通过它在不同难度等级的句子中的共现概率分布。
- Note:使用未标签的句子,用启发式函数(heuristic functions)给句子打上阅读难度的标签。
Step1:Per-sentence reading difficulty estimation
- 使用启发函数做一个粗略的估计,得到每个句子的弱标签(weak label)。
- 利用8个语言特征(可以应用于句子级别的),构建了8个启发函数来计算句子的难度得分。

- 把连续的分数进行离散化,采用下式得到每句的阅读等级(3个方面)

Step2:Per-word difficulty distribution estimation
- 每个词 t t t对应一个长度为i的向量( i i i为阅读等级的数量)。
- 向量的每一个维度 i i i为一个概率值 p t ( i ) p_t(i) pt(i),等于该词出现在对应等级 i i i的的句子数占该词出现的句子总数的比例,计算公式如下:

Step3:Word coupling matrix construction
- 词耦合矩阵中每个元素的值对应于两个词之间的关系,值为两个词之间的向量的相似度/概率分布的差异。
- 一共构建了3个词耦合矩阵 C s u r , C l e x , C s y n C^{sur},C^{lex},C^{syn} Csur,Clex,Csyn。
- 过滤策略(避免词汇量过大时会非常耗时):根据词的熵,设定百分比,过滤低熵的词。
2.生成耦合词袋模型
通过词耦合矩阵与基础的词袋矩阵(BoW matrix)相乘,得到耦合词袋矩阵(coupled BoW matrix)。

一共构建了3个耦合TF-IDF矩阵,分别是 M s u r M^{sur} Msur, M l e x M^{lex} Mlex, M s y n M^{syn} Msyn,耦合词袋矩阵(cBoW)会稠密,并且关注阅读困难上的相似度。
二. 语言特征(The Linguistic Features)
- 构建了一个矩阵 M l ∈ R n l × ∣ D ∣ M^l\in R^{n_l\times \left | D \right | } Ml∈Rnl×∣D∣,其中 n l n_l nl是语言特征的个数。
- 这篇文章中选择的语言特征都是language-independent,以支持他们提出的方法的独立于不同语言的特性。
- Surface Features, Lexical Features, Syntactic Features
三. 双视图传播(Two-View Graph Propagation)
图的构建

图的合并
分为视图内同构图合并与视图间的异构图合并。Intra-view homogeneous graph merging
基本思想是保留公共边同时移除带有冗余信息的边。首先保留在3个图中都存在的邻居节点,对于至少在一个图中存在的节点,选择与点v拥有最少的公共邻居的节点(目的是保证图中出现的三角形数量最少)。边权为3个图对应的边的平均。
边栏推荐
- With 8 years of product experience, I have summarized these practical experience of continuous and efficient research and development
- 大脑带来的启发:深度神经网络优化中突触整合原理介绍
- Intercept the coordinate points (four point coordinates of the face frame) face image from the marked XML file and save it in the specified folder
- Technology sharing | gtid that needs to be configured carefully_ mode
- Multi objective optimization series 1 --- explanation of non dominated sorting function of NSGA2
- Concept and handling of exceptions
- SuperMap iclient for leaflet loads Gauss Kruger projection three-dimensional zonation CGCS2000 geodetic coordinate system WMTs service
- 循环队列(c语言实现)
- The serialization class in unity is in JSON format
- 官宣!艾德韦宣集团与百度希壤达成深度共创合作
猜你喜欢

IDEA(warning)No artifacts configured

See you tomorrow at the industrial session of cloud intelligence technology forum!

万字长文,浅谈企业数字化建模蓝图

Sequence traversal of binary tree (implemented in C language)

二叉树的层序遍历(C语言实现)

Tianjin emergency response Bureau and central enterprises in Tianjin signed an agreement to deepen the construction of emergency linkage mechanism
![[NOIP2003 普及组]栈](/img/95/871b1c6f492b467bffd25912304b44.gif)
[NOIP2003 普及组]栈

404 pages and routing hooks

Algorithm -- continuous sequence (kotlin)

2022年,我们只用一个月就“送走”了这么多互联网产品
随机推荐
The serialization class in unity is in JSON format
Multithreaded completable future usage
[noip2003 popularity group] stack
DP sword finger offer II 100. sum of minimum paths in triangle
Feixin, which lasted 15 years and had 500million users, was completely dead
Team research and development from ants' foraging process (Reprint)
【着色器实现Overlay重新覆盖变装效果_Shader效果第九篇】
最新战报:十项认证,五项最佳实践
周伟:寻找非共识性投资机会,陪伴延迟满足的创始团队
Win11+vs2019 configuration yolox
El table implements editable table
Sequence traversal of binary tree (implemented in C language)
Subscription and publication of messages
Ultimate doll 2.0 | cloud native delivery package
Pytoch learning notes (I) installation and use of common functions
Tianjin emergency response Bureau and central enterprises in Tianjin signed an agreement to deepen the construction of emergency linkage mechanism
Cavans realizes Static Rolling barrage
[oauth2] VII. Wechat oauth2 authorized login
How to quickly design a set of cross end components that support rendering rich text content
Go multithread communication, control coordination and main thread shutdown (sync.waitgroup)