当前位置:网站首页>【论文阅读】GRAW+:A Two-View Graph Propagation Method With Word Coupling for Readability Assessment
【论文阅读】GRAW+:A Two-View Graph Propagation Method With Word Coupling for Readability Assessment
2022-07-26 13:52:00 【沐兮Krystal】
Key Point:
- 基于图的分类方法(利用文档之间的关系)
- 耦合词袋模型(评估词在阅读困难上的关联)
- 双视图传播方法(同时利用词袋模型与语言特征)
方法
总的来说,分为如下两个阶段:
- 特征表示(把文档映射为特征向量)
- 可读性分类(图构建、图合并与标签传播)
一. 耦合词袋模型(The Coupled Bag-of-Words Model)
1.构建词耦合矩阵(the word coupling matrix)
- 假设:简单的词倾向于出现在简单的句子中,难的词倾向于出现在难的句子中。
- 想法:评估一个词的阅读困难,通过它在不同难度等级的句子中的共现概率分布。
- Note:使用未标签的句子,用启发式函数(heuristic functions)给句子打上阅读难度的标签。
Step1:Per-sentence reading difficulty estimation
- 使用启发函数做一个粗略的估计,得到每个句子的弱标签(weak label)。
- 利用8个语言特征(可以应用于句子级别的),构建了8个启发函数来计算句子的难度得分。

- 把连续的分数进行离散化,采用下式得到每句的阅读等级(3个方面)

Step2:Per-word difficulty distribution estimation
- 每个词 t t t对应一个长度为i的向量( i i i为阅读等级的数量)。
- 向量的每一个维度 i i i为一个概率值 p t ( i ) p_t(i) pt(i),等于该词出现在对应等级 i i i的的句子数占该词出现的句子总数的比例,计算公式如下:

Step3:Word coupling matrix construction
- 词耦合矩阵中每个元素的值对应于两个词之间的关系,值为两个词之间的向量的相似度/概率分布的差异。
- 一共构建了3个词耦合矩阵 C s u r , C l e x , C s y n C^{sur},C^{lex},C^{syn} Csur,Clex,Csyn。
- 过滤策略(避免词汇量过大时会非常耗时):根据词的熵,设定百分比,过滤低熵的词。
2.生成耦合词袋模型
通过词耦合矩阵与基础的词袋矩阵(BoW matrix)相乘,得到耦合词袋矩阵(coupled BoW matrix)。

一共构建了3个耦合TF-IDF矩阵,分别是 M s u r M^{sur} Msur, M l e x M^{lex} Mlex, M s y n M^{syn} Msyn,耦合词袋矩阵(cBoW)会稠密,并且关注阅读困难上的相似度。
二. 语言特征(The Linguistic Features)
- 构建了一个矩阵 M l ∈ R n l × ∣ D ∣ M^l\in R^{n_l\times \left | D \right | } Ml∈Rnl×∣D∣,其中 n l n_l nl是语言特征的个数。
- 这篇文章中选择的语言特征都是language-independent,以支持他们提出的方法的独立于不同语言的特性。
- Surface Features, Lexical Features, Syntactic Features
三. 双视图传播(Two-View Graph Propagation)
图的构建

图的合并
分为视图内同构图合并与视图间的异构图合并。Intra-view homogeneous graph merging
基本思想是保留公共边同时移除带有冗余信息的边。首先保留在3个图中都存在的邻居节点,对于至少在一个图中存在的节点,选择与点v拥有最少的公共邻居的节点(目的是保证图中出现的三角形数量最少)。边权为3个图对应的边的平均。
边栏推荐
- 【OAuth2】八、OAuth2登录的配置逻辑-OAuth2LoginConfigurer和OAuth2ClientConfigurer
- Redis learning notes
- Ten thousand words long article, talking about the blueprint of enterprise digital modeling
- .net6与英雄联盟邂逅之——根据官方LCU API制作游戏助手
- [oauth2] v. oauth2loginauthenticationfilter
- redis学习笔记
- POM file details
- Abstract factory and its improvement examples
- 搞懂MySQL的数据类型中长度含义
- 2022年,我们只用一个月就“送走”了这么多互联网产品
猜你喜欢

Tdsql-c serverless: help start-ups achieve cost reduction and efficiency increase

GDB common commands

Uncover the secret of white hat: 100 billion black products on the Internet scare musk away

【Oauth2】七、微信OAuth2授权登录

Canvas upload image Base64 with cropping function jcrop.js

redis学习笔记
![[oauth2] VII. Wechat oauth2 authorized login](/img/1a/3f2b9fc57759a1fa3fda1451492e5c.png)
[oauth2] VII. Wechat oauth2 authorized login

Brief introduction of reflection mechanism

IDEA(warning)No artifacts configured

Comparison between SIGMOD function and softmax function
随机推荐
@千行百业,一起乘云而上!
Ten thousand words long article, talking about the blueprint of enterprise digital modeling
2022-07-26日报:Alphafold DB数据库建立一周年,官推盘点亮点研究
Detailed explanation of factory mode
Segmentation fault (core dumped)
redis学习笔记
7-25 0-1 backpack (50 points)
JS download files, filesaver.js export txt and Excel files
IDEA(warning)No artifacts configured
Solve the problem that JUnit of idea console cannot be input with scanner
DP sword finger offer II 100. sum of minimum paths in triangle
The picture moves horizontally with the phone - gyroscope. 360 degree setting conditions
Team research and development from ants' foraging process (Reprint)
[noip2003 popularity group] stack
Canvas upload image Base64 with cropping function jcrop.js
With frequent data leakage and deletion events, how should enterprises build a security defense line?
Understand the meaning of length in MySQL data types
See you tomorrow at the industrial session of cloud intelligence technology forum!
云智技术论坛工业专场 明天见!
【Oauth2】五、OAuth2LoginAuthenticationFilter