当前位置:网站首页>论文阅读 (62):Pointer Networks
论文阅读 (62):Pointer Networks
2022-07-29 06:39:00 【因吉】
1 引入
1.1 题目
1.2 代码
Github:https://github.com/shirgur/PointerNet
1.3 摘要
引入了一种新的神经架构来学习输出序列的条件概率,其元素是与输入序列中的位置相对应的离散标记。已有的一些方法,例如序列到序列和神经图灵机并不能处理这个问题,因为它们输出的每一步中,目标类的数量与输入的长度有关,但输入序列的长度却是可变的。可变大小序列的排序,以及各种组合优化问题都属于此类问题。
具体地,可变大小输出字典的问题通过引入注意力机制来解决。它与之前的注意力不同之处在于,它不是在每个解码器步骤中使用注意力将编码器的隐藏单元融合为上下文向量,而是使用注意力作为指针来选择输入序列的成员作为输出。这样的架构被我们称为指针网络 (Ptr-Net)。
为了证明Ptr-Net的有效性,三个著名的几何问题被使用,分别为寻找平面凸包、计算Delaunay三角剖分和平面旅行商问题。Ptr-Net不仅通过输入注意力改进了序列到序列,而且还可以被推广到可变大小的输出字典。最终结果显示学习模型的泛化能力超出了它们所训练的最大长度。这些结果将鼓励探索更广泛的离散问题的神经学习。
1. Bib
@article{
Vinyals:2015:pointer,
author = {
Oriol Vinyals and Meire Fortunato and Navdeep Jaitly},
title = {
Pointer networks},
journal = {
Advances in neural information processing systems},
volume = {
28},
year = {
2015}
}
2 模型
首先介绍两个背景工作,即序列到序列和输入注意力模型。随后引出本文提出的Ptr-Net架构。
2.1 序列到序列模型
给定一个训练对 ( P , C P ) (\mathcal{P},\mathcal{C^P}) (P,CP),序列到序列模型使用带有参数 θ \theta θ的RNN在概率链式规则的基础上计算条件概率:
p ( C P ∣ P ; θ ) = ∏ i = 1 m ( P ) p ( C i ∣ C 1 , … , C i − 1 , P ; θ ) (1) \tag{1} p(\mathcal{C^P}|\mathcal{P};\theta)=\prod_{i=1}^{m(\mathcal{P})}p(C_i|C_1,\dots,C_{i-1},\mathcal{P};\theta) p(CP∣P;θ)=i=1∏m(P)p(Ci∣C1,…,Ci−1,P;θ)(1)一个示意如图1。
边栏推荐
- mysql可以定时导出表格吗?
- Vmware16 create virtual machine: cannot create a new virtual machine, do not have permission to perform this operation
- SQL优化
- [C language brush leetcode] 67. binary sum (E)
- gin 服务退出
- Simulation volume leetcode [normal] 222. number of nodes of complete binary tree
- Some tips of vim text editor
- Leetcode 879. profit plan
- Excel file reading and writing (creation and parsing)
- 实现改变一段文字的部分颜色效果
猜你喜欢

MySQL 有这一篇就够(呕心狂敲37k字,只为博君一点赞!!!)

Unity exploration plot access design analysis & process + code specific implementation

Win11vmware turns on the virtual machine and restarts on the blue screen and the solution that cannot be started

实现改变一段文字的部分颜色效果

After 4 years of development and 13K, if you want to change to automated testing, can your salary still rise···

2D cartoon rendering - advanced skills

Spark Learning Notes (VII) -- spark core core programming - RDD serialization / dependency / persistence / partition / accumulator / broadcast variables

H3C_利用设置缺省静态路由优先级实现出口双线路的主备功能

Why does ETL often become ELT or even let?

个人博客系统(附源码)
随机推荐
后缀自动机(SAM)讲解 + Luogu p3804【模板】后缀自动机 (SAM)
Simulation volume leetcode [normal] 081. Search rotation sort array II
怎么会不喜欢呢,CICD中轻松发送邮件
Implementation of DDP cluster distributed training under pytoch multi GPU conditions (brief introduction - from scratch)
VMware16创建虚拟机:无法创建新虚拟机,不具备执行此操作的权限
Win11 system error: code execution cannot continue because ierutil.dll cannot be found. Reinstalling the program may fix this problem
基于C语言设计的学籍管理系统
Simulation volume leetcode [normal] 222. number of nodes of complete binary tree
Can MySQL export tables regularly?
CAN&CANFD综合测试分析软件LKMaster与PCAN-Explorer 6分析软件的优势对比
resize2fs: 超级块中的幻数有错(Bad magic number in super-block )
图像加噪声与矩阵求逆
Vagrant box cluster processing
Unity free element special effect recommendation
Simulation volume leetcode [ordinary] 172. Zero after factorial
Vite3.0都发布了,你还能卷得动吗(新特性一览)
Ansible中的变量及加密
MySQL - multi table query
WPF简单登录页面的完成案例
Vscode remote debugging PHP solution through remotessh and Xdebug