当前位置:网站首页>论文阅读 (62):Pointer Networks
论文阅读 (62):Pointer Networks
2022-07-29 06:39:00 【因吉】
1 引入
1.1 题目
1.2 代码
Github:https://github.com/shirgur/PointerNet
1.3 摘要
引入了一种新的神经架构来学习输出序列的条件概率,其元素是与输入序列中的位置相对应的离散标记。已有的一些方法,例如序列到序列和神经图灵机并不能处理这个问题,因为它们输出的每一步中,目标类的数量与输入的长度有关,但输入序列的长度却是可变的。可变大小序列的排序,以及各种组合优化问题都属于此类问题。
具体地,可变大小输出字典的问题通过引入注意力机制来解决。它与之前的注意力不同之处在于,它不是在每个解码器步骤中使用注意力将编码器的隐藏单元融合为上下文向量,而是使用注意力作为指针来选择输入序列的成员作为输出。这样的架构被我们称为指针网络 (Ptr-Net)。
为了证明Ptr-Net的有效性,三个著名的几何问题被使用,分别为寻找平面凸包、计算Delaunay三角剖分和平面旅行商问题。Ptr-Net不仅通过输入注意力改进了序列到序列,而且还可以被推广到可变大小的输出字典。最终结果显示学习模型的泛化能力超出了它们所训练的最大长度。这些结果将鼓励探索更广泛的离散问题的神经学习。
1. Bib
@article{
Vinyals:2015:pointer,
author = {
Oriol Vinyals and Meire Fortunato and Navdeep Jaitly},
title = {
Pointer networks},
journal = {
Advances in neural information processing systems},
volume = {
28},
year = {
2015}
}
2 模型
首先介绍两个背景工作,即序列到序列和输入注意力模型。随后引出本文提出的Ptr-Net架构。
2.1 序列到序列模型
给定一个训练对 ( P , C P ) (\mathcal{P},\mathcal{C^P}) (P,CP),序列到序列模型使用带有参数 θ \theta θ的RNN在概率链式规则的基础上计算条件概率:
p ( C P ∣ P ; θ ) = ∏ i = 1 m ( P ) p ( C i ∣ C 1 , … , C i − 1 , P ; θ ) (1) \tag{1} p(\mathcal{C^P}|\mathcal{P};\theta)=\prod_{i=1}^{m(\mathcal{P})}p(C_i|C_1,\dots,C_{i-1},\mathcal{P};\theta) p(CP∣P;θ)=i=1∏m(P)p(Ci∣C1,…,Ci−1,P;θ)(1)一个示意如图1。
边栏推荐
- Win11vmware turns on the virtual machine and restarts on the blue screen and the solution that cannot be started
- Flink real-time warehouse DWD layer (transaction domain - additional purchase dimension degradation processing) template code
- 1172. The plate stack has a sequence table + stack
- WPF嵌套布局案例
- Some tips of vim text editor
- gin 中间件
- Pod基本介绍
- Win11 system error: code execution cannot continue because ierutil.dll cannot be found. Reinstalling the program may fix this problem
- Thread synchronization - producers and consumers, tortoise and rabbit race, dual thread printing
- SQL优化
猜你喜欢

MySQL - multi table query

记 - 踩坑-实时数仓开发 - doris/pg/flink

LeetCode 879. 盈利计划

Thread - thread safety - thread optimization

MySQL 有这一篇就够(呕心狂敲37k字,只为博君一点赞!!!)

Problems encountered in vmware16 installing virtual machines

Guess the number / / generate a random number for the first time

Operator3-设计一个operator

JS 鸡生蛋与蛋生鸡问题,Object与Function究竟谁出现的更早?Function算不算Function的实例?

Improved pillar with fine grained feature for 3D object detection paper notes
随机推荐
【charles日常问题】开启charles,使用不了钉钉
DM data guard cluster setup
微服务远程调用
After three years of outsourcing, the salary of automatic testing after job hopping is twice that of the original. The secret is
个人博客系统(附源码)
数组的子集不能累加出的最小正数
MutationObserver文档学习
ECCV 2022 lightweight model frame Parc net press apple mobilevit code and paper Download
buck电路boot电容短路和断路实测波形
gin 服务退出
接口测试实战项目03:执行测试用例
Flink real-time warehouse DWD layer (processing complex data - installation and replacement of streams and tables) template code
CVPR2021| 基于自监督学习的多视图立体匹配 (CVPR2021)
CAN&CANFD综合测试分析软件LKMaster与PCAN-Explorer 6分析软件的优势对比
Cesium反射
Some tips of vim text editor
Vscode remote debugging PHP solution through remotessh and Xdebug
gin 中间件
谷歌零碎笔记之JWT(草稿)
Summary of OCR optical character recognition methods