当前位置:网站首页>【5分钟Paper】Pointer Network指针网络
【5分钟Paper】Pointer Network指针网络
2022-07-26 15:03:00 【小小何先生】
所解决的问题?
提出了一个网络结构,学习输入序列的位置关系。
背景
学习输入序列的位置关系这一类问题可以被看做是seq2seq问题,输出序列长度与输入序列长度一致,并且是一个可变变量。可以用来处理变量排序或者组合优化问题。
这篇文章是2017年发表的,在这之前,对于循环神经网络这一类算法,主要还是基于先验固定了输出的字典,也就是隐藏层输出单元的预测大小并不可知。
所采用的方法?
与之前采用的attention用于编码encoder输入的隐藏状态不同,作者提出的Ptr-Net是基于Attention去选择的。

论文中核心的网络结构就在decoder部分。主要有两点:
- 与以往的
seq2seq模型不同,decoder每一个时刻的输入其实上一个时刻被选中的节点输入信息,是最原始的坐标信息编码之后进入到encoder中的输入信息。 - 在计算
decoder的输出的时候,采用的attention的计算如下:输入是[bs, hidden_dim, seq_len]的context和维度为[bs, hidden_dim]的input。这里的input就是decoder的输入和隐藏层经过LSTM得到的输出。
context经过一个一维度卷积操作,也相当于经过一个权重矩阵 W 1 W_{1} W1得到[bs, hidden_dim, seq_len]维度不变的矩阵。input经过一个权重矩阵 W 2 W_{2} W2再扩展维度到[bs, hidden_dim, seq_len]。之后这两个矩阵相加再与一个[bs, 1, hidden_dim]的可学习的变量 V V V相乘。得到[bs, seq]维度的attention矩阵。对应到原文公式就是:
u j i = v T t a n h ( W 1 e j + W 2 d i ) j ∈ ( 1 , ⋯ n ) u_{j}^{i} = v^{T} tanh(W_{1} e_{j} + W_{2}d_{i} ) \ \ \ j \in (1, \cdots n) uji=vTtanh(W1ej+W2di) j∈(1,⋯n)
过一层softmax得到attention矩阵:
a j i = s o f t m a x ( u j i ) j ∈ ( 1 , ⋯ n ) a_{j}^{i} = softmax(u_{j}^{i}) \ \ \ j \in (1, \cdots n) aji=softmax(uji) j∈(1,⋯n)
这个[bs, seq]维度的attention矩阵再与维度为[bs, hidden_dim, seq_len]的context矩阵相乘得到隐藏层的输出[bs, hidden_dim],作为LSTM的下一个时刻的hidden state。
d i ′ = ∑ j = 1 n a j i e j d_{i}^{\prime} = \sum_{j=1}^{n} a_{j}^{i} e_{j} di′=j=1∑najiej
取得的效果?
所出版信息?作者信息?
参考链接
边栏推荐
- Devsecops, speed and security
- 益方生物上市首日跌16%:公司市值88亿 高瓴与礼来是股东
- Deep Packet Inspection Using Quotient Filter论文总结
- Sqldeveloper tools quick start
- Everything is available Cassandra: the fairy database behind Huawei tag
- The R language uses the histogram function in the lattice package to visualize the histogram (histogram plot), the col parameter to customize the fill color, and the type parameter to customize the hi
- Data permissions should be designed like this, yyyds!
- 李宏毅《机器学习》丨3. Gradient Descent(梯度下降)
- Digital commerce cloud: lead the digital upgrading of chemical industry and see how Mobei can quickly open up the whole scene of mutual integration and interoperability
- 领导抢功劳,我改个变量名让他下岗了
猜你喜欢

Parallel d-pipeline: a cuckoo hashing implementation for increased throughput

持续集成(一)基本概念简要介绍
Database expansion can also be so smooth, MySQL 100 billion level data production environment expansion practice

领导抢功劳,我改个变量名让他下岗了

食品制造企业想要实现智能协同的供应商管理,选择SRM供应商系统就够了

装备制造业的变革时代,SCM供应链管理系统如何赋能装备制造企业转型升级

【LeetCode每日一题】——121.买卖股票的最佳时机

基于物联网的环境调节系统(ESP32-C3+Onenet+微信小程序)

Devsecops, speed and security

VS添加作者信息和时间信息的设置
随机推荐
OSPF and mGRE experiments
How to query foreign literature?
Crystal special decoration submitted for registration: the first quarter revenue fell by 80%, and Chen Bo controlled 68.5% of the equity
外文文献查找技巧方法有哪些
Chapter 08_ Principles of index creation and design
sqlDeveloper工具快速入门
蓝牙BLE4.0-HM-10设备配对指南
双屏协作效率翻倍 灵耀X双屏Pro引领双屏科技新潮流
笔记(5)
Notes (5)
2. Add two numbers
不到一周我开发出了属于自己的知识共享平台
Sqldeveloper tools quick start
兆骑科创高端人才项目引进落地,双创大赛承办,线上直播路演
Environment regulation system based on Internet of things (esp32-c3+onenet+ wechat applet)
R语言wilcox.test函数比较两个非参数样本的总体的中心位置是否具有显著差异(如果两个样本数据是配对数据设置paired参数为TRUE)
最详细的专利申请教程,教你如何申请专利
R语言ggplot2可视化:使用ggpubr包的ggdotplot函数可视化点阵图(dot plot)、设置add参数添加均值和标准差竖线、设置error.plot参数实际显示箱体
晶品特装递交注册:第一季营收降80% 陈波控制68.5%股权
How do college students apply for utility model patents?