当前位置:网站首页>NLP-文献阅读总结
NLP-文献阅读总结
2022-07-04 06:53:00 【Prime-Number】
近些年杂七杂八读了很多文献,但是没有一个较为系统的总结,尤其是经常会钻进死胡同,因此,今天巩固了一下@CQU弟中弟 总结的 怎样阅读NLP论文 ,对其中的部分内容做一个系统总结。
目录
1.文献查找和归类
面对一个新的课题时,文献查找和归类显得极为重要,这里主要有两个核心问题:
(1)找的文献是否“足够好”?
(2)文献如何分类?
1.1 文献查找
在确定开始某个研究方向以后,首先就是要大量阅读这个方向的论文,NLP可以参考的文献检索网站有:
- ACL Anthology:这是ACL学会建立的网站,支持该领域绝大部分国际学术会议论文的免费下载,甚至包含了其他组织主办的学术会议,例如COLING、IJCNLP等。

- arXiv:这是一个预发表网站,一般很多研究者会将很多已投稿还没有发表的文章会放到arxiv上让大家知道这方面的研究内容已经有人做了,不必再做重复性的工作。
- DBLP:这是计算机领域内对研究成果以作者为核心的一个强大的计算机类英文文献的集成数据库系统。
检索文献的同时还需要注意上述第一个问题,“足够好”是指这篇文献具有很好的质量。通常来说,可以通过下面这些指标来识别高质量文章:
- 发表期刊/会议
- 被引用次数
- 发表组织/个人
- 是否有源码
从刊物和会议角度来说,NLP方向可以参考以下会议/期刊:
ACL | 会议 | http://dblp.uni-trier.de/db/conf/acl/ | NLP |
| EMNLP | 会议 | http://dblp.uni-trier.de/db/conf/emnlp/ | NLP |
| NAACL | 会议 | http://dblp.uni-trier.de/db/conf/naacl/ | NLP |
| COLING | 会议 | http://dblp.uni-trier.de/db/conf/coling/ | NLP |
| AAAI | 会议 | dblp: AAAI | AI |
IJCAI | 会议 | dblp: IJCAI | AI |
| NeurIPS | 会议 | dblp: NeurIPS | AI |
| ICLR | 会议 | dblp: ICLR | AI |
| NLPCC | 会议 | dblp: NLPCC | NLP |
| CCIR | 会议 | dblp: CCIR | NLP |
| Computational Linguistics | 期刊 | http://www.mitpressjournals.org/loi/coli | NLP |
| Transactions of the Association for Computational Linguistics | 期刊 | Transactions of the Association for Computational Linguistics | NLP |
在上述表格中,会议的地址都来自 DBLP 。
1.2 文献归纳
下载好论文以后,还需要对文献有科学的分类和管理,这样有利于后期快速找到自己下载好的论文。这里可以参考:
- 文献来源——根据会议和期刊名构建文件夹
- 是否预发表
- 研究问题——还可以将研究问题细分,进一步做较为细致的分类(推荐)
- 方法/模型——CNN, RNN, Bert, Prompt等
- 优化方法
合理的分类可以帮助自己梳理文献和总结。
2.文献阅读与笔记
文献不仅要读,更要记笔记!
2.1 阅读顺序
为了快速知道作者的研究问题、内容和结论,必须有一套有效的论文阅读方法,这里推荐如下阅读顺序:
- Title+Abstract——一般来说,标题中可以获得本文的大致研究内容,通常也用于大家快速检索与自己研究相关的内容,不过部分论文的标题非常含蓄,可能会让我们出现遗漏,例如Attention is all you need。进一步阅读摘要能更加有效获取文章的工作核心,这里也还需要注意,有的文章可能做了与自己相同的研究,但因为不是其核心创新而没有写到摘要中,这就需要进一步阅读更多内容。
- Abstract+Introduction (The second half)——因为引言的前半部多半在介绍研究背景和早期研究,只有后半部才是自己的工作,因此核心看后半部分。
- Experiments+Conclusion——学习作者的实验思路和分析方法,获得有效的研究结论
- Proposal——根据自己的敏感程度进行阅读,分析作者工作和自己的不同之处和效果
2.2 笔记
阅读完以后,一定不能忘记记笔记,记录好文献的笔记后,可以帮助后期快速对比各个论文的不同点,并用于总结。
这里推荐up主的笔记方法,通过构建一个表格,将每篇文献的详细内容进行总结:

3.讨论与总结
讨论与总结是一个很好提升自己对文章理解、消化吸收的手段。当阅读完一篇文献后,往往只是片面掌握了文章研究的问题、方法和结论,但对于其中的内在逻辑可能缺乏充分的理解,同时,也因为自己知识的局限性,往往很难发现文章中存在的问题。
在这种时候,最好是能够和其他人进行较为细致的讨论和分析,通过尝试去说服他人,回答对方的问题,从而让自己对文章理解的更为透彻。
参考内容:
1.B站,CQU弟中弟, 怎样阅读NLP论文
2.简书,科技与少女, 阅读科学文献的方法及工具总结
边栏推荐
- 2022年6月小结
- 同一个job有两个source就报其中一个数据库找不到,有大佬回答下吗
- A new understanding of how to encrypt industrial computers: host reinforcement application
- Can the out of sequence message complete TCP three handshakes
- tars源码分析之8
- Latex中的单引号,双引号如何输入?
- Centos8 install mysql 7 unable to start up
- Chapter 1 programming problems
- 抽奖系统测试报告
- selenium驱动IE常见问题解决Message: Currently focused window has been closed.
猜你喜欢

2022 wechat enterprise mailbox login entry introduction, how to open and register enterprise wechat enterprise mailbox?

List of top ten professional skills required for data science work

Campus network problems

Responsive mobile web test questions

The final week, I split

Introduction to spark core components

The cloud native programming challenge ended, and Alibaba cloud launched the first white paper on application liveliness technology in the field of cloud native

the input device is not a TTY. If you are using mintty, try prefixing the command with ‘winpty‘

What is industrial computer encryption and how to do it
![[MySQL] introduction, function, creation, view, deletion and modification of database view (with exercises)](/img/03/2b37e63d0d482d5020b7421ac974cb.jpg)
[MySQL] introduction, function, creation, view, deletion and modification of database view (with exercises)
随机推荐
Campus network problems
selenium驱动IE常见问题解决Message: Currently focused window has been closed.
Tar source code analysis Part 3
11. Dimitt's law
tars源码分析之10
What is tweeman's law?
Tar source code analysis Part 7
tars源码分析之4
regular expression
2022年,或许是未来10年经济最好的一年,2022年你毕业了吗?毕业后是怎么计划的?
centos8安装mysql.7 无法开机启动
Redis interview question set
Review of enterprise security incidents: how can enterprises do a good job in preventing source code leakage?
测试用例的设计
Background and current situation of domestic CDN acceleration
ADC voltage calculation of STM32 single chip microcomputer
【网络数据传输】基于FPGA的百兆网/兆网千UDP数据包收发系统开发,PC到FPGA
【GF(q)+LDPC】基于二值图GF(q)域的规则LDPC编译码设计与matlab仿真
Appium foundation - appium installation (II)
What is Gibson's law?