基于Seq2Seq的生成式自动文本摘要关键技术研究开题报告
2022-01-14 22:00:31
全文总字数:7329字
1. 研究目的与意义及国内外研究现状
目前,互联网上的信息正以指数级的速度增长,其中最多的数据类型就是文本信息,如此海量的文本信息的出现,让如何从这些文本中获取我们需要的信息变成了一个急需解决的问题。现有的搜索引擎已经可以根据查询的条件给出相关的检索结果,但是仍然是基于一些基础的技术和方法,索引的对象依旧是根据词频,网页关系等确立的。因此,一种能够自动化对文本信息进行高度概括,抽取出关键信息的方法就变得十分关键,这样可以让人们不需要进行大量文本的阅读后筛选自己感兴趣的内容,而是通过预览关键信息和摘要进行选择,搜索引擎也可以通过对摘要和关键信息的索引来强化销量和准确率。这个核心的技术,就是自动文本摘要技术。
自动文本摘要技术的目的的通过使用计算机理解自然语言,并自动抽取出关键信息,进行内容的归纳和摘要,从而让海量的信息被一些简介,有效的信息表述出来,其来源可以是单篇文档,也可以是多篇文档。
基于单文档或多文档的内容生成相关的包含关键信息的简洁、凝练的摘要的应用场景是非常广泛的。比如新闻标题的自动生成,会议记录的摘要,搜索预览结果生成等等。这些实际的应用场景的需求也促使文本摘要技术在近几年的自然语言处理领域中成为最热门的研究之一。
2. 研究的基本内容
本文的研究内容是:在深度学习的生成式模型的基础上探究和解决生成式文本摘要面对的一些问题,其中包括的问题有常见的词表溢出问题、生成结果重复问题。生成式文本摘要的解决是一个比较难的问题,所以我们尝试在现有模型的基础上进行一些优化,使用不同的模型优化方案进行对比。
主要的研究内容如下:
1. 文本摘要的原文本中会出现大量的实体名词,这些实体名词有着极大的概率导致词表溢出的问题,因为词表一般包含的是高频词汇,而实体名词如地名、事实描述性词的出现频率很低。
3. 实施方案、进度安排及预期效果
实施方案:
自动文本摘要任务有多个方向,本文针对的是单文档的文档摘要生成,使用生成式的方法,而不是抽取式的方法,具体的实施如下:
1. 基线模型
4. 参考文献
[1] nallapati r, zhai f, zhou b. summarunner: a recurrent neural network based se- quence model for extractive summarization of documents.[a]. aaai[c]. 2017 : 3075 – 3081.
[2] chok,vanmerrinboerb,gulcehrec,etal.learningphraserepresentationsusingrnn encoder-decoder for statistical machine translation[j]. arxiv preprint arxiv:1406.1078, 2014.
[3] sutskever i, vinyals o, le q v. sequence to sequence learning with neural net- works[a]. advances in neural information processing systems[c]. 2014 : 3104 – 3112.