基于LDA算法的识别文章主题的模型文献综述
2020-04-18 19:43:45
文 献 综 述 摘要 本研究课题拟对当前自然语言处理中的文本主题识别问题进行研究,并尝试在相关数据上应用相关算法。
本课题拟在现有的研究基础上,重点探讨当前基于LDA算法的主题识别模型,总结近几年最新的研究成果,研究其优化、改良、集成的方法,探索其在实际工程的应用。
一 引言 随着互联网中信息量的迅速整张,自然语言处理技术(Natural Language Processing)被越来越多地应用于自动处理文本信息相关的任务。
而作为自然语言处理任务中的一种基本问题,LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息,对文本挖掘,机器阅读理解等高层次自然语言处理问题的研究有着一定的启发性。
本文首先具体定义了需要解决的问题及实际意义,随后从两个角度论述了识别文本主题问题的解决方案,对现有方法进行了总结,指出了当前研究的存在的待改进的部分,对潜在的创新点进行了展望。
二 文本主题识别的定义 主题发现分为广义和狭义之分,广义的主题发现针对各种常见数据集(文本,图像,音频,视频等),狭义的主题发现仅针对文本数据,我们通常所说的主题发现是狭义的主题发现。
文献[2]对文本主题的定义进行了综合性整理。
该定义阐明文章主题与词的频数有关,词出现的频数越高,主题权重越大[14],其结果如公式(1)所示: (1) 其中, ,V 表示词典中不重复的词的数目, 表示在语料中由第 k 个topic 产生的第 t 个词的数目。
此外,文献[4]指出,文本的主题识别还可以从信息增益这个方面进行考量。
本文侧重于语义上的文本主题识别。