基于深度学习的监控视频场景描述研究开题报告

2020-04-21 16:10:30

1. 研究目的与意义（文献综述）

近年来，深度学习的发展大大促进了计算机视觉、语音识别、自然语言处理等领域的研究，并产生了大量的优秀应用，将深度学习等人工智能技术运用于生产生活中的各个领域，将可以解决一些传统方法无法解决的难题，提高人们的生活质量。目前，在计算机视觉和自然语言处理任务上应用深度学习的成功激励着ai研究人员去探索新的研究机会，交叉连接这些之前互相独立的领域。场景描述模型就计算机视觉与自然语言处理技术的融合，需要我们去建立视觉图像和自然语言之间的联系。

这两个传统上无关的领域的交叉有可能在更大的范围内产生变革。而这一技术的一大应用场景就是监控视频场景描述，即为监控视频的画面场景生成相应的文字描述。在需要对视频中的某个事物或事件进行查找时，可以直接对相关的文字描述进行检索，而无需一帧帧地查看监控视频，提高了相关视频画面内容的检索效率，对于交通运输、社会治安等方面有着深远的意义。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

一）研究的基本内容具体内容

深入学习深度学习相关技术，掌握深度学习在自然语言处理和计算机视觉领域的应用，最终实现一个可以用监控视频画面生成场景文字描述的程序。

1、深度学习相关知识的探索与研究。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

1-4周：

1）学习深度学习相关知识，学习深度学习在计算视觉方面、自然语言处理方面的应用研究。学习深度学习在场景描述方面的研究。

2）训练数据的收集、整理及对训练方法的研究。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

[1] h. aradhye, g. toderici, and j. yagnik.video2text: learning to annotate video content. in icdmw, 2009. 2

[2] j. donahue, l. a. hendricks, s. guadarrama, m.rohrbach, s. venugopalan, k. saenko, and t. darrell. long-term recurrentconvolutional networks for visual recognition and description. in cvpr, 2015.1, 2, 3, 4

[3] s. guadarrama, n. krishnamoorthy, g. malkarnenkar,s. venugopalan, r. mooney, t. darrell, and k. saenko. youtube2text: recognizingand describing arbitrary activities using semantic hierarchies and zero-shootrecognition. in iccv, 2013. 1, 2

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码