自然场景图像文本定位和语种分类方法研究开题报告
2020-04-13 13:10:39
1. 研究目的与意义(文献综述)
1.1目的及意义
随着智能终端的普及,数码相机、智能手机和监控摄像机等具备拍照或摄像功能的电子设备的大规模普及和应用,使得图像的获取变得日趋方便。与文本和音频相比,图片具有直观、形式多样以及信息含量大等优势。互联网的飞速发展使得图片的传播变得十分方便和快捷,因此图片正逐渐成为互联网上的主流内容。随着现代科技和人类社会的发展,人们对图像的检测和识别技术提出了迫切的需求。
场景文本是自然场景中最普通的视觉对象之一,包含丰富的颜色、轮廓、结构等底层信息。读取场景文本有助于实现许多有用的应用程序,例如基于图像的地理定位。除此之外,自然场景还蕴含有简洁、明确的语义信息[1][2]。比如道路标志,车牌,产品包装中等,这些文本信息内涵丰富,是对自然场景表现的重要补充,同时也是描述和理解场景内容、在更高层次认知影像的关键线索。尽管与传统的ocr [3],和frcn[4]相似,但由于前景文本和背景物体的千变万化以及不可控的光照条件等,场景文本的阅读更具挑战性。
2. 研究的基本内容与方案
2.1基本内容
1)针对场景文本宽高比例的多样化,利用textbox模型,将区域文本进行检测和定位,将文本对象和背景区分开。
2)研究不同文本区域的文本语种分类问题。设计不同语种的分类器,包括汉语、日语、韩语、英语、德语、俄语、西班牙语、拉丁语八类,努力解决当前文本识别不够鲁棒的问题。
3. 研究计划与安排
(1)2018/1/14—2018/2/28:确定选题,查阅文献,外文翻译和撰写开题报告;
(2)2018/3/1—2018/4/30:系统架构、程序设计与开发、系统测试与完善;
4. 参考文献(12篇以上)
[1] liao m, shi b, bai x, et al. textboxes: a fast text detector with a single deep neural network. arxiv preprint arxiv:1611.06779, 2016.
[2] wenhao he,xu-yao zhang,fei yin,cheng-lin liu. deep direct regression for multi-oriented scene text detection. arxiv preprint arxiv:1703.08289,2017
[3] liu yuliang, jin lianwen, zhang shuaitao, zhang sheng. detecting curve text in the wild: new dataset and new solution. arxiv preprint arxiv:1712.02170