中文简谱图像的歌词提取算法研究毕业论文
2021-05-06 12:16:31
摘 要
在数字化信息时代,大量保存在纸质档中的信息需要通过图像处理的方式转化为数字化进行保存。简谱作为中国近代音乐歌曲的主流记载方式,具有非常广泛的流传度和使用率,保存了许多近代中国流行音乐信息。因此,研究如何将中文简谱中的歌词进行识别并保存具有较强的实用性和意义。
本文设计了一种基于投影法和乐谱高层知识的中文简谱歌词识别系统,可以完成将中文简谱图像的图像分割、歌词提取和歌词识别三个过程并最终将图像中的歌词进行识别。具体的设计内容如下:
在图像分割阶段,首先通过阈值分割技术和Hough变换对图像进行预处理,得到二值化的垂直简谱图像。其次,通过投影法算出简谱图像每一行的像素点之和,通过像素点个数的变化对图像进行分割并最终将乐谱和歌词部分分割出来。
在歌词提取阶段,首先根据歌词行和乐谱行宽度的差别通过阈值分割的思想将歌词部分进行保留。其次,通过投影法将每个歌词字条每一列的像素点求和,根据像素点变化对歌词进行分割。最后,找到合适的分割标准避免一个字的偏旁和部首被分为多个字,将分割出来的歌词进行标号后保存。
在歌词识别阶段,首先载入歌词常用字字库,将字库模板尺寸和歌词图像进行匹配调整。其次,将歌词提取阶段的歌词图像进行多次平移并依次和字库中的模板进行相关性分析。最后,找出相关性最大的模板作为歌词识别的结果,将整篇简谱的歌词输出。
通过对大量简谱样本进行试验,系统的识别正确率超过了85%,最高可以达到95%以上的水平,这说明本文所设计的中文简谱歌词识别系统具有较强的实用性和稳定性。
关键词:投影法;图像分割;汉字识别
Abstract
In the digital information age, lots of information wihch stored in a paper file need to be transformed to digital by the way of image processing to save. Notation as a mainstream way of Chinese Music songs has a wide spread and usage as well as a lot of information of modern Chinese popular music. Therefore, the study of Chinese notation lyrics identification and preservation is of a strong practical significance.
This article design a Chinese notation lyrics identification system based on projection and high-level knowledge of music. It can finish image segmentation, lyrics extraction and lyrics identify three process for a Chinese notation and finally to identify the image of the lyrics. The detailed designs are as follows:
In the image segmentation stage, first use thresholding technology and Hough transform to obtain binary notation vertical image. Secondly, use the projection technology get pixel for each row in notation image. According to the varying of pixel number to do image segmentation and eventually segment music and lyrics partially.
In the lyrics extraction stage, first reserves the lyrics part according to the difference between music and lyrics line by line width. Secondly, sum pixels in each column by projection, segment lyrics based on pixel change. Finally, find a suitable standard to avoid a split of radical and radical of one word is divided into a plurality of words, split out the lyrics after the numeral save.
In the recognition stage, first loaded font of lyrics word commonly used, adjust the font size and lyrics template image to match. Next, the do multiple pan to the lyrics image and turn to do correlation analysis with template. Finally, find out the most relevant template as a result of the identification of the lyrics, output the lyrics of the entire notation.
Through a large number of test samples of musical notation, the correct rate of the system exceeds 85%, the maximum can reach more than 95%, which indicat that the Chinese notation lyrics identification system has strong practicability and stability.
Keywords: projection;image segmentation;Character Recognition
目 录
第1章 绪论 1
1.1研究背景及意义 1
1.2国内外研究现状 2
1.3技术路线 3
1.4 研究内容与章节安排 4
第2章 中文简谱图像预处理 5
2.1简谱图像二值化 5
2.1.1阈值分割法 5
2.1.2直方图法 5
2.2基于 Hough变换的简谱图像倾斜矫正 6
2.3简谱图像预处理实验分析 7
2.4 本章小结 7
第3章 中文简谱图像简谱分割 8
3.1中文简谱特征分析 8
3.2基于投影法和简谱特征的简谱分割 9
3.2.1简谱分割方法概述 9
3.2.2简谱分割算法实现 9
3.3简谱分割实验分析 11
3.4 本章小结 12
第4章 中文简谱图像歌词提取 13
4.1简谱歌词行特征分析 13
4.2歌词提取方法概述 14
4.2.1歌词行提取 14
4.2.2歌词提取 14
4.2.3简谱歌词提取算法实现 15
4.3简谱歌词提取实验分析 17
4.4本章小结 17
第5章 中文简谱歌词识别 18
5.1汉字识别方法概述 18
5.1.1模板匹配法 18
5.1.2字符结构法 18
5.1.3神经网络法 19
5.2基于模板匹配法的简谱歌词识别 20
5.2.1模板归一化 20
5.2.2简谱模板相关性分析 20
5.2.3中文简谱歌词识别算法实现 21
5.3中文简谱歌词识别实验分析 22
5.4 本章小结 23
第6章 中文简谱歌词识别系统调试 24
6.1系统存在的问题 24
6.2解决方法与调试 26
6.3结果分析 30
6.4本章小结 30
第7章 总结与展望 31
7.1总结 31
7.2展望 32
文献参考 33
第1章 绪论
1.1研究背景及意义
现代化社会不断向信息化和数字化迈进,大量的信息不再单独保存在纸质档而是通过数字化的方法转存在计算机之中。因此,如何将大量纸质档文件通过计算机识别的方式快速数字化储存成为了近代图像识别的热点之一。目前常用的纸质文档数字化的方式有两种:一种为光学字符识别(Optical Character Recognition),文档中只含有文字字符,由于需求量大且识别难度较低,此项技术已经发展得相对成熟;另一种是光学乐谱识别(Optical Music Recognition),文档中含有除文字以外的乐谱符号,由于需求量低和识别难度较高,此项技术发展起步较晚,但由于近年来数字化音乐的发展,乐谱识别逐渐成为了热门的研究课题。
OMR相较于OCR有以下几个难点。首先,乐谱的符号并不是单独排列,很多时候音符会互相重叠,简谱中所有的符号都分散在七个数字符号的上下左右不同空间中,符号上面有连音线等音乐符号,这使识别过程增加了许多难度。其次,乐谱中的符号以不同的形式出现,不同位置的相同符号所代表的意义也不尽相同,这使得识别过程中要多考虑一个位置的因素。在OCR快速发展的同时,由于硬件设备的限制,关于OMR的研究一直相当有限。进入上世纪80年代,伴随着计算机图形处理的成熟,OMR的研究才有了一些实质性的突破。近三十年来,一些经典的OMR识别技术被广泛应用,诸如模板匹配、投影法、Hough转换等方法成为OMR识别中的基本方法,一直沿用至今。
但是目前的OMR识别研究主要是集中在对五线谱乐谱的识别上,对简谱的研究则是少之又少。简谱相较于五线谱,缺少了五条基准线,且无任何固定特征来标记音高和音长,只是单独在七个数字音符周围添加,随意性较大,这使得简谱的识别难度大大增加。在我国,虽然简谱相较于五线谱有着较多的缺陷,但是依然是主流的乐谱流传方式,近代中国的大量乐谱也都是以简谱的形式进行保存,并且在相当长的一段时间内仍会继续保持。
通过建立一个能够使计算机自动识别的中文简谱歌词识别系统,可以大大减少通过人工手动录入的工作量。歌词素材库的建立也有利于完善我国数字音乐市场的歌词库,有利于我国流行音乐市场的发展和各类音乐软件的开发,诸如数字音乐档案馆,网络音乐课堂等线上音乐软件都可以通过该系统的核心算法进行开发。在数字娱乐方面,简谱作为我国主流的歌曲载体,随着社会信息化程度的提高,将简谱中的歌词自动数字化具有较大的商业价值,有利于推动音乐市场的推广与传播。因此,建立一个对中文简谱进行自动识别的系统是具有相当的意义的,可以在音乐软件开发、数字流行音乐普及、歌词素材库扩充等多个方面带来帮助。
1.2国内外研究现状
乐谱识别技术的研究最早出现在20世纪60年代,但受限于当时计算机硬件条件的限制,一直没有好的效果和突破。直到70年代,随着计算机识别技术的发展,美国MIT的Dennis Howard率先采用轮廓跟踪的方法对乐谱进行分割研究,取得了突破。到了80年代后,随着计算机图像处理技术的相对成熟,OMR技术也开始得到了更广泛的应用,对于OMR技术的研究也越来越多。
国外对于简谱识别的研究起步较早且发展得较为成熟,主要是针对五线谱乐谱的识别和分析,并在实际的应用和推广中取到了很好的效果。Prerau使用装配和分割的方法将五线谱的符号相分离,再重新装配成有意义的乐谱[1]。Fujing将投影法首先应用于乐谱识别,第一次实现了不需要去除乐谱线便可区分符号和字符区域[2]。Carter将线性邻接的方法应用到试验中并取得了成效[3]。Bharath第一次采用了数学形态学的方法对乐谱进行处理,为后人使用数学形态学进行模式识别乐谱建立了基础[4]。Roth首次提出将乐谱中的水平和竖直线条去除,通过识别残缺的符号来进一步识别乐谱[5]。Luth采用边缘检测的方法将乐谱分割成水平和垂直结构、曲线和文本结构,分别对不同结构内容进行识别,取到了很好的实验效果[6]。
相较于国外研究的成熟,国内对乐谱识别的研究起步较晚且研究者较少。苏木春首先将BP神经网络的技术运用到了简谱识别的研究当中并取到了不错的效果[7]。陈根方将形态学应用于乐谱粗分割的研究[8][9]、刘晓翔使用拓扑法将每一个乐谱符号设定为一个基本的元素并对谱线进行删除,从而得出乐谱的基本信息[10]。张登胜使用乐谱的高层知识和特征对乐谱进行分割和识别[11]。姜一女对简谱识别进行了系统性的研究,使用投影法和模板匹配法对简谱的音符和歌词进行了提取和识别[12]。