WAV音频切分及原文匹配技术在数字出版中的研究与应用毕业论文
2020-02-23 18:24:53
摘 要
二十一世纪,随着互联网信息技术的快速发展,人们逐步进入大数据时代,传统纸书作为内容的一种载体,已经远远不能满足人们对信息内容获取的需求。数字出版是指将计算机等高新技术与传统出版相结合的战略性新兴产业和出版业发展的主要方向。解决音频与内容的高匹配性是数字出版中的一个关键技术。
本文对WAV格式的音频切分与原文匹配技术进行了研究。首先对音频切分的原理及技术实现做了深入分析,阐述了音频切分、内容识别与原文进行匹配的基础理论知识,其次对音轨分析技术做出了结构化剖析,探讨了WAV音频切分开发方法和实现技术,最后对技术研究的应用进行了说明,如何在数字出版中应用此项技术。
论文给出了音频切分及原文匹配在数字出版应用中的实例。该实例实现了音频资源和文字内容资源的相结合,主要包括完整的音频上下句切换,精准的和文字内容相匹配。不仅能充分利用现有资源产出新的资源,而且还行业内的编辑工作者们减轻了内容处理的繁琐的工作。
关键词:音频切分,数字出版技术
Abstract
In the 21st century, with the rapid development of the Internet and information, and man have gradually entered the era of big data. Traditional paper books, as a carrier of content, are far from meeting people's demand for information content. Digital publishing refers to the main direction for the development of strategic emerging industries and publishing industries that combine high technology such as computers and traditional publishing. Solving the high matching of audio and content is a key technology in digital publishing.
This paper studies the audio segmentation and text matching technology of WAV format. First of all, it makes an in-depth analysis of the principle and technology of audio segmentation. It elaborates the basic theoretical knowledge of audio segmentation, content recognition and text matching. Secondly, it makes a structural analysis of audio track analysis technology. Finally, it studies the technology. The application explains how to apply this technology in digital publishing and discusses the WAV audio segmentation development method and implementation technology.
The paper gives examples of audio segmentation and text matching in digital publishing applications. The example realizes the combination of audio resources and text content resources, including complete audio up and down sentence switching, and accurate match with text content. Not only can we make full use of existing resources to produce new resources, but also editorial workers in the industry have reduced the tedious work of content processing.
Key Words: Audio segmentation, Digital Publishing Technology
目录
1绪论 1
1.1 本课题研究的背景 1
1.2 本课题研究的意义 1
1.3 本论文研究思路及技术方案 2
1.4论文组织结构 3
2技术实现的分析与设计 4
2.1开发环境的介绍 4
2.1.1.net技术的应用 4
2.1.2 NET Framework 3.0介绍 5
2.2 音频切分技术实现分析 6
2.2.1 先前的研究 6
2.2.2 音频的分析和检索引擎 6
2.2.3 培训系统 8
2.2.4 声音检索 9
2.2.5 质量度量 10
2.3 音频切分技术实现的方法 10
2.3.1绘制声音波形图 10
2.3.2选取样本 11
2.3.3切分并输出 11
2.4 原文匹配技术的实现 11
2.4.1 将语音转文字 11
2.4.2 译文和原文相匹配 11
3 技术应用之听力训练小程序的实现 13
3.1 听力小程序模块功能介绍 13
3.1.1选择身份 13
3.1.2选择该水平对应的套卷 13
3.1.3选择试卷 13
3.1.4做题 13
3.2 功能实现及相应的图形界面 14
3.2.1应用主页 15
3.2.2练习界面 15
3.2.3查看解析、查看原文 16
3.2.4个人中心 17
3.3 小程序的开发工具和运行环境 17
3.3.1小程序的开发工具 17
3.3.2小程序的运行环境 17
4 技术应用之听力训练小程序测试 19
4.1系统测试的目标 19
4.2 测试的实现 19
4.2.1 模块测试 19
4.2.2 系统及子系统测试 19
5 总结与展望 21
5.1总结 21
5.2展望 21
参考文献 22
致谢 24
1绪论
1.1 本课题研究的背景
如今,随着互联网信息技术的快速发展,人们逐步进入大数据时代,传统纸书作为一种内容的载体,已经远远不能满足人们对信息内容获取的需求[1],而音频作为一个很重要的内容资源,用听的形式给人们传递信息,这在21世纪就已经比较成熟。但是社会的高速发展,人们的生活节奏飞速加快,时间被碎片化,“碎片化学习”观念已经深深的得到了人们的认可。所以将长篇的内容分割成若干的小部分再展现给读者是至关重要的。数字出版行业是当前出版业发展最迅速的模块之一。从世界范围来看,一场技术创新变革正在现代出版业正经历着,主要以信息化、网络化为核心,形成了以数字化出版为创新引导的新兴业态。通过加强技术创新、培育新业态,推进标准制定,牢牢抓住发展的时机,成为传统出版行业新的发展模式。本课题将采用智能化的音频处理技术,与图书内容相匹配,并将该技术运用于数字出版行业,为融合出版做出一点贡献。
1.2 本课题研究的意义
WAV音频格式的音频文件是常用的二进制格式,被广泛运用于语音信号处理、语音识别技术、语音音频合成技术等领域,各大平台及应用程序都能支持这种音频格式,这种格式是目前最接近的无损坏音频格式。在实际使用过程中往往需要把一整段音频文件切分或者按照相应的时间戳播放,在有声读物播放过程中,需要将音频和文字匹配起来,达到“视”,“听”双向结合,提高知识获取效率。虽然对于音频的处理技术已被广泛应用,但是在传统出版行业数字化转型中尚未合理的运用起来,纸质书电子配音资源依旧在光盘中,可光盘介质在如今使用率下降,几乎淘汰。如果将音频按照语义或者停顿时间切分出来,识别成文字与原文对照,匹配成字幕形式,用户在听书时,可以在屏幕上即时看到字幕,此技术在现代数字出版行业中的研究与应用有着重要意义。
目前,国内很多出版社、期刊社、报社都建立了自己的数字资源中心,针对音频、视频、PDF、图片文件管理进行管理,这些资源都是属于原始资源,未经任何加工处理。这些数字资源的载体主要以光盘为主,虽然现在光盘的实用性不高了,但是在当时这些数字资源的制作成本付出了相当大的代价,还有相关的硬件做支撑。这些都是基于当时技术的局限性和业务需求的急切性来实现的,在数字出版的浪潮中,很多出版工作者盲目跟风,认为将文字转化成音频、视频、图片,将纸质书转变成电子书就实现了数字化,付出了巨大投资,从普通的利用和保存角度来讲,这个投资不仅过于昂贵,而且需要耗费相当大一部分人力资源来做这一件事,而且当前在光盘的使用上遇到了瓶颈,这样无法进行更精细化的利用。相对于国内,美国由于信息发展比较迅速,在其出版行业中有些部门已经尝试将音视频资源借助工具将其分割和重组,大部分都是借助成熟电脑软件的会声会影或者音频剪辑工具作为集成,取得了一些成果,但比较好的解决音频分割、合并以及声音与视频的同步系统目前还未有,特别是借助系统本身的方式进行管理切割的并且能结合到数字出版行业的,更是尚未发现。本课题采用基于音轨波形分割法与文本匹配技术相结合,将音频线智能化切割,以音频加字幕的形式应用到数字出版行业中。
1.3 本论文研究思路及技术方案
随着移动互联网的高速发展,出版融合发展在传统出版行业越来越受到编辑工作者们的重视,就是数字化出版。同时随着新的计算机技术例如AI等技术的飞速发展,出版物数字化也呈现出一些新的发展趋势。本文针对目前国内外数字化出版技术的研究现状,运用ASP.NET等技术,以英语听力训练为实例,研究基于音频切分与原文匹配技术的数字出版应用实现。主要完成以下几方面的任务:
(1) 如何将音频信号处理成数字信号并显示出音频音轨。
(2) 判断音频的正确停顿间隔,按照停顿间隔将音频切分成小段,并记录时间轴。
(3) 对每一小段进行翻译,并且将翻译出来的文字与原文内容计算相似度和然后进行匹配,提高精确度,并在每一小段文字前加上时间戳。
(4) 将带有时间戳的原文文件转换成lrc格式;尝试做出商业化应用,运用到实际应用中。
本课题研究拟采用的技术方案及措施
1、区分内容部分和杂音:使用二叉树将音频分类,分为音乐、纯语音、环境音、非纯语音和静音五种类型。再将有声音频分为三种:(1)speech song: 前景为人说话,背景为singing song;(2)song:只有背景音乐;(3)speech:只有前景人说话。
2、取时间戳及切分音频:做降噪处理,过滤掉背景音乐,提取出speech部分,即有效信息部分。绘制出音轨,把音频分成n分,作为n个样本,把每个样本的最大幅值提取出来,进行到此,就可以将音频每一段的起止时间戳找到,并可以按照此时间戳将音频切断单独保存在数据库中,然后将每一段翻译成文字。
3、翻译及原文匹配:翻译出来的文字精准度是不高的,大致只有70%,此时就需把翻译出来的文字与原文做匹配,找到对应的原文,原文即为准确率100%的文本。将每一小段原文前加上时间戳,即可作为字幕展示。
1.4论文组织结构
本文主要对WAV音频切分与原文匹配技术的研究,对技术实现的分析与设计进行了深入的分析,并对实现方案进行了简要的阐述。在技术实现之后,应用此项技术对传统的英语听力练习做出了改善,使用微信小程序实现其功能。全文分为五章,分别是:
第1章绪论,主要介绍了本课题的研究背景、意义和研究思路及技术方案。
第2章对开发环境进行了介绍,分析了音频切分技术的实现方法,原文匹配技术的实现方案,并讲解了开发步骤。
第3章讲述了小程序的功能模块、界面设计和运行环境。
第4章对小程序应用的测试做出了讲解,包括测试的目标,测试的实现等。
第5章是总结与展望,总结全文并提出了此项技术在数字出版中的实际运用的展望。
2技术实现的分析与设计
计算机和网络的速度和容量的迅速增加使得音频在许多现代计算机应用中成为一种数据类型。但是,音频通常被视为不透明的字节集合,只附加最原始的字段:名称,文件格式,采样率等等。习惯于搜索,扫描和检索文本数据的用户可能会因无法看到音频对象而感到沮丧。
例如,多媒体数据库或文件系统可以轻松实现数千个音频记录。这些可以是从音效库到新闻镜头档案的配乐部分的任何内容。这样的库往往很难被索引,或者被命名为开头。 即使以前的用户已经为数据指定了关键字或索引,但他们往往是非常主观的,可能对其他人无用。搜索特定的声音或不同种类的声音(例如掌声,音乐或特定演讲者的演讲)可能是一项艰巨的任务。
人们想要如何访问声音?我们相信有几种有用的方法,我们试图将这些方法纳入我们的系统。
相似特征:根据某些特性,我们说一个声音像另一个声音或像另一个群体的声音。例如,这个声音像一群大象的声音。举一个更为简单的例子,说它属于一类讲话的声音或掌声的种类,系统之前已经在这个类别的其他声音中进行过训练。
声学/感知特征:根据通常理解的物理特征(如亮度,音调和响度)描述声音。
主观特征:用个人描述语言描述声音。这需要对系统进行培训(在我们的例子中)以了解这些描述性术语的含义。例如,用户可能正在寻找“闪烁”的声音。
象声词:使声音与你正在寻找的声音具有相似的质量。例如,用户可以发出嗡嗡声来寻找蜜蜂或电子嗡嗡声。
在检索应用程序中,以上所有内容都可以与传统的关键字和文本查询结合使用。
为了完成上述任何一种方法,我们首先使用各种分析技术将声音减小为一小组参数。其次,我们在参数空间上使用统计技术来完成分类和检索。
2.1开发环境的介绍
2.1.1.net技术的应用
ASP.NET应用程序:很多人都把ASP.NET理解成了一种编程语言,其实并非如此,ASP.NET是创建Web页时的一种服务器端技术。它是在Microsoft .NET Framework中,一套用于生成Web服务和Web应用程序的技术。ASP.NET页使用一种已编译的、由事件驱动的编程模型,这种模型能提高性能,支持将用户界面层同逻辑层相隔离。ASP.NET页在服务器上执行,并生成发送到浏览器的标记。.NET可以兼容任何语言,比如C#,可以编写Web服务文件中的服务器端逻辑,而不是客户端。
XML Web service、和ASP:Web service的特点是其能够跨平台并且属于开放性的,开放性正是Web services的基础。
这些年来,因特网的飞速发展使得它成为全球交互的一个重要的数据库。越来越多的Web应用在不同的网络环境下建立起来,利用Web技术可以轻松地在因特网上实现政务,商务,交流通信等需求。然而这些应用使用不同的数据交互方式,也使用不同的操作系统平台,使得怎么样将这些分布在不同位置的数据集中起来并得以充分利用,这个成为了目前急需解决的问题。
随着工程师的技术、互联网理念的发展,开始提出:利用Web Service进行应用集成。Web Service是一种新的Web应用程序分支,其可以处理从非常简单的功能到极其复杂的应用系统。这种服务一旦部署起来,其他Web Service应用程序即可发现并调用它的服务。
XML Web services能提供特定功能的元素,可供使用通用 Internet 标准的任意系统访问。广泛接受 XML 及其他 Internet 标准,XML Web services创建了支持应用程序互操作性的通用型基础结构,其支持级别解决了以前妨碍这类尝试的很多问题。[14]
Web应用程序、创建动态交互式网页。当ASP文件的请求服务器时,处理包含用于构建发送给浏览器的HTML网页文件中的服务器端的脚本代码。
2.1.2 NET Framework 3.0介绍
NET Framework 3.0是微软为新一代操作系统Windows Vista而特别设计的一种集成环境。.NET Framework是对32位Windows位操作系统的一种扩展。
在Windows XP和Windows Server 2003的计算机上.NET Framework 3.0同样能运行,这样导致了运行.NET Framework 3.0普遍性增强。由于向后兼容,能够更加容易将这些技术介绍给开发人员和最终用户。2006年9月1日,微软发布了.NET Framework 3.0的RC版本,开发人员能够无需安装Vista就可以体验这些新的技术。
2.2 音频切分技术实现分析
2.2.1 先前的研究
声音传统上由其音高,响度,持续时间和音色来描述。前三种心理知觉是很好理解的,并且可以通过可测量的声学特征进行准确建模。另一方面,音色是一个不明确的属性,它包含除音高,响度和持续时间以外的声音的所有独特特性。为了揭示音色的组成部分而进行的努力是先前与基于内容的音频检索相关的心理声学研究的基础。
音色的突出部分包括振幅包络,谐度和频谱包络。音调的攻击部分对于识别音色通常是必不可少的。具有相似光谱能量分布(通过光谱的质心测量)的音色往往被判断为在感知上相似。 然而,研究表明,单一乐器音调的时变频谱通常不能被视为识别乐器的“指纹”,因为整个乐器的音高范围和整个动态音级范围内变化太大。
各种研究人员已经讨论过或能够从声音中提取音频结构的算法原型。目标是允许诸如 “找到升 G 音符的首次出现”之类的查询。这些算法被调谐到特定的音乐结构,并且不适合所有声音。
其他研究人员已将注意力集中在使用神经网络对音频数据库进行索引。尽管他们已经在他们的方法方面取得了一些成功,但从我们的角度来看,存在一些问题。例如,尽管神经网络报告声音之间的相似性,但是在训练后或者在操作时确定训练如何良好或者声音的哪些方面类似于彼此。这使得用户难以指定声音的哪些特征是重要的以及哪些是可以忽略的。
2.2.2 音频的分析和检索引擎
我们介绍一种通用范例和特定技术来分析音频信号,以便于基于内容的检索。
基于内容的音频检索可能意味着各种各样的内容。在最低级别,用户可以通过指定声音采样数据摘录中的确切数字来检索声音。这类似于精确的文本搜索,并且在音频域中实现也很简单。