智能焊接语音控制系统的设计与实现文献综述
2020-04-14 17:14:26
1 研究目的及意义
随着科技的进步以及工业化机械化的发展,机器代替人工进行工作生产已经非常普遍,现在很多的焊接工作已经由之前的人工焊接升级为机器焊接。但是焊接设备现有的人机交互依赖于手持操作终端,交互显得较为繁琐,影响用户的便捷使用,如何简化人机交互成了人们愈发关注的问题。而语言作为人类沟通的桥梁,可以很轻松地达到信息的交互。进入21世纪,随着语音识别技术的不断发展,该技术在手机、家电、游戏机等嵌入式设备中得到了大量的应用,并主要应用于语音的控制以及文本内容的输入中,因此,逐渐走入人们的日常生活。随着语音识别技术的快速发展,通过语音进行机器控制成为简化机器操作的一个有效办法,语音识别技术最重要的现实意义就在于提供了一种脱离按键、键盘、鼠标的基于语音的用户界面VUI:Voice#8194;User#8194;Interface。通过这项技术可以让语言变为人机之间沟通交互的桥梁。
因此本课题考虑将语音交互技术应用于焊接平台,力争在较大程度上降低人机交互的复杂度,使操作人员可以仅仅通过语音来进行设备操控,这样可以进一步解放人力,减轻操作人员的负担。并且语音识别与自动化控制的结合将是未来发展的一种必然趋势,语音交互方式也可以减小培训时的人力消耗,具有很大应用价值和很广阔的应用前景。
2国内外研究现状
20世纪50年代,科学家们开始对语音识别展开研究。1952年,戴维斯等人在贝尔实验室成功开发出一个名为Audry的语音识别系统,它能准确地对10个英文数字进行识别。50年代末期,美国的林肯实验室首次利用数字计算机对英文孤立字和元音成功识别,这标志着计算机语音识别新纪元的开启。20世纪60年代,计算机技术的飞速发展弥补了语音识别在硬件和软件方面的不足。其中动态规划和线性预测分析技术就是在送个时期提出的,而线性预测分析成功地克服了语音信号模型在建立过程中的一系列问题,这对此后语音识别的发展来说意义非凡。20世纪70年代初,线性预测编码进一步得到发展,动态时间规整也基本成熟,它们对于解决语音信号的两个问题非常有效:分别是特征参数提取及参数的不等长匹配。这段时间,研究学者们主要针对少量词汇的特定人孤立词识别进行研究。20世纪80年代,这是一段具有划时代意义的时期,首先语音识别在实验室中的研究取得了关键性进展。从基于模板匹配到基于统计模型的转变更侧重于从整体性、及平均角度上来搭建语音识别系统。另外,连续语音识别算法、人工神经网络等新技术的运用最终让人们在实验室环境下克服了三大障碍:连续语音、非特定人、大词汇量。这也是第一次在一个识别系统中同时体现三大特性,最具代表的是SphinxSystem,它由卡耐基梅隆大学开发,是第一个性能出色的大词汇量、非特定人连续语音识别系统。20世纪90年代,人工神经网络也被应用到语音识别的研究中,ANN在算法和结构上具有明显优势,更在语言模型的细化设计、提取和优化语音特征参数等多方面获得关键性突破。
国外在语音识别方面的研究和应用一直处于世界领先地位。进入21世纪,随着语音识别技术的不断发展,该技术在手机、家电、游戏机等嵌入式设备中得到了大量的应用,并主要应用于语音的控制以及文本内容的输入中,因此,逐渐走入人们的日常生活。2001—2007年,该阶段语音识别技术已经发展成熟,专利申 请量较为稳定。2007—2016年,随着语音识别技术的 发展成熟,该技术创新空间不大,从 2007年开始,专利申请量有所下降。
Nuance是世界上最大的语音技术公司,拥有大量发明专利和巨大的市场份额。声名大噪的Siri以及苹果的直接竞争对手三星的S-Voice语音助手都是用了Nuance技术。全球各行各业只要涉及语音相关产品,都直接或者间接与Nuance有关。谷歌公司于2012年推出Google Now,近几年又推出了语音助手Google Assistant,微软也在Windows中推出了语音助手Cortana,苹果、谷歌、微软这三家世界顶级的互联网公司所使用的语音识别技术基本代表了目前国外最先进水平。
相对于国外对语音技术的研究,由于汉语与英语的发音存在较大差异,在语音识别的研究中,汉语相对于英语而言难度更大,并且我国在此技术方面的研究起步相对较晚。但是90年代后期尤其进入21世纪后,我国语音识别研究接连突破,发展迅速,研究也不再局限于实验室环境,推出了不少实际产品。1997—2004 年进入快速发展阶段,该阶段出现了科大讯飞、捷通华声等专注于语音识别的企业,2004—2014 年发展较为稳定,该阶段出现了思必驰、云知声、出门问问等人工智能公司,随着语音识别技术的发展不断趋于成熟,2014 年后申请量开始下降。目前我们基本与国外接轨,在汉语语音识别方面已达到国际先进水平。
安徽科大讯飞是一家专门从事智能语音及语言技术研究、语音信息服务的公司。作为中国最大的智能语音技术解决方案供应商,讯飞在语音研究领域有着深厚的积累,并在中文语音识别、语音合成等技术上处于国际领先地位。
麻省理工科技评论公布了2016年全球十大突破技术,百度语音识别入选。2014年年底,百度的首席科学家吴恩达及其团队发布了第一代深度语音识别系统Deep Speech。2015年年底,百度又推出了新一代深度语音识别系统,该系统可以准确地识别英语和汉语,经过简单学习后,还可以处理各种方言和口音。为了帮助开发者更好地开发应用,百度上线了APIStore网站,里面有着丰富的语音识别SDK,通过下载这些SDK,开发者只需要简单的配置其应用,即可添加语音识别、合成功能,这大大的加速了语音产品的普及。
2. 研究的基本内容与方案
{title}本课题采用基于语音识别的嵌入式控制系统实现对智能焊接系统的语音控制。控制系统主控选取STC89C52单片机进行数据处理和控制。语音识别采用LD3320语音识别芯片。
语音识别芯片LD3320是ICRoute公司的产品,它采用ASR技术,提供了一种脱离按键、键盘、鼠标、触摸屏等GUI操作方式且基于语音的用户界面VUI,使得用户对该系统的操作更简单、快速和自然。用户只需要把识别的关键词语以字符串的形式传送进芯片,即可以在下次识别中立即生效。比如,用户在51等主控MCU的编程中,简单地通过设置芯片的寄存器,把诸如“你好”这样的识别关键词语的内容动态地传入芯片中,芯片就可以识别所设定的关键词语了。每个关键词语可以是单字、词组、短句或者任何的中文发音的组合。基于LD3320的语音识别系统可以随着使用流程,在运行时动态地更改关键词语列表的内容,这样可以用一个系统支持多种不同的场景,同时也不需要用户作任何的录音训练。
在本次设计方案中,预先在芯片中设定语音控制命令的关键词语列表,例如“qian jin”(前进),然后把通过 MIC 输入的声音进行频谱分析,提取语音特征,通过以上两步后将得到语音(即关键词)的特征信息,之后再将关键词语列表(即训练模板)中的数据与特征信息进行对比匹配;最后找出得分最高的关键词语作为识别结果输出。反馈到单片机进行相应的操作,单片机根据收到的指令控制驱动系统,由驱动系统控制焊接设备进行操作。系统控制过程如图一。本课题预期实现非特定人语音识别的静态测试对于语音命令的平均识别率达到90%,焊接设备可以通过语音输入指令较好的完成相应的操作。
图一 系统控制流程