在很多行业,对电话、无线电中的双方通话以及密闭空间里的会议、竞标、宣判等场景的说话,都会录音,存档做记录或证据。
在需要获取并了解录音的内容时,就需要人工去回放查听,但对于较多或时长较长的录音文件势必会占用大量时间,如果能利用计算机借助先进的技术(ASR)代替人工自动处理,将会大大提高工作效率。
目前业内可提供独立部署的识别引擎,但价格昂贵且安装繁琐(需要厂家到现场去安装,成本高昂)。另有公网上的云平台识别引擎开发的系统,但需要将私密数据提供给公共平台,不适用有保密要求的用户。
雨燕电子推出的内网里部署的录音文件自动语音识别(ASR,文字转语音)解决方案解决了上述难题。
本系统不仅无缝衔接本司录音系统生成的录音文件,同样适用于第三方录音系统生成的录音文件,提供一个安全、便捷、可靠、低成本的自动语音识别(语音转文字)解决方案。
这有助于最终用户能够快速地掌握海量录音文件的内容,或者从中定位一些关键字词,做后续处理。
实现方法和网络结构图
在内网部署一至多台雨燕电子语音识别服务器;找一台运行windows系统的电脑,运行雨燕电子或第三方生成的录音文件提交识别软件。
录音文件提交识别软件对接录音系统的数据库,从中获取到录音文件,自动提交给内网的雨燕电子语音识别服务器,在得到识别结果的文字内容后,写回到数据库对应的记录中。
图 1.1 雨燕电子录音文件自动语音识别(ASR,文字转语音)网络结构图
优势
◇ 保密性高。和其他使用云服务器上的识别引擎方案相比,本系统在内网里运行,录音文件的数据是提交到内网里所部署的 ASR 服务器进行识别。无需连接外网,不用担心数据安全风险。
◇ 录音识别准确率高。采用优秀的开源识别引擎,在录音没有太大噪音的情况下,普通话常用语的识别准确率能在 90%以上。
◇ 安装简单。将雨燕电子ASR 服务器发到现场后,只需配置其 IP 地址就能使用。雨燕电子录音文件提交识别软件是绿色免安装版,只需拷贝到 windows 电脑上,配置几个参数,对接录音系统数据库后就能正常运行。
◇ 成本可控。和外网云平台识别方案一般按次数或者每年按套餐收费不同,本系统一次性采购后,后续没有额外费用(设备损坏需要维修或者更换除外),不会因录音文件的数量增多或者年限而增加费用。
◇ 支持算力扩展。系统支持多台ASR服务器并发运行。后期如果增加了更多的录音通道,有更多的录音文件需要识别,到时可以根据需要,再增加ASR服务器的数量。
◇ 可对接大部分录音系统。采用数据库对接方式,可配置对接的数据库字段,除了支持本公司的录音系统之外,还支持其它采用数据库方式的第三方录音系统。
关键参数
● 支持对普通话和英文的录音文件进行识别。
● 支持常见的录音文件格式,包括 wav 和 mp3 等。
● 单个录音文件最大可支持 80M 字节。
● 识别得到的文字结果支持多语言,可以保存成简体中文、繁体中文和英文。
● 识别得到的文字结果支持采用 UTF-8 和GBK 这两种字符集。