详细介绍
实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,将音频流数据实时转换成文字流数据结果;
实时语音转写
上下文纠错
针对上下文进行语义理解,将中间结果进行智能纠错,确保准确性。
文字流时间戳
对于音频流实现毫秒级识别,并返回带有时间戳的文字流,便于二次开发。
文字格式智能转换
对结果中出现数字、日期、时间等内容格式化成规整的文本。
标点智能预测
运用超大规模的语言模型,智能预测语境,提供智能断句和标点符号的预测。
应用场景
直播字幕
在电视直播或现场直播过程中提供实时字幕,提升直播效果
视频会议&会议
将视频以及会议中的发言内容实时识别为文字,防止错过重要会议内容,提高会议效率
客服中心
将客户的语音内容实时识别为文字,作为客服答疑的参考记录