自由文识别是声纹识别的未来
36氪获悉,声纹识别技术服务商君林科技近期完成一轮千万级别天使轮融资,投资方为海泉基金。君林科技创始人王群表示,本次投资将用于研发投入、硬件生产及人才引进等。
君林科技成立于2016年,是一家专攻固定短语和自由文的声纹识别技术服务商,提供包含智能电视、智能音箱、车联网等智能家居和工业落地场景的技术服务。
不同于语音识别解决“说了什么”的问题,声纹识别回答“说话人是谁” 的问题。随着语音交互的发展,声纹识别作为一种安全验证方式,天然成为物联网身份识别的入口,也是个性化服务的前提条件。
声纹识别按照技术从易到难排序如下:固定数字、随机数字、固定短语、自由文、分割和聚类。但从使用体验来讲,却是反序排列。今天的数字识别技术已经基本成熟,得到商业化应用。其它声纹识别技术尚不成熟,少有好的应用案例。
固定短语的语音识别技术在实验室环境下准确率已经能达到99%,但在现实应用场景中准确率大幅降低,甚至低至80%。
主要有三个原因:
1、时间的鲁棒性。现实应用都是跨时间的应用,实验数据往往是集中录制。
2、环境噪声及混响。声纹相比语音识别更容易受到环境噪声和混响的影响,真实场景中不可避免的存在各种噪声和混响。
3、说话人的发音随意性。现实生活中人们发音具有一定的随意性,或大或小,或轻或重,不如实验室录制的一致性强。
真实场景准确率低造成声纹识别落地的困难。可以说,真实场景的准确率如果不能达到95%以上,则会在很大程度上影响体验感,难以落地到场景中。
君林科技专攻固定短语和自由文的声纹识别,提供从前端声学采集降噪,到后端模型算法、声纹数据库的一套完整解决方案。
经过2年多时间打磨,君林今年年初完成了新一代的声纹识别模型。据创始人介绍,君林已实现真实场景中固定短语识别准确率98%,自由文准确率97%。这一准确率已经超越了对应公司Nuance96%(内部测试数据)和百度92%的识别准确率(公开论文数据,2017)。
商业场景落地是技术类项目的核心难点。据创始人介绍,君林在智能家居和工业场景都已经有相应产品落地,进展顺利,但目前暂不方便公开披露。
团队部分,创始人王群曾任中国电声骨干企业技术负责人。核心技术团队包括师承COPSS总统奖获得者Prof. Nancy Reid的多伦多大学统计学博士Becky.Lin及计算机博士Chuan.Ma,以及研究大数据和AI深度学习超过10年的多位技术专家。
声纹识别赛道是一个正在爆发的蓝海市场,涌现出了不少的优秀玩家。百度在这一领域上持续发力,2017开始与农业银行共建AI智能银行。IDG投资的SpeakIn也在安防领域不断拓展新的落地场景。数字声纹识别方向上,清华教授郑方带领的得意音通也赢得了建设银行、国家信息中心、中国银联等大客户。智能音箱赛道中,天猫、ROKID等也开始加入声纹识别模块。2018年,声纹识别正在一步步进入大众认知视野。
关于本轮投资逻辑,海泉基金方面表示,随着物联网时代的加速来临,声纹识别已成为人工智能领域重要的入口。君林科技在技术人才、产品评测方面都具有自身的优势,看好项目的未来发展。
海泉基金是一家关注智能科技、消费升级、文创领域的早期基金,由音乐创作人胡海泉创办。自2014年成立以来,投资了包括铜师傅、悦米科技、临奇科技、新片场、风霆迅在内等诸多项目。
8月2日-4日,2019·3E北京国际消费电子展在国家会议中心盛大举行。君林科技受邀携自主研发的声学黑科技产品及相关解决方案精彩亮相。
君林科技
2019.08.05
2019年7月18日,第二届Arm人工智能开发者全球峰会在上海召开。本次大会邀请了来自Arm和Arm AI生态......
君林科技
2019.07.18