手机贤集

贤集网技术服务平台欢迎您

登录 注册

阿里达摩院展示KAN-TTS语音合成技术,5大场景34种不同声音

文章来源: 智东西       发布时间:2019-07-11

7月9日消息,阿里达摩院的三位技术大咖——达摩院机器智能技术事业部首席架构师王骏、达摩院语音实验室负责人鄢志杰、 达摩院资深算法专家雷鸣——对达摩院最新的AI技术进展进行了分享,包括基于机器视觉的人类行为识别跟踪技术、AI卫星遥感影像分析技术等等。与此同时,阿里今天还宣布,其基于KAN-TTS的语音合成技术现在已经向B端客户开放商用,它能基于5大场景、提供34种不同声音,而且能够让企业与个人定制其专属“AI声音”,该技术目前已经用在了高德地图、天猫精灵、夸克浏览器等应用中。


阿里达摩院展示KAN-TTS语音合成技术,5大场景34种不同声音


达摩院机器智能技术事业部首席架构师王骏


在被问到达摩院机器智能技术事业部今年是否有营收预期时,王骏告诉记者,当前机器智能技术事业部的价值在于“被集成”,更多的是将新技术放在阿里云上,让用户通过阿里云使用。他认为,当前AI技术作为单品产品形成销售价值还很早。


阿里达摩院展示KAN-TTS语音合成技术,5大场景34种不同声音


一、5大场景,34种不同声音


阿里达摩院展示KAN-TTS语音合成技术,5大场景34种不同声音


达摩院语音实验室负责人鄢志杰


根据达摩院语音实验室负责人鄢志杰介绍,KAN-TTS(全称Knowledge-Aware Neural TTS)是阿里早在2017年就撰写过相关论文的语音合成技术,它深度融合了端到端TTS和传统TTS技术,用更低的成本、更短的数据录制周期,合成更像人类的语音。


阿里达摩院展示KAN-TTS语音合成技术,5大场景34种不同声音


KAN-TTS有以下几大特点:


1、深度融合了端到端TTS和传统TTS


2、基于不同领域深层Knowledge


3、针对CPU部署的框架设计和效率优化


4、20多项关键算法改进


目前,阿里云已经能提供基于KAN-TTS的工业级语音合成服务,基于5大场景、提供34种不同声音,包括温柔的女声、沙哑的男声、稚嫩的童声等等。


而且,客户可以通过KAN-TTS定制自己的“专属AI声音”。


阿里达摩院展示KAN-TTS语音合成技术,5大场景34种不同声音


据阿里介绍,传统TTS定制需要10个小时以上的数据录制和标注,其定制成本要百万以上,定制周期要半年以上。


而现在基于阿里的KAN-TTS技术,不仅可以让客户“专属AI声音”的成本降低10倍以上,其定制周期也能缩短3倍以上,只需要录制1小时有效数据,不到2个月就能完成。


阿里达摩院展示KAN-TTS语音合成技术,5大场景34种不同声音


除了B端用户之外,普通个人用户也可以使用这种AI定制专属声音的技术,只需要用手机录制10分钟的声音素材,就能得到不错的效果。


二、机器视觉:新零售、AI卫星遥感


此外,达摩院机器智能技术事业部首席架构师王骏也介绍了达摩院在视觉AI方面的新进展,包括基于机器视觉的人类行为识别跟踪技术、AI卫星遥感影像分析技术等等。


通过达摩院的计算机视觉技术,机器能够在开放自然环境里,对视频中人类的行为进行识别和跟踪,比如它能识别并持续跟踪拳击比赛中两个选手的动作。而且,这种技术可以进行跨摄像头的全域跟踪。


王骏说,这种技术非常适用于新零售场景——因为它不仅能让AI识别人的属性,还能够知道人的行动轨迹,能让新零售商户知道你的目标用户是谁,同时了解目标用户的行动轨迹。


与此同时,王骏还展示了达摩院的AI卫星遥感影像分析技术。通过AI分析行卫星遥感影像,能够实现建筑、道路、水体、土地使用情况的动态常态监管、精准监管。


据阿里介绍,AI卫星遥感影像分析技术已经在淄博市5965平方公里土地上进行违章建筑和破坏森林等行为的识别,将传统的几个月的分析时间缩短至几分钟。


三、达摩院遍布四个国家八大城市


两年前的云栖大会上,马云用将近40分钟的时间详细讲述了阿里投资一千亿人民币成立的全球研究院——“达摩院”的想法。当天马云还提出了达摩院的三个原则:一定要活得比阿里久;至少要服务世界20亿人口;必须要解决人类未来的问题。据介绍,达摩院当前人工智能技术研发的主力正是机器智能技术事业部,它的前身是阿里iDST (Institute of Data Science and Technologies)。


阿里达摩院展示KAN-TTS语音合成技术,5大场景34种不同声音


当前,达摩院的办公室分布在四个国家、八个主要城市,是一个全球化的科研机构,从长期研究计划(如量子计算)到短期落地研究(如人工智能技术与产品)都有涉及。达摩院语音实验室负责人鄢志杰表示,达摩院会把最先落地的、最好的AI技术都放在阿里云上——“阿里内部能用到什么,阿里云的客户就能拿到什么”。


虽然“达摩院”听起来非常高大上,但是通过这次的沟通交流,我们感受最深的一点就是,达摩院的科研并非“空中楼阁”,而是切切实实的以解决实际问题为导向,目前其研究成果以逐渐落地阿里各个业务线。此外,在技术落地解决实际问题的过程中,无论是语音识别、机器翻译,还是机器视觉,阿里都在尝试综合应用多种技术来解决实际问题。


文章来源:智东西

注:文章内的所有配图皆为网络转载图片,侵权即删!

声明:“贤集网”的所有作品,版权均属于贤集网,如需转载,请注明出处;本网站转载的内容版权归原网站所有,如有侵权或其他问题, 请及时通过电子邮或者电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失

我来说几句


获取验证码
最新评论

还没有人评论哦,抢沙发吧~