在11月8日腾讯2017全球合作伙伴大会期间,腾讯在“创想·人工智能”论坛上公布了其在人工智能领域的诸多进展,包括产业布局、发展规划、合作共赢等多个层面。
其中腾讯智能平台中心总经理陈谦,在论坛上进行了题为《智能时代的场景化机遇和挑战》的主题演讲,为现场的诸多媒体以及行业人士阐述了腾讯旗下的智能AI语音助手“腾讯叮当”的发展情况,以及对人工智能行业的一些思考。会后,陈谦接受了媒体的采访,就本次演讲以及腾讯叮当的一些问题进行了一些相关问题的解答。
腾讯叮当于今年4月25日公开亮相,是一款智能助手系统,提供高品质、完整、开放的人工智能服务,帮助硬件设备快速获得听觉和视觉的交互能力,它整合了信息服务、内容服务、生活服务和各种硬件的连接服务,充分结合了腾讯技术生态和内容生态,有望成为各个行业切入人工智能的基础入口。
陈谦在演讲中表示,AI产品场景化是叮当在发展中遵循的重要原则,包括四条,分别为:
1,真正自然而优美的语音交互;
2,视觉与听觉信息的高效配合,;
3,单场景单设备的极致闭环;
4,跨场景多设备的无缝连接。
他认为,一个语音助手首先要听得清。在唤醒和语音识别上,腾讯叮当3m唤醒率已达到95%以上,语音识别正确率达到96%以上。并针对特定场景做在数据和算法上做了大量针对性的优化,力求在特定场景下做到最好体验。
此外,腾讯叮当的语义理解拥有千万级的语料标注、海量的知识图谱,深度融合了语音识别来提升了语义理解的纠错能力,在完善的用户画像基础上能够建立起个性化语义。
“不仅要答得上,我们还要让用户感受到愉悦。我们的语音合成TTS技术分四步:逼真化、个性化、情感化、场景化。”陈谦如是表示。腾讯通过TVS(Tencent Voice Services),提供给到终端硬件厂商使用。陈谦称,无论是从技术方案、产品方案、还是商务方案的角度,TVS都是目前市面上最灵活的终端接入方案。
腾讯智能平台中心总经理陈谦
随后,陈谦针对记者的提问,回答了关于腾讯叮当的相关问题:
记者:腾讯叮当如何通过连接硬件落地?咱们这块具体的方向是什么?
陈谦:机器人的方向和你刚刚讲的有很大区别,比如小冰更多地偏聊天,是软件机器人的概念。我们内部的机器人的框架更明确的是和硬件相结合的,所以聊天只是功能中间的一部分,我们做这个机器人更多是要探索怎么发挥硬件机器人知名的特点。比如它有行动能力,然后它会在家里面,因为机器人人性化更强一点,更适合亲子类的东西,所以我们这个机器人方向如何和聊天机器人还是有蛮大区别。
记者:叮当会选择一些指定的产品进行模块化对接吗。
陈谦:你说分不同的功能性产品对吧?两块都有,机器人可以放在不同的地方,也有为了某一种具体场景,这两类硬件机器人都有适应它的地方。我们在这两块都有考虑范围,都是我们硬件机器人的模块范围。
记者:腾讯叮当在研究过程中遇到哪些难题?未来会落地到哪些智能硬件产品上?
陈谦:落地的硬件方向,比如落地到车载上,可以看到叮当。在未来的可穿戴、智能音箱、智能手机,还有电视。会看到越来越多这种智能硬件设备,搭载着硬件支持能力的硬件模块之后会看到更多硬件设备的加入。
记者:有没有具体到腾讯方面的产品?哪些有用到叮当的?
陈谦:比如QQ浏览器的AI在用。
记者:腾讯为什么做这样一款智能语音系统?
陈谦:我们肯定是开放的,我们现在提供的是高质的、完整的开放。第一个问题就是为什么我们要做这样一个语音助手,因为我们刚才提到过,语音交互可以看到它是下一个计算平台一个必然的趋势,既然它是一个必然的趋势,那么我们就要尝试在这块给到无论是厂商,还是生态,还是给消费者,在这方面提供高质的体验和服务。
记者:腾讯叮当将重点关注语音合成这方面吗?将聚焦在哪一领域?
陈谦:语音分几个方面,语音有技术,有体验方案,有产品方案。我想你想问的是指体验产品相关的,包括自然相关的。这块我们觉得会需要持续相当长一段时间去不断地打磨和探索。人类目前没有找到一个最好的做出最好的语音交互的最佳方式,我们整个行业都存在一个摸索的过程中,争取在这块能够走到前面,能够尽快地做出我们认为的真正的自然的产品。
莫:这个问题还有一部分是关于叮当品牌下面我们还会注重发展的技术方面,语音技术整个用户的使用面是先接受用户的信息,然后处理信息,整个过程里边几大环节对我们都是非常重要的方面。腾讯叮当整个技术上在腾讯体系下是全自研的,包括在视觉方面的成果有合作,跟AI Lab在基础算法上也有合作,更多面向场景落地。除了语音识别之外,语音识别的出现,这个领域已经可以做到非常高智能,我们现在着重介绍的方样就是自然语言理解,自然语言理解还没有像深度学习那么大幅度的提升一个技能方法。它中间有很多需要用腾讯的优势,比如腾讯的用户优势,腾讯大数据的优势,腾讯语音的优势。通过这个优势不断地去训练自己的语音理解能力,这块自然语言理解是叮当未来在行业内,国内国外需要有比较领先的优势,这是我们重点发展方面。关于输出,其实是被AI忽略的,做整个AI方向的人,大家更关注语音语义,语音合成是什么样的感受,把信息回复输出给用户也是需要获得体验的。可能不久的时间,估计半年内我们应该可以拿出非常出色的语音合成效果,这三个应该是我们重点关注的。
记者:腾讯智能平台库现在的发展规模如何?
莫:总部是在深圳,北京有专家团队,很多专业都聚集在北京。成都、武汉有我们的研发中心,规模大概有200多人。
记者:跟AI Lab或者优图这些的区别在哪里?
莫:可能大家专注的方向不一样。腾讯是面向业务落地的公司,更多看重技术能够为用户发展什么。所以优图的专场可能更多在图像上,比如优图的人脸识别在全球都是非常领先的,腾讯叮当更多的关注与把腾讯自研的技术变成以语音助手为形式的服务模式,服务产品,带给终端用户。AI Lab在腾讯内部更多的是关注人工智能的核心算法,更关注人工智能核心技术突破。未来AI Lab算法突破在业务上作为一个支撑。
记者:陈谦您好,我之前看过您的演讲,您说您非常提倡“极简设计”,因为设计都是非常简单的。请问对AI产品这个理念是否适用,在腾讯叮当是怎样体现的?
陈谦:它肯定是适用的。因为极简并不是把它解释成视觉上面看上去很简单、很简洁。我把简单解释成是合理的,所以极简就是极度的合理。极度的合理设计,针对任何类型的产品都能找到相应的设计上的解法。对AI产品来说,它不但适用于极简设计,而且它使用这种极简设计,或者它享受到极度合理的设计,难度比传统的APP是更高的。对于这种语音界面,我们这个行业还是处在探索的过程当中。探索的过程会持续很长一段时间,5年之后再回来看今天,感觉挺幼稚的。所以我们这个行业处在一个快速发展的过程中。说是否适用的话,我觉得是适用的,而且它想做好的难度和挑战在目前更高。
记者:我有两个问题。第一,现在叮当可不可以跟微信和QQ做一些社交或者是机器的人机对话?第二个问题,目前叮当可以服务的是腾讯内部的,包括订做或者打开音乐,日后会不会跟其他外部的软件合作?比如是不是可以让叮当打开百度地图,类似这种的合作未来有没有?
莫:微信和QQ的开放性在公司内部其实还是谨慎的,用户在微信和在QQ类专注于通讯,在通道中是相当谨慎的。我们会选择具体的产品,用在车上是极度依赖非手操作,我们会用在车上,帮助用户做外界的沟通。因为人的精力一下转到聊天的过程中,对他驾驶那个产品是干扰还是帮助,现在不好说,还在尝试。
陈谦:第二个问题,和外界合作,我们是开放的。我们对外提供的解决方案分两块,第一是TVS,是对接硬件厂商的。第二个是TSK,是对接软件开发者。
记者:我在您的研究上看到演示了新闻播报的操作,配有音乐和自然语言的感觉,它目前的通融性怎么样?比如播放讲笑话、讲儿歌它在语言的流畅度上是什么效果?以后会有什么样的发展方向?
陈谦:刚才我播放的最后那个新闻是人工录制的,它并不是机器生成的。人工录制,目前我们的目标是要追求最好的体验,如果需要人工录制,我们需要投入做出最好的东西。第二点就是关于你说使用机器生成的,关于那块的研发,我们一直是在非常紧锣密鼓地进行,在演讲中提到它有四步,第三步是情感化,第四步是场景化,就是解决这个需求。
记者:如何将叮当用到语义理解平台上面?
陈谦:语义理解是通用的一个平台和流程,在每一个场景或者每一个领域上是有单独的团队,包括开发产品设计,有单独的团队去负责将通用平台上的能力试用在场景或者硬件的语义上。所以我们兼顾了一个平台能力,还有一个是场地落地的时候,它可以应用这个平台能力能够事倍功半,同时可以利用它在平台的基础上打造它适用这个场景的能力。
记者:叮当在目前的市场上如何定位?四个铺点城市主要承载腾讯叮当哪些服务模块?
陈谦:先回答第一个问题,就是如何定位。我们的定位是一个智能系统。我们提到过很多地方都是有差异化的,基础的地方比如语音识别能力,我们是对特殊产品做了大量的优化,我们的语义是利用腾讯自己独特的优势和个性化的服务。还有刚才我们讲到语音合成,在语音合成这块我们看得比较远,我们觉得这块在未来是非常关键的一块,就会提前去布置。
记者:咱们在武汉、成都,已经建了四个点了,这四个点中,咱们现在本部在深圳,因为我到咱们那边去拜访过,咱们的总部在深圳,这个点的话,咱们是提供哪些服务模块来配合本部来做这件事情的?
莫:对于四地的分布,肯定大家在一起工作是效益最高的,我们对行业布局的原则还是以人为中心。就是优秀的人在哪儿,我们就去哪儿。整个AI大的框架起来之后,人是非常稀缺的,核心的,真正有实力的优秀人才非常稀缺。深圳在AI上,在核心技术领域上,深圳的人是稀缺的,更多的人可能选择成都和武汉,一个是过去咱们本身就有分布,第二个是高校是在中原地区相当最强大。成都的高校,武汉的高校都是开展了很长时间,我们就地以人为中心做研发中心。优秀的人更多的考虑自己的家庭,我们更多顺应人才的需求。
评论 (0)