对机器人是否智能包含很多因素,但是对普通消费者而言,机器人是否智能取决于语音交互。
语音交互包含“语音”与“语义”,这两大难题目前一直困扰着机器人企业。
很多机器人企业反应,语音与语义在实验室里测试很好,但是一旦应用到市场,结果就很不理想。
以目前的语音与语义技术,只能在特定的场景下,才能实现流畅的人机交互。
谛听机器人CEO 彭军辉
北京谛听机器人科技有限公司(以下简称:谛听机器人)CEO彭军辉说:“在语义理解上,谛听机器人采用的方法有所区别,是通过句法分析,分析句子里每个词之间的相互关系,让机器人能更准确的理解语义。”
虽然市面上已有不少语义处理企业,而且各有所长,但技术进步很快,比我们想象中的要快很多,相信过不了多久时间,语音与语义将会有质的突破。
记者:服务机器人是否智能取决于语音与语义,你们的语义目前已经研究到什么程度?可否举个例子说明,它目前能做到什么场景的语义理解?
彭军辉:服务机器人目前最大的瓶颈是对自然语言语义的理解。所谓机器人,核心在于智能,不在硬件。服务机器人如果不能很好的理解用户的意图,就无法满足用户的需求。
人和机器人的交互,语音是唯一合理的方式。语音识别现在已经做的很好了,但语音识别只能把语音信号转换成文字的信号,机器人未必能理解文字包含的语义。这就是我们语义理解要做好的事情。
语义理解,其实就是机器人的大脑,它决定了机器人的智力水平。语义理解水平高的公司,就能做出高智能的机器人,相反,就只能做出来一些傻乎乎的家伙。
而我们的开放平台不是机器学习算法,不是简单的关键字处理,我们是句法分析,分析句子里每个词之间的相互关系,让机器人能更准确的理解语义。
我们把语言放在一个环境当中,分析每一句话所处的场景,比如:“漂亮!”,如果没有场景,这句话无法准确理解到底是赞美一个姑娘,还是足球场上的一次漂亮射门。如果加上“看到漂亮姑娘”或“看足球”,这个“漂亮!”,语义就明确了。
我们分析了句子结构,词的特征,包括口语和同义词,让机器人更好的理解上下文。还有对“的、地、得、着、了、过”的处理,让机器人对语义的理解更加细腻。
记者:你们在语义领域做了多久了?是什么因素促使你进入到这个领域?
彭军辉:我在语义领域做了十多年,现在能查到我最早发在网上的文章是2002年,当时主要是出于个人的兴趣爱好,让我走进了这个领域。
当初五笔字型输入法还很流行,那时我只是想做一个更加理解人的输入法,让汉字输入变得简单。不管是字形输入法还是拼音输入法,一个代码都会产生很多汉字,需要用户在菜单中做出选择。
比如:“hanzi”到底代表“汉字”、“汉子”、“汗渍”,还是“韩资”,必须要用户去人工选择。
我是学历史教育的,大学中文语法也是主修课,我发现如果从语法规则出发,把词放在句子当中,根据上下文的搭配关系,就能比较准确的确定“hanzi”到底代表“汉字”、“汉子”、“汗渍”,还是“韩资”。
于是我就开始专注于这方面的研究,经过数年积累,我发明了一套汉语智能拼音文字,它自身有很强的逻辑性。比如:你把“牛吃草”用汉语智能拼音文字写成“草吃牛”,机器一样可以立即成“牛吃草”。
它可以作为输入法的中间代码,应用于拼音输入法。这样的输入法,将会很少产生需要用户去选择,但是当时我还不懂,也没有经济实力支撑我去做一个输入法程序。
为了把输入法程序做出来,我成立了一家公司,给别人做企业网站积累人才和资金。但当时招聘的开发人员只能开发网站,开发不了输入法。
后来看到MSN机器人,发现我们做聊天机器人还是存在优势的,于是我们开发了最早的聊天机器人“柳柳”,当时用ASP+ACCESS做的。
虽然我们在语义理解方面有些优势,但在系统搭建上差太远了,机器人反应速度很慢,而且还有很多BUG。后来几年,这个程序我们不断完善,也在这个过程中,我慢慢学会了编程。
记者:国内专门做语义的企业也很多,你们的语义理解与他们是否存在差异?或者说你们的优势在哪里?
彭军辉:我们的竞争对手多数是从高校NLP专业科班出身的,他们采用的语义理解技术基本上对数学依赖较高,他们算词频和概率,处理的对象是文字。
我们处理的对象是语义,所以我们要先处理同义词、口语等,一句话只有放在一个场景和背景下,语义才能明确。
所以我们是先去分析场景和背景,再去处理上下文和省略语,甚至可以让机器人自己进行推理判断。根据现有知识推导出新知识。
从效果上看,我们的对话过程更自然流畅。
记者:目前语义理解的技术瓶颈是哪些?
彭军辉:现在很多公司用机器学习或者神经网络做语义处理,但是机器学习或者神经网络并不是一项自然语言处理技术,他们可以用在很多方面,比如:图像识别、语音识别等领域。
所有做语义处理的公司都不得不自己手动写一些规则,可以说不用机器学习和神经网络照样可以做语义处理,但是不用规则,语义处理就没法去做。
现在很多公司觉得上下文处理是难点,都期望能在这里取得突破。
但是自然语言处理有分词、词性处理、句法分析等基础技术,如果这些都做不好,上下文处理必然做不好。
记者:你认为目前市面上做的最好的语义公司是哪家?他们的语义理解已经到达什么程度?可否举个例子描述一下场景?
彭军辉:目前我们看到的语义处理公司大多数都是用机器学习在做,从我们的角度去看,他们做的还是比较粗糙的,自认为我们的技术处于行业领先。
我们提出里语义处理四个标准:
第一个标准是同一性,就是语义相同的句子要能归并处理。比如:“你今年多大了”和“你今年几岁”就是一个意思,完全可以归并处理。
第二个标准是差异性,就是语义之间的细微差异要能区分开。比如:“老张的猫是我送的”和“我给老张送的是猫”;“我要睡了你”和“我要睡了,你呢”,这些都是相同的语句,但是两个意思,要有区分。
第三个标准是一致性,就是机器人说出来的话要前后一致,不能自相矛盾。不能前面说“我是男生”,后面说“我是女生”。
第四个标准是容错性,就是要能准确理解用户意图,不能就字面处理,要能容错。比如:用户肚子饿了,输入“我额了”,机器人应该能理解成“我饿了”。
目前这四个原则,还没有公司能达到。我们正在努力,在不久之后可以全部达到。
记者:你认为机器人像人一样自由的交流,还需要多久的时间能实现?目前是哪些因素阻碍着朝这方向发展?
彭军辉:人和人能自由的交流,是因为交流的对象都是高度智慧的。一个正常人与傻子交流一样很困难。只有当机器人拥有正常人的智慧,人和机器人的交流才能真正自由顺畅起来。
这个也许是未来五年或者十年就能完成的事情。
解决这个问题的唯一机会就在于让机器人真正理解人类语言。在我们看来,语言就是智慧本身,只要理解了人类语言,机器人才可能拥有人类的智慧。
而语义理解技术就是机器人理解人类语言的基础技术。
记者:做语义理解的门槛有多高?如果一家企业想进入这个行业?他需要付出多大的成本?这些成本包括哪些?
彭军辉:这个行业进入很容易,要做好很难。
做语义理解需要两个东西,一个是算法,一个是知识库。
算法目前有一些开源的东西可以用,但如果用开源的东西,做出来的必然没什么特色,也就没有什么价值。如果自己从事基础研究,需要花费大量的时间。
不管是微软、谷歌、百度,还是小i机器人等都已经在语义理解行业积累了十多年。单纯做算法,从头开始,就算快也得三五年时间。
知识库建设需要大量服务器资源,需要大量的数据,也需要大量的时间。
对于新进入者,还不如依靠大的平台去做,目前我们也在打造一个语义理解开发平台,让机器人企业使用语义的门槛和成本大幅降低。
记者:根据你的判断,你觉得目前国内语义行业现状如何?这行业未来两年它的市场空间会有多大?
彭军辉:自然语言处理行业,国外与国内几乎没有什么差距。NLP发源于西方,国内引进后应用于中文处理。后来新兴的技术如:机器学习、神经网络、知识图谱技术等都是引用开源的软件。
虽然大多数是西方发明的,但国内很快就应用起来了。随着机器人行业的发展,目前市场对自然语言处理的需求是非常强烈和迫切的。机器人需要更加自然流畅的人机交互过程。
但传统自然语言处理技术在人机交互的流畅性上有缺陷,上下文处理能力明显不足。
我们通过小范围试用后,在人机交互流畅性上的表现比较有优势,所以在这方面,我们是行业领先的。
未来机器人普及是必然的趋势,也为我们带来了良好的发展机遇。据预测,未来几十年后,机器人的数量将会超过人类的数量。
记者:最后一个问题,谈谈未来三年你们的发展规划?
彭军辉:我们目前在开发一个机器人开放平台,让每个企业可以建立自己的问答机器人。企业给机器人增加知识就像写微博那样简单。
我们期望未来三年,我们平台的企业用户数能达到1000万以上。为此,我们将会不断升级我们的技术,让机器人对用户语义的理解更加准确,让人机交互的过程更加自然流畅,让我们的机器人能为客户解决更多的问题。