谛听机器人：专研语义，让机器人获得智慧

2016-05-10 10:36:06来源：1号机器人网作者：

谛听机器人CEO彭军辉说：“在语义理解上，谛听机器人采用的方法有所区别，是通过句法分析，分析句子里每个词之间的相互关系，让机器人能更准确的理解语义。”

对机器人是否智能包含很多因素，但是对普通消费者而言，机器人是否智能取决于语音交互。

语音交互包含“语音”与“语义”，这两大难题目前一直困扰着机器人企业。

很多机器人企业反应，语音与语义在实验室里测试很好，但是一旦应用到市场，结果就很不理想。

以目前的语音与语义技术，只能在特定的场景下，才能实现流畅的人机交互。

谛听机器人CEO 彭军辉

北京谛听机器人科技有限公司（以下简称：谛听机器人）CEO彭军辉说：“在语义理解上，谛听机器人采用的方法有所区别，是通过句法分析，分析句子里每个词之间的相互关系，让机器人能更准确的理解语义。”

虽然市面上已有不少语义处理企业，而且各有所长，但技术进步很快，比我们想象中的要快很多，相信过不了多久时间，语音与语义将会有质的突破。

记者：服务机器人是否智能取决于语音与语义，你们的语义目前已经研究到什么程度？可否举个例子说明，它目前能做到什么场景的语义理解？

彭军辉：服务机器人目前最大的瓶颈是对自然语言语义的理解。所谓机器人，核心在于智能，不在硬件。服务机器人如果不能很好的理解用户的意图，就无法满足用户的需求。

人和机器人的交互，语音是唯一合理的方式。语音识别现在已经做的很好了，但语音识别只能把语音信号转换成文字的信号，机器人未必能理解文字包含的语义。这就是我们语义理解要做好的事情。

语义理解，其实就是机器人的大脑，它决定了机器人的智力水平。语义理解水平高的公司，就能做出高智能的机器人，相反，就只能做出来一些傻乎乎的家伙。

而我们的开放平台不是机器学习算法，不是简单的关键字处理，我们是句法分析，分析句子里每个词之间的相互关系，让机器人能更准确的理解语义。

我们把语言放在一个环境当中，分析每一句话所处的场景，比如：“漂亮！”，如果没有场景，这句话无法准确理解到底是赞美一个姑娘，还是足球场上的一次漂亮射门。如果加上“看到漂亮姑娘”或“看足球”，这个“漂亮！”，语义就明确了。

我们分析了句子结构，词的特征，包括口语和同义词，让机器人更好的理解上下文。还有对“的、地、得、着、了、过”的处理，让机器人对语义的理解更加细腻。

记者：你们在语义领域做了多久了？是什么因素促使你进入到这个领域？

彭军辉：我在语义领域做了十多年，现在能查到我最早发在网上的文章是2002年，当时主要是出于个人的兴趣爱好，让我走进了这个领域。

当初五笔字型输入法还很流行，那时我只是想做一个更加理解人的输入法，让汉字输入变得简单。不管是字形输入法还是拼音输入法，一个代码都会产生很多汉字，需要用户在菜单中做出选择。

比如：“hanzi”到底代表“汉字”、“汉子”、“汗渍”，还是“韩资”，必须要用户去人工选择。

我是学历史教育的，大学中文语法也是主修课，我发现如果从语法规则出发，把词放在句子当中，根据上下文的搭配关系，就能比较准确的确定“hanzi”到底代表“汉字”、“汉子”、“汗渍”，还是“韩资”。

于是我就开始专注于这方面的研究，经过数年积累，我发明了一套汉语智能拼音文字，它自身有很强的逻辑性。比如：你把“牛吃草”用汉语智能拼音文字写成“草吃牛”，机器一样可以立即成“牛吃草”。

它可以作为输入法的中间代码，应用于拼音输入法。这样的输入法，将会很少产生需要用户去选择，但是当时我还不懂，也没有经济实力支撑我去做一个输入法程序。

为了把输入法程序做出来，我成立了一家公司，给别人做企业网站积累人才和资金。但当时招聘的开发人员只能开发网站，开发不了输入法。

后来看到MSN机器人，发现我们做聊天机器人还是存在优势的，于是我们开发了最早的聊天机器人“柳柳”，当时用ASP+ACCESS做的。

虽然我们在语义理解方面有些优势，但在系统搭建上差太远了，机器人反应速度很慢，而且还有很多BUG。后来几年，这个程序我们不断完善，也在这个过程中，我慢慢学会了编程。

记者：国内专门做语义的企业也很多，你们的语义理解与他们是否存在差异？或者说你们的优势在哪里？

彭军辉：我们的竞争对手多数是从高校NLP专业科班出身的，他们采用的语义理解技术基本上对数学依赖较高，他们算词频和概率，处理的对象是文字。

我们处理的对象是语义，所以我们要先处理同义词、口语等，一句话只有放在一个场景和背景下，语义才能明确。

所以我们是先去分析场景和背景，再去处理上下文和省略语，甚至可以让机器人自己进行推理判断。根据现有知识推导出新知识。

从效果上看，我们的对话过程更自然流畅。

记者：目前语义理解的技术瓶颈是哪些？

彭军辉：现在很多公司用机器学习或者神经网络做语义处理，但是机器学习或者神经网络并不是一项自然语言处理技术，他们可以用在很多方面，比如：图像识别、语音识别等领域。

所有做语义处理的公司都不得不自己手动写一些规则，可以说不用机器学习和神经网络照样可以做语义处理，但是不用规则，语义处理就没法去做。

现在很多公司觉得上下文处理是难点，都期望能在这里取得突破。

但是自然语言处理有分词、词性处理、句法分析等基础技术，如果这些都做不好，上下文处理必然做不好。

记者：你认为目前市面上做的最好的语义公司是哪家？他们的语义理解已经到达什么程度？可否举个例子描述一下场景？

彭军辉：目前我们看到的语义处理公司大多数都是用机器学习在做，从我们的角度去看，他们做的还是比较粗糙的，自认为我们的技术处于行业领先。

我们提出里语义处理四个标准：

第一个标准是同一性，就是语义相同的句子要能归并处理。比如：“你今年多大了”和“你今年几岁”就是一个意思，完全可以归并处理。

第二个标准是差异性，就是语义之间的细微差异要能区分开。比如：“老张的猫是我送的”和“我给老张送的是猫”；“我要睡了你”和“我要睡了，你呢”，这些都是相同的语句，但是两个意思，要有区分。

第三个标准是一致性，就是机器人说出来的话要前后一致，不能自相矛盾。不能前面说“我是男生”，后面说“我是女生”。

第四个标准是容错性，就是要能准确理解用户意图，不能就字面处理，要能容错。比如：用户肚子饿了，输入“我额了”，机器人应该能理解成“我饿了”。

目前这四个原则，还没有公司能达到。我们正在努力，在不久之后可以全部达到。

记者：你认为机器人像人一样自由的交流，还需要多久的时间能实现？目前是哪些因素阻碍着朝这方向发展？

彭军辉：人和人能自由的交流，是因为交流的对象都是高度智慧的。一个正常人与傻子交流一样很困难。只有当机器人拥有正常人的智慧，人和机器人的交流才能真正自由顺畅起来。

这个也许是未来五年或者十年就能完成的事情。

解决这个问题的唯一机会就在于让机器人真正理解人类语言。在我们看来，语言就是智慧本身，只要理解了人类语言，机器人才可能拥有人类的智慧。

而语义理解技术就是机器人理解人类语言的基础技术。

记者：做语义理解的门槛有多高？如果一家企业想进入这个行业？他需要付出多大的成本？这些成本包括哪些？

彭军辉：这个行业进入很容易，要做好很难。

做语义理解需要两个东西，一个是算法，一个是知识库。

算法目前有一些开源的东西可以用，但如果用开源的东西，做出来的必然没什么特色，也就没有什么价值。如果自己从事基础研究，需要花费大量的时间。

不管是微软、谷歌、百度，还是小i机器人等都已经在语义理解行业积累了十多年。单纯做算法，从头开始，就算快也得三五年时间。

知识库建设需要大量服务器资源，需要大量的数据，也需要大量的时间。

对于新进入者，还不如依靠大的平台去做，目前我们也在打造一个语义理解开发平台，让机器人企业使用语义的门槛和成本大幅降低。

记者：根据你的判断，你觉得目前国内语义行业现状如何？这行业未来两年它的市场空间会有多大？

彭军辉：自然语言处理行业，国外与国内几乎没有什么差距。NLP发源于西方，国内引进后应用于中文处理。后来新兴的技术如：机器学习、神经网络、知识图谱技术等都是引用开源的软件。

虽然大多数是西方发明的，但国内很快就应用起来了。随着机器人行业的发展，目前市场对自然语言处理的需求是非常强烈和迫切的。机器人需要更加自然流畅的人机交互过程。

但传统自然语言处理技术在人机交互的流畅性上有缺陷，上下文处理能力明显不足。

我们通过小范围试用后，在人机交互流畅性上的表现比较有优势，所以在这方面，我们是行业领先的。

未来机器人普及是必然的趋势，也为我们带来了良好的发展机遇。据预测，未来几十年后，机器人的数量将会超过人类的数量。

记者：最后一个问题，谈谈未来三年你们的发展规划？

彭军辉：我们目前在开发一个机器人开放平台，让每个企业可以建立自己的问答机器人。企业给机器人增加知识就像写微博那样简单。

我们期望未来三年，我们平台的企业用户数能达到1000万以上。为此，我们将会不断升级我们的技术，让机器人对用户语义的理解更加准确，让人机交互的过程更加自然流畅，让我们的机器人能为客户解决更多的问题。

关键词：机器人

谛听机器人：专研语义，让机器人获得智慧

相关阅读: