临近年底,一些投资人开始为AI“降温”,引导行业冷静看待当前的AI技术和商业化应用。如果投资人的观点还不足以服众,那么在AI领域奋战20多年的行业前辈,或许能从技术角度给我们一些更现实的启示。
近期,爱分析对捷通华声董事长张连毅进行了访谈,探讨了他关于当前人工智能各项技术的发展水平和行业应用现状、以及对接下来全行业发展态势的看法。
图:捷通华声董事长张连毅
张连毅1989年毕业于清华大学,从1990年开始致力于将清华的OCR技术商业化。2000年,他和清华大学陈明博士与中科院声学所研究员吕士楠共同创建捷通华声,主要提供语音合成技术。2016年,捷通华声正式登陆新三板。
如今,这家有着17年历史的公司已经构建了涵盖语音识别、语音合成、声纹识别、语义理解、OCR、手写识别、人脸识别、指纹识别、机器翻译、数据挖掘等十项技术的全方位人工智能平台,为包括金融、电信、能源、交通、教育、医疗、政府、汽车、IT互联网等众多行业客户提供AI技术和解决方案。(详见爱分析文章《AI格局3年定型,捷通华声能否成为十项全能冠军? | 公司调研》)
张连毅认为,包括语音、图像识别、语义理解等在内的人工智能技术尚不完美,是全社会对AI技术接受度的提高带动了各项技术商业化需求的猛增。然而,一些公司及行业人士对AI技术宣传过度,其实是在误导大众。这种误导,将不利于AI技术未来的发展和应用。此外他还指出,从2011年到2016年上半年是AI技术启蒙的5年,而接下来的3-5年,则是AI产业格局的定型阶段。
爱分析节选部分精彩内容,与您分享。
AI技术尚不完美,应用和商业化要看行业要求
Q:OCR属于人工智能技术吗?
A:以前人工智能和人机交互是分开讲的,现在合起来了。我认为人工智能可以理解为两个层次,人机交互是浅层次,让机器像人一样能看会听,而让机器具备像人一样的思维和推理能力,是深层次。OCR属于图像识别领域一项比较传统的技术,它属于人机交互,是浅层次的人工智能。
当然,虽然它较为传统,但也不是完全成熟,也是近几年随着深度学习技术的发展才取得了一些突破,对于模糊、压线、重叠、有背景色等情况下的识别准确率有了显著提升。另外从开发者的需求来看,各行各业对OCR技术的需求仍然非常旺盛,包括药瓶上的文字识别、票据识别、物流行业的快递单识别等等。所以OCR技术是人工智能领域一项行业需求正旺的传统技术。
Q:国内有哪些做OCR技术的源头?
A:OCR技术90年开始兴起,主要源头就是清华(以捷通华声、文通为代表)、中科院(以汉王科技为代表)、摩托罗拉(以上海合合信息为代表),以及新加坡国立研究院,国内也有两家代表企业。
Q:现在图像和语音识别还需要人工校对吗?
A:都需要。外界的一些近乎100%准确率的语音识别演示,其实是经过了专门训练的,实际使用场景下不会有那么高的准确率。当然各行各业对语音识别效果的要求不一样,比如医疗、法律等领域是不允许出现错误的,那么技术公司要么在后方设呼叫中心,进行人工校对,比如Nuance就有一个几千人的团队在做校对工作,要么就是加强专门的数据训练,来降低错误率,在实际使用中,对于部分小错误,再让用户进行自主校对。
Q:现在行业内语音识别准确率基本在什么水平?
A:手机APP和电话信道分别是16K和8K声道,现在手机APP的16K声道识别率基本都在95%左右,8K电话信道识别率最高只有85%,当然之前才60-70%。
Q:声纹识别现在有哪些难点?
A:单一声道声纹识别还可以,但是跨声道的声纹识别还不行,比如从电话信道到手机,从手机到麦克风等,就很难识别。
Q:如何看待当前的人脸识别技术和市场?
A:我理解,人脸识别的技术要求是跟行业应用挂钩的。现在很多创业公司都把人脸识别用在金融、安防领域。如果用在公司考勤,98%以上的识别准确率足够了,但如果用在金融领域,比如刷脸支付,就算做到99.99%,还是会有0.01%的误差。
所以我认为,人工智能在金融领域的应用,单一技术有难以承受的风险,技术无法保证100%正确,只有通过多项技术融合,多重验证,才能保证万无一失。现在生物特征识别的准确率相比模式识别并不是很高,只有虹膜识别是最高的,所以捷通会把声纹、人脸、指纹、证照识别一起用上。
Q:人脸识别技术目前有哪些难点?
A:人脸识别最大的难点是光线,光太强、太暗都无法保证很好的识别效果。技术再先进也还是会受到环境因素的影响。就像清华的张钹院士一直不看好无人车,因为无人车主要靠视觉,在天黑、刮风下雨、雾霾等条件下视觉会受到很大限制。
Q:您怎么看待无人车?
A:当然现在无人车很热,我个人认为无人车在一些特定领域,比如无人轨道,就是在某段路开,不允许有人,这是可以的。但是要在日常的大马路上开,除了前面提到的摄像头视觉方案会遇到的问题以外,还有人、物、景的鉴别问题。之前特斯拉出事故,至少说明在某些情况下无人车还是不能很好地识别物体和环境状况。另外,交通事故的责任界定也是一个很大的问题。
当然行业内现在会采用一些多传感器融合的方案来减少视觉方面的限制,但是我想说,我们为什么一定要以人的生命作为代价?无论是车里的人,还是车外的人。我们还不至于依靠技术实现便捷而用自己的生命作为赌价。
Q:行业内还有一个观点,没有无人驾驶,同样还是有很高的事故发生率,无人驾驶成熟以后还是能够在一定程度上提高安全性的,您怎么看待这种观点?
A:技术成熟以后提高安全性是没错的,但是人的事故责任是比较容易界定的,而无人车的话是不容易界定的,它的风险是不可预测的,人的风险是可以预测的。当然无人车作为一种技术追求还是值得去研究和探索的,可能真的有一天会实现,但是我认为还是比较远的,除了车上的传感器,相关的配套基础设施也得跟上,这个还是需要时间,目前可预见的技术确实还达不到。
AI火热得益于行业接受度提高,未来3-5年AI格局将定型
Q:对人工智能的发展阶段怎么看?
A:捷通是2011年7月转的型,到2016年6月正好是一个完整的5年。
我认为人工智能的产业发展有两个阶段,2016年6月之前的5年是启蒙阶段。这5年里面的玩家,基本上都是以前做这个行当的企业,比如捷通华声、云知声、思必驰、旷视、商汤、小i机器人、海鑫科金、得意音通、中科信利,上市公司有科大讯飞、汉王科技。
进入到2016年下半年,百度、腾讯、阿里、搜狗、华为等“航母”也开进来了,人工智能真正的战役才开始。所以这之后的5年,是产业格局逐渐成型的阶段。目前大部分客户都是抱着试一试的心态,而不是真正在使用技术,所以现在很多单一领域的需求很分散,还没有形成刚需。接下来的两三年内,产业格局就会逐渐形成,四年之后格局就会慢慢定下来。
到时候,人工智能一定会出类似BAT一样的巨头,因为时势造英雄。
Q:是否认为当前人工智能过热?
A:确实过热。这个产业确实在崛起,所以不能过低估计整个产业,但是也不能过高估计它的技术。人工智能技术的发展,不是得益于大家所看到的语音识别95%、97%的识别准确率,而是得益于整个社会对人工智能的理解和包容。
原来人们对人工智能的态度是,错一个字都不满意,我说话你就得能听懂。但是这些年慢慢发展下来,人们发现虽然有错字,但是我可以包容和尝试了,你试试语音,他试试图像,所以现在需求蜂拥而至。正是这种包容极大地促进了人工智能技术的应用。
当然这种包容和尝试还是更多的在商业领域。一些语音公司最开始做2C产品,实际上刚出来的时候热几天,之后就没人用了。相比之下,把语音技术用在智能客服领域是一个比较正确的方向。从现阶段来看,垂直领域的商业化会走得更快一些。
Q:如何看待当前一些人工智能会战胜和取代人类的说法?
A:Alpha Go赢了之后,有人问我人工智能会不会战胜人类,我认为这个问题要看机器战胜人类的什么。如果说在某些方面的话,那么在计算器诞生以后,机器就已经战胜人类了。
不管别人怎么说,我理解,人工智能是人类的伙伴,它的诞生是为了帮助人类,成为人类的助手。它不是不可能取代人类,但有一个前提,我们人类能不能先搞明白我们的生老病死是怎么回事?
人工智能是仿人,人类之所以能把撞得很破的汽车复原,是因为人精通汽车的整体构造,但是人类对自身大脑的了解少之又少,而AI的核心又恰恰是在大脑,所以要造出一个超越人类的AI起码是建立在人类对自身有足够了解的基础上。
人工智能未来的发展一定是伴随着人类对自身的理解不断加深,等到这种理解达到一定程度,我们才能去谈人工智能能否战胜人类。现在讨论这个问题还为时过早,现在我们更应该关注的是这些技术怎么来服务行业、服务社会大众,减轻工作负担和压力、提高工作效率、降低成本,同时给大众带来一些娱乐和便捷。
Q:如何看待让人工智能参加高考并考上一本这个项目?
A:这其实是我最不认同的一件事情。
中国的父母有两个心病,一个担心家人生病,一个是担心子女教育。中国的教育是固化的填鸭式教育,毫不夸张地说,就是摧残儿童。真正的教育应该是启蒙式的,引导你去发现事物的本质。而我们是灌输式的僵化教育。
让人工智能参加高考并不能证明什么,就算几年以后人工智能参加高考成功了,也只能证明一件事,中国的考题式教育已经到了无以复加的地步。因为不管是答题,还是写作文,从技术上看并不难,只要把海量的题库拿过来,让机器去学习、训练就行了。这个过程并没有创造什么,并没有对中国的教育进行一些有益的改变。
所以我们的企业可以去探索人工智能的应用方向,比如帮助孩子写写字、练练普通话和英语口语,那是可以的,但是不要夸大它在教育领域的应用。企业一定要服务行业,而不能误导行业,因为这种误导是误国误民的。
Q:如何看待当前AI类公司的高估值?
A:首先需要肯定这个领域还是有一些很优秀的公司存在。
但是从技术角度讲,这个领域的门槛并没有想象中那么高。很多公司都是基于国外的开源技术在做,原创技术并不多。既然是开源的,大家都可以学,并不是说谁就有很高的门槛。比如这两三年,国内就冒出了很多做语音的公司。
所以目前的高估值一方面是因为这个市场真的起来了,另一方面不排除有一些包装的成分在里面。
我向来不相信独角兽,因为人工智能包含各种各样的技术,单靠一项技术是不可能垄断的。这是一个风起云涌的时代,创新会一直持续下去。企业当然还是要构建核心技术,但是想依靠核心技术垄断行业是不太可能的。
人工智能企业还是要本着开放、共享的心态来做。一家人工智能公司能否实现长远发展,关键在于能否正确理解人工智能,而不在于单一技术的领先。如果不能正确理解人工智能,也许可以活着,但是能走多远能爬多高,可能就是一个问号。