胡郁:人工智能的发展得益于数字洪流的基础设施建设
嘉宾:科大讯飞高级副总裁 胡郁
以下为发言实录:
何刚:谢谢洪小文先生的关于ABC的改造,toB端的改造产品运行,更多监管的必要性,胡郁先生,请您阐述您的看法。
胡郁:好的。今天非常高兴到世界科技创新论坛,确实就像洪院长说的,也是很少有现在AI这么热,但是今天专门讨论数据洪流,我一直有一个想法,这次的AI能够起来,其实和我们的数据洪流的发展是紧密不可分的。为什么这么说?我不知道大家还记不记得前几年非常有名的一本书叫做大数据方面的。大家还记得当时关于大数据的理论,其实和现在我们AI所需要的大数据还是有本质性的差别。为什么这么说?当时讲大数据的时候,是讲我们更应该关注数据的叫相关性,而不是逻辑性。什么意思?因果关系我不一定非常在意,但是我要看数据之间有没有依存的联系。当时的大数据理论认为通过相互之间依存的联系能干很多事情。但是其实在这之上,也就是最近10年,人工智能在大数据的基础上发展起来,恰恰是走到另外一个方面,是什么方面?就是利用中间的逻辑性,大家可能会觉得很奇怪。直接采集里的大数据中间如何蕴藏了逻辑性,这跟以前的大数据的观点不一样。但是其实这一点分析起来比较简单,就是说什么?其实数据之间的逻辑性是由人来填补的,比如说做一个图像识别或者是语音识别,采集大量的大数据,但是想来训练我们的语音识别或者是图像识别的东西,必须加上一维或者多维的相关数据,这个数据由人类对语音或者是图像打上了逻辑性的标签,就是人的智慧来判断数据里面哪一的最后的结果有逻辑的关系。只有这样有人参与的大数据,才能用做人工智能的大数据的来源。
讲到这里我举一个例子大家就明白了,2010年以前中文的语音识别是完全不能用的,为什么?因为原来这些数据并不是真实环境中的数据,在实验室里面好不容易采集了2000小时,但是真正训练数据的话,训练语音识别的模型远远不够。2010年以前没有人敢在公开场合或者是使用语音识别技术。这几年为什么语音识别、图像识别雨后春笋一般突破了使用的门槛,就是因为采用了云计算、大数据和我们刚刚讲的方法。
为什么这么说?因为原来的原始方法把一个人叫到实验室录图像或者是语音的数据要耗费大量的成本,现在通过云计算,通过开元的或者是免费的一些服务,让真正最后的使用者,他们源源不断通过使用这些软件或者是服务甚至开元的东西,向云计算的后台提供了大数据。而且数据在过程中也加上了我们刚讲的逻辑性的标签,成为数据的维度。才用了三到四年的时间突破了我们讲在图像和语音方面的技术。所以说,我觉得本身人工智能的发展,就得益于我们讲的数字洪流的不断进步,如果没有这些基础设施,云计算、大数据,我相信人工智能这次不会取得这么突飞猛进的发展。
最后我讲一点关于运用。大家都知道通过云计算的方法,有两类客户非常期待着通过云计算获得人工智能。一类是大企业,特别是传统企业,比如说家电厂商、汽车厂商,但是他们并不一定懂人工智能,或者是人才有限,大多数集中在互联网厂商里面。这样的话,其实将来每一个传统企业也好科技企业也好,需要自己的云计算和大数据和人工智能。这里面可能存在一些人工智能企业和这些所有的大B客户,大型企业的深入合作,这些深入合作是要以数据、经验、知识、品牌和将来的分享利益之间进行深度合作的,他们包括云计算和大数据的分享。我们把这种生态体系叫做混合正交的商业生态。另外一方面我们看到很多的开发者想来做人工智能的运用或者是创新的门槛太高,不可能每个开发者建自己的人工智能的系统。通过开放平台的方式,比如说现在讯飞开放平台也拥有了90万的开发者,可以非常便宜利用云计算和大数据的平台获取已经成熟的语音识别、图像识别的各种人工智能的算法。这样的话,为我们国家的创新创业业提供了一个很好的手段。我相信数字洪流的发展一定会持续推进我们在人工智能,在各个传统行业转型中的各个步骤和过程。谢谢大家。