百度侯震宇:ChatGpt很火,接下来应该看文心千帆
作 者 | BT财经
编者按:
百度刚刚发布了2023年一季度财报,纵观百度一季报,可以清晰发现,百度AI业务的贡献值在逐步提升,文心一言的影响力开始展现,且这种影响或将影响百度未来的业绩表现,正是百度在AI方面的优异表现,带动百度其他业务的表现出色。文心一言已经发布快两个月了,外界对文心一言的关注度越来越高,期待值也越来越高,为此,最近百度举行了一次媒体交流会,百度集团副总裁侯震宇回答了媒体关心的问题,以下是现场实录。
01 文心一言消耗的算力如何?
记者:我这边有两个小问题,第一个问题文心一言企业服务推出以后跟百度接洽的客户当中,是百度智能云的老客户比较多,还是新增客户比较多,您觉得吸引企业用户的关键是什么。
第二个问题我们都知道深层次的大模型它的训练和推理都需要大量算力的支持,给文心一言提供算力是否会制约了百度智能云其他的业务,现在整个大模型云服务占到智能云多大比重,或者是有一个怎样的趋势出来?
侯震宇:在文心一言开始企业内测以后,现在主动跟我们交流的和已经在合作的机构比以前更多了,这是我们非常乐于看到的现象,各行各业都有。我们可以看到大模型是分水岭,也会极大改善云计算的格局,这是我们的一个判断,从客户现在的分布来看确实比我们预想的还要好,我们有大量的机构,原先不太愿意用,现在愿意跟我们聊,也愿意去用。
文心一言还是挺耗算力的,我们AI算力的运力是非常高的,我们有充足的算力储备,大家去打听打听,储备量是非常大的。在整个AI算力供给上,行业相对来说仍然会比较紧张,不是说要多少就能有多少,但是现在算力并不会制约百度文心一言迭代,由于百度的智能算力储备充足,在某种层面上至少在当下还算是一个优势。
02 文心一言会带来失业风险吗?
记者:两个问题,第一个百度自己训练的大模型非常耗算力,这个服务开放给用户,对他们来说,算力算是在背后的,如何保证既能帮助他们提质增效,同时还能够帮助他们不是那么耗钱?
第二个问题,在这半年多的时间,AI取代了这个,AI取代了那个,现在百度相当于在行业用户的内测方面走在前面,在行业里面有没有遇到一些阻力?
侯震宇:自从去年ChatGPT推出以后,大家一直都在关注,说白了做深层次AI的计算运营的成本远远大过以前我们常用到的计算工具,大家会觉得这个东西比较贵,确实也不便宜,最终能够让大模型服务能够推广开来的只有两个原因:第一个是模型效果要好,模型效果不好,其他的都不用讲,第一个就是效果;第二个就是成本。
文心一言大模型开始企业内测以后一直在迭代,一个月时间文心一言已经迭代了三四轮了,对于百度来说,用的人越多,我们的AI速度也会更快,效果是一方面。另外整个成本也在大幅下降,一两周之前,百度对外公布过,现在文心一言的推理成本已经下降到原来的十分之一,这个价格我们觉得是企业相对可以承担的。
对于百度来说,我们肯定希望AI能够用到的人越多越好,最直接使用的就是调用模型,成本大家可以不用太多在意,相对是比较低的,或者是绝大多数企业都是可以支付的。
第二点,模型训练,虽然外面也有这样那样开源的大模型,但并不是所有的人都需要从头自己训一个千亿百亿或者是大几百亿的大模型,很贵的,但是你直接基于现有大模型做也不是很贵,这是相对可以接受的。
文心千帆大模型平台的工作就是在大幅度降低成本,除了推理成本下降以外,在接下来几个月还会有大规模的成本下降,不管是在模型使用,还是在模型微调甚至在模型再训练方面,在接下来使用过程中,会把整个成本大幅拉下来,价格应该不会成为大家所使用或者是拥抱大模型的瓶颈。
第二个问题确实有很多人说取代这个(岗位)取代那个(岗位),二三十年前我还念书的时候,PC端火的时候,是80年代早期,苹果70年代就做起来了,也没让更多的人失业,反而大幅度提高整个人类的生产效率,甚至激发了很多产业的诞生,带来了很多工作机会。但是如果你非常古典主义派,说:“我就是想用算盘”,那就是另一回事了。
我认为大模型也好,AI也好,任何能够直接提供生产效率的都是所有企业喜闻乐见的,短期内可能是会给一些人带来影响,但是只要大家真的愿意拥抱大模型,都能够看到更多的机会。
我们目前所接触的客户一定都是想拥抱大模型这件事的。我们接触的客户有两个阶段,第一个阶段是在3月16日之前我们就在接触,那边来的级别都非常高,都是CEO,大老板带队,我们讲什么的内容都属于科普了,确实是很多一把手、二把手来的,他们觉得这个事很重要。但是到现在,我们接触到的是更加深入,并不是一把手出来,而是实际在内部做事的人跟我们直接接触。在做这些事的人他们也并没有觉得会取代自己的工作,反而是希望更快使用上大模型,通过大模型的能力提高自己的业务能力,让他们在竞争当中去获得优势。
03 文心一言使用成本究竟如何?
记者:我想问两个问题,第一个是文心一言在为很多企业服务的过程中,企业自己服务各种各样的垂直领域,比如金融、交通政务等等,大模型怎么样跟垂直领域相结合?第二个问题是,企业怎么比较关心尤其是中小企业他们比较关心轻量化部署大模型,文心一言我们在服务他们的过程中怎么降低使用大模型部署成本和维护迭代成本?
侯震宇:如果大家看到这一次我们现场的演示跟之前不完全一样或者说演示的案例不完全一样,在之前的演示我们更多强调的是一言大模型的能力,我们说的都是文心一言,这一次我们提了微调,之所以这样也是和我们业务以及当下各个客户有很多深入的合作,很多客户第一是直接用基础大模型的能力。第二个是要把他自己领域内或者企业内的数据要能够灌进来,它才能够获得自己领域内的效果。
今天这次技术交流是想跟大家强调,除了可以直接调用文心一言大模型的基础能力以外,我们提供一整套基于大模型的工具运营,包括微调、再训练。在现阶段,文心千帆平台上提供了大量数据准备工具,包括模型管理。在我们平台上是你自己的模型,将来可能会有各种各样的模型版本,基于不同的大模型去做微调或者是再训练,现在在文心千帆大模型平台上都可以支持。
第二个如何降低成本,除了调用成本、训练成本,我们都在帮助大家做进一步的成本下降。另外,一个千亿大模型是非常通用的能力,如果我们只是聚焦在自己相对比较狭窄的领域上,我们也有相对低参数的版本,使用或者是训练成本也会大幅下降,我们只是先推出一个大家伙,一个完整的工具平台,后面会根据实际的需求差异化提供一整套的模型,帮助客户选择,一个是效果,一个是成本,决定了大模型这个事能不能走下去,这就是我们所关注的。
04 AI发展遇到分水岭
记者:问两个问题,第一个我知道这件事情对百度智能云的商业意义有多大,云计算领域一直坚持AI做差异化的打法,不断强化优势。现在仿佛是天赐了一个机会,文心一言和云的结合,在一段时间里或者在当下拉开了百度智能云和其他厂商的距离,也让智能云商业化的效率会得到提升,从商业角度会不会带来指数级的提升,每个人肉眼可见的那种变化?
侯震宇:是不是指数级我不知道,但我在公司内部一直在谈,包括去年智能计算峰会的时候也讲过,对于百度来说,我们从计算角度看到异构算力,从AI角度看到大模型给AI研发带来的新范式,我们讲这个的时候ChatGPT还没火,这个是我们判断和期待的事情。
我们相信这一轮大模型是AI发展的分水岭,大幅度拉动AI在各个业务的应用。百度在这方面是领先的。
至于说商业,我们觉得云计算在此时此刻格局发生变化。众多的企业里面原先只是数字化,有碎片化的算力。接下来企业会更多拥抱AI,更多需要GPU异构算力。因为有了大模型,它本身要求的是更高层的AI服务。
所以我们一直在说,整个云计算的格局逐步从以算力为基础平台的IaaS,开始走向以模型能力为主的MaaS。AI能力逐步放大变成主需求。
百度一直在等待以及推进这个进程快速的发展。大模型刚好带来了质变。我们觉得这个速度增长是比较快的,或者是在商业上看到此消彼涨是肯定的,在商业上看到一个比一个大。就像iPhone在什么时候会超过诺基亚一样。
05 文心一言有更多的落地场景
记者:我记得在今年发布的时候公布了一个数据,有四百多意向客户,我也听说咱们在北京和上海面对客户的闭门会,次次都是坐都坐不下。最近我身边的人,也是无人不谈这个事,分众传媒就跟我们讨论,能不能把他二十年写的广告词作为数据去训练,生产广告营销方案这样一套垂直系统。我们看到很多天才的想象,有很多人去拥抱。我发现目前来说其实就是那么几类,第一类跟文字有关的生成助手。第二个跟图表有关的生成助手。第三个会结合行业特点。每个人都在谈这个事,每个人都在从中找商业机会,但看到的确定性很少。
侯震宇:确实,在过去一两个月,对于百度来说3月16日是一个大的节点,文心一言开始企业内测以来到现在也不到两个月,我们就觉得这个世界变化很快,包括我们接触到各种各样的客户。我们现在碰到客户的级别,其实是往下降,从最开始的CEO层级变成具体的技术和业务团队,这说明大模型在实际的落地。
另外一个,我们3月份接触到的客户包括有一些朋友们在媒体圈、在技术圈。大家都很兴奋,好像这个东西什么都能干,那段时间里大家谈的更多是畅想,无所不能,显然我们打开了一扇窗。打开这扇窗以后是不是真的这么无所不能,现在还没到那个程度。
文心一言是大模型,需要接收更多的知识。第二个是要真的能够落地在实际应用场景里。
我看到的趋势是,3月份所有人都在异想天开,现在我们看到的、聊到的就是一些实际的应用。我们就碰到过一个机器人公司,在让机器人看上去变的更加智能,并不是让机器人写一篇小作文或者是考它几个数学题。3月份我们看到的是大量纯属刁难的问题,现在我们觉得有更多的场景在落地。
原先有一些应用,像科幻小说里写的(不真实)。但是有一些应用超出了我们的想象。当一个新技术出来以后,总会有一些人开发出来一些更好的东西。最早做出来Windows的人也不知道居然还能干这个。
记者:再补充一个小问题,现在大模型太热了,最近一周参加了四个类似的会议。我有一个困惑点,现在大家都说自己好,能不能给我几个简单的标准,让我判断一下对方说的话靠不靠谱,能不能用几句话掂出对方的斤量?
侯震宇:这确实很难,但我们在做。
大模型的好坏,要看是不是真的能够解决行业里或者是业务上的问题,而不是拿一些系统上的东西做比较。一架飞机有几个眼睛,这个并不带来实际的结论。要看在实际业务应用过程中,能够真正解决问题,因为这是做产品。
第二个也需要整个行业里能够有一个大家能够公认的行业标准出来。大家现在的应用,比如我这儿有一本使用手册,如果大模型没有学到里面的内容,显然不会知道这里面的东西。把使用手册数据输进去,问使用手册的问题,就能给你回答,这是大模型基本的服务。另外一个大模型整体服务,要看最终是否能够把客户自己的产品、数据和大模型更好结合起来应用,带来好的效果。对比来说,很多时候不是教一些简单的模式。
如果有相应的工具,模型对它有比较好的反应。什么是比较好的反应,你把这个东西教给它以后,它的学习能力是很强的,这才是真正能够具有更好的迭代或者是成长的模型,这些都是大家应该关注的,而不是你现在输入一个词如何如何。
06 用文心一言都是什么样的客户?
记者:我想问一下关于具体场景落地的问题,或者是顺着刚刚提到的在标准上面,有没有标准。
侯震宇:没有一个公认的标准,最好的公认标准是由国家机构推出来,公认的标准出来之前,客户不是傻子,我们经历过第一阶段的科普阶段,我们刚开始科普,第二轮再科普发现人家不听了。到后面大模型实际应用落地的时候,你跟客户说这个东西好,你得真实的看效果。就是在大模型服务的基础上提供对应的工具,在场景里是否能够带来更好的效果。
记者:现在的客户需求比较大的都是什么样的客户?
侯震宇:各行各业的客户都有,科技属性越强的公司,越容易拥抱公有云,直接在百度智能云上去用。越是大企业,也不能说他想要怎么样,有一些企业是有各种各样合规的要求,他们会强调或者是比较习惯私有化交付,搬到他那边去,我们都支持。我们原来的AI中台有很多大客户,我们现在也在帮助他们原来的平台升级为我们的文心千帆大模型平台,把大模型能力和他们的数据结合。
记者:现在有一些没有很好结构化的知识或者是内容,比如一个工厂的老师傅个人的经验,这种比较难以结构化?
侯震宇:确实是一个问题,某种层面上,老师傅脑子里的经验不完全是一个大模型。比如我们谈到所谓的质检,各种流量调度,其实就是把过去的经验或者过程数字化以后,再和老师傅去比较。虽然现在文心是大语言模型,但本身具备多模态的能力。只是需要把它打磨的更加全面化以后,我们可以把一些非知识类的东西用多模态的形式呈现出来。这确实是接下来要考虑的。
记者:对于客户来说最关心的还是成本和模型效果问题,在开源模型API接口调用成本几乎为零,并且在不少细分领域效果也比较强劲的情况下,这样的开源模型会不会对业务产生一定的冲击?
侯震宇:开源模型调用成本为零显然是不对的。大家觉得大模型成本非常高,是因为大模型算力成本高,其次是大模型数据成本。开源模型也绕不开大量的GPU,所以并不是开源成本一定低。文心一言发布以来一直在迭代,包括效果迭代、性能迭代。换句话说,能够把大模型训练出来本身就很难,能够搭一千张GPU卡,三千张GPU卡,一万张GPU卡的一个集群规模去做训练,就没有几家公司能做得到。从上到下整个链路都是有非常高技术含量的事,出来以后还需要有大量的成本。
我们的大模型去拥抱一个开源的模型,比百度全栈优化的要便宜吗?不会。开源并不代表成本低,整体端到端的优化才会带来使用成本更低,包括调用成本、运营成本等。一方面,一般企业不见得能够用得起两三千张集群卡,另一方面是不一定能够用好,在这么大的集群量中如果出现了BUG很难调整,需要有整体的调优服务能力。大模型贵是因为量大且训练时间长,在成本这方面,最终要看是否有整体端到端的成本控制能力,这样一定会比纯粹去买成本要低。
第二个对于文心千帆大模型平台来说,它既提供文心一言的模型服务,同时也支持第三方模型服务,包括第三方的开源模型,有的是从头开始搞,更多的是基于开源模型做再训练。真的能够再训练,把它做起来也是基于更大的平台去做会更容易,我一直觉得最终能够给业务带来实际竞争力和变化的是模型的能力,但是模型不需要每一个企业客户自己去搭一个,比如我想开车,不需要自己造车。
我们希望更多开源模型能够发展起来,让整个AI市场发展的更加繁荣,只有一枝独秀也并不是特别健康的生态,我们会以千帆平台的能力去支撑所有想拥抱大模型的企业。我们有最好的平台,我们有信心在这个平台上做出来的文心一言的效果是最好的,文心一言的学习能力是最强的。我们能够给大家在通用的领域内提供工具,把你自己的数据放进去以后,你可以选择用一言,也可以选择第三方大模型,我们都会基于文心千帆大模型平台提供更好的服务。
07 文心一言如何控制数据安全?
记者:第一,算力可以买来,创新能力买不来,对于行业来说创新性体现在什么地方?第二,文心一言或者是文心千帆2B的大模型,在众多B端企业应用以后,怎样控制数据安全的问题?
侯震宇:第一个问题,需要做更多基础技术的研究,大模型不只是语言大模型,现在所谓的预训练大模型基本上都是基于transformer的架构。在这个基础之上,确实需要更多在理论上进行研究,比如为什么在千亿以上就会涌现。
第二个问题,大模型不管在实际应用还是模型研究都应该考虑安全的问题,好比一个新事物刚出来的时候,提供的服务者和使用者都不太了解使用的大模型如何是安全的,或者是如何提供更加安全的有边界的服务。就像电力,刚应用的时候,估计电死不少人,现在都想拥抱新事物,提供电力的服务商肯定希望,只有解决这个事,才能让它变的更加好用。所以我们现在给大家提供的,你真正的数据是可以产生出来你自己的模型版本,我们用微调,基本是你在文心一言的大模型去做,他也不会进入到文心一言大模型的最核心,提升的是你自己这个版本的文心一言大模型的能力,来避免大家觉得将数据推入到大模型后泄露,即便客户愿意把内容数据用大模型分享,我们也不一定所有的东西都会推到里面去。
我们遇到过一些这样的客户,有一些酒店的客户来用,我提供给A酒店,就不能说B酒店的事,即便是他愿意把这个东西都传到大模型,我们也要做各种各样的限制,不被B酒店使用或者是B酒店也不想使用,除了模型本身有大量工程工作,这些东西都在文心千帆大模型平台上。
记者:训练大概是多少台卡,千卡规模就够了是吗?
侯震宇:不能说千卡一定够或不够,一个是说需求有没有那么大,另外多少千卡或者是训多长时间。
大模型本身需要快速迭代,需要更多的资源,一千张卡肯定是可以训的,看你想不想花更多的钱更快得到结果。现在大量用开源模型,几乎很少有自己从头训练大模型的,包括有一些企业发布了大模型,也是基于开源大模型再训练,这些所需要的算力成本比你从头训练算力成本小很多,尽管数据确实很少,我们提供一个功能,就像百度训一个算力模型,需要那么长的时间,这个时代还没到,没有大家想象的那么贵。
08 国外同行的发展会对文心一言有影响吗?
记者:我接着创新的问题,谷歌以后不得不推迟自己与外界公布的成果,这个消息会让国内厂商感到恐慌吗?会觉得AI厂商在他的参考方向失去重要的坐标。
侯震宇:我非常尊敬谷歌在AI圈的地位,谷歌做了很多基础性研究。更多的影响是看有没有属于自己的东西,这些影响会比谷歌开不开源或者是公不公布自己的学术论文带来的影响更大。
对于百度来说,我们要有自己的东西,从芯片到系统,对于百度来说我们没有一定必须要依赖国外公司的东西,至少对我们来说没有什么恐慌的。我们也会参考、学习国外的研发思路,包括在大模型基础上、在生命科学领域我们都有非常领先的研究成果。不管是谷歌或者是其他公司也好,逐步走向封闭,对我们一点影响没有,所以我们不会恐慌。
记者:我还有一个成本上的问题,最近有报道去年OpenAI亏损额翻倍了,达到5.4亿美元,百度是不是也需要去经历同样的高额投入,还是百度有一套自己的成本?
侯震宇:我一直在讲大模型的应用不管是研发还是应用落地效果和成本是最重要的,我们从一开始就非常注重在成本和性能上的优化。
你说OpenAI的成本很高,也没说微软卖的太贵,百度内部至少此时此刻我们有全国最大的IB网络(无限带宽技术),同时我们也有国内最大的单个GPU集群。我们知道微软的毛利大概有60%,国内没有几家能达到60%的毛利,OpenAI的亏损是特定的场景以及在更早期的时候花费在“探路”的成本更高。
百度智能云讲AI普惠,从一开始就更加关注成本和可支付性,我们的大模型服务也会比国外公司的便宜。大模型对于百度来说是一定要做的,我们做了,并且会持续迭代,对于让大模型服务价格低到更多企业能接受,而且我们也能够让可支付的成本变的更加低。
对企业来说,第一个做大模型本身可能有点贵,用大模型没有那么贵。另外,不管是做再训练还是微调,所使用的数据规模和处理数据的算力规模都和自己去从零开始训练千亿大模型完全不在一个量级。
训练一个大模型,动辄三个月,一两千万美元,假如每一个企业都需要付出这么高的代价,门槛那么高,显然百度也不会进入这个市场。3月16日文心一言开始内测时,也不会有那么多企业排队申请邀测。
记者:我们看到微软在AI编程、代码安全方面有一些软件,这些软件用量也很大,想问一下咱们在这一块有没有类似的产品布局?
侯震宇:百度内部几乎所有的产品线早就都已经在内测文心一言大模型。模型需要不断数据积累。模型也需要人的反馈,有了更多用户的反馈,对于模型效果或者是对于通用模型效果提升是巨大的。这是文心一言不断提升、迭代的推动力。
09 让AI训练变得简单?
记者:最近在提的大模型思维链的问题,想问一下百度在这方面的举措。
侯震宇:我们现在在做,我们在之前的几次技术交流会上,展示的用文心一言做PPT、预定行程等案例,就体现了从思维链到行动链的能力,我们确实在帮助客户去做,在不断加强。
记者:如果我只是没有那么强的科技属性的企业,我想要大模型,提升我自己的业务能力或者是其他方面的能力,应该怎么做?我要怎么确定我能够用大模型做哪些事情?每个企业的诉求都不一样,每个都要做定制化吗?
侯震宇:这个话说起来有点长,是一个蛮有意思的话题,前面一直在讲我们在过去见了很多客户。第一阶段就是大家天马行空的想象,第二个从“天上”下来以后,开始认真思考这个东西对我有什么用,我怎么用,确实是这么一个过程,这个问题没有一个固定答案,所以我们通常会跟客户去讲:看看你现在有什么样的场景,有什么痛点,有哪些数据可以发挥价值,我们来帮你做一些分析,看看能不能用,应该怎么用。
深入产业跟客户聊的过程,对我们来说有一定的成本。但还好,更多的是为客户科普相关知识,,普及完以后,客户结合自身场景,就知道自己该怎么用了。
可喜的一点,我们现在文心千帆大模型平台就是一个标准化平台,可以给各种客户在这个平台上提供更好的工具,让AI落地比较容易。以前真的需要拿着客户各种各样的数据去训一个模型出来,需要大量的数据,才有一个模型出来,还要有大量调优。
现在在一个已经训练好的预训练大模型基础上,需要不太多的数据。数据本身的成本很高。现在不需要那么多数据,在我们这个平台上基于大模型就能够得到,这对做AI从业者简直是福音。
以前的客户场景很碎片化,很分散的,虽然现在也很分散,但是现在可以基于大模型的平台提供刚才说的各种工具,用一个比较低的门槛去把这件事解决掉。
我们把大模型服务放在公有云上,做成一个标准化的产品,可以让定制化需求会变的越来越小。现在还属于大模型市场的早期阶段,总体来说成本在大幅度下降,对于百度来说确实是一个好事。