(资料图)
·就像站在高铁站台上,高铁朝人类快速开过来,人类定义这个站点就是AGI,结果高铁没停,一下子开过去了。所以AGI要么离人类很远,要么一下子就过去了。
·大模型是一个表达器,今天,通过挖掘人的意图,模型能力可以进一步提升,进而继续做大模型。中国大模型的发展一定会用场景倒逼多模态大模型开发。
商汤科技董事长兼CEO徐立。
1964年,科幻作家亚瑟·克拉克预测未来,人类会成为高级生命的垫脚石。2019年,马斯克在上海说过,碳基生物是硅基生物的引导程序。人类总是致力于通往AGI(Artificial General Intelligence,通用人工智能),但哪一刻才是真正的AGI?未来的超级智能会对人类产生威胁吗?
4月9日,在商汤科技发布大模型“全家桶”前夕,商汤科技董事长兼CEO徐立对澎湃科技(www.thepaper.cn)表示,人类一直在朝着更强大的智能发展, 智能达到一定水平时确实需要坐下来一起探讨是否要限制智能。目前技术上仍然没有实现超级智能的路径,人工智能还没有发展到令人恐慌的地步,当下要解决的是如何让模型更通用。
AGI要么离人类很远,要么一下子就过去了
在这一轮人工智能热潮中,OpenAI带着ChatGPT出圈,大模型、大算力的发展指向了AGI之路。人类总是致力于通往AGI,但哪一刻才是真正的AGI?徐立打了个比方,“就像站在高铁站台上,高铁朝人类快速开过来,人类定义这个站点就是AGI,结果高铁没停,一下子开过去了。所以AGI要么离人类很远,要么一下子就过去了,和人类相近的时刻根本测不出来。”
“有的人讲AGI,但不讲Artificial General Intelligence,而是讲Digital Super Intelligence(数字超级智能),到了AGI这个时刻,它还是人工的吗?这很难说。如果它真的到了人的智能水平,谁去按下按钮,告诉它停在这里,智能不能再高了?”徐立说,AGI本身的定义是模糊的,所谓的AGI在于人类如何定义它,如果拆分成行业里的若干任务,满足行业的要求,就可以认为完成了行业的AGI。
徐立认为,自然语言模型的参数爆发带来的“涌现能力”(Emergent Ability)在这一轮人工智能浪潮中胜出。在大型语言模型(LLM)中,涌现能力是指当模型规模跨过阈值,对此类任务的效果就出现突然的性能增长。人们已经看到大模型涌现出了思维链的能力。
“谷歌发明了Transformer模型、RLHF(Reinforcement Learning from Human Feedback,带有人类反馈的强化学习)、CoT(Chain-of-Thought,思维链)。最后OpenAI不断尝试,ChatGPT突然临界可用了,就好像所有概率都增长了0.1%,最后连乘起来的误差就小。”
“对于涌现能力的解释,是从量变到质变,它不是突变性的涌现。”徐立假设,将一个问题分解成多个子问题,如果每个子问题的准确率80%,连乘起来成功的概率很低。如果每个问题的准确率提升到85%,连乘后就出现了涌现能力。“目前看到的是大模型积累的准确率提升,形成了思维链的能力,这种涌现从数学角度上是可解释的。”
尽管很难说未来的涌现到底会不会存在,但他表示,目前技术上仍然没有实现超级智能的路径,没有看到真正的智能涌现是什么表现。当被问及未来超级智能是否会威胁人类时,他认为,智能达到一定水平时,确实需要坐下来一起探讨是否要限制智能。新时代的人工智能三要素是算法(参数)乘以数据等于算力,算力规模决定了模型能力。只要控制算力规模,就控制了智能。但人工智能还没有发展到令人恐慌的地步,当下要解决的是如何让模型更通用。而OpenAI带给行业的一个革命性认知变化是带来了大模型开发的新范式,就像当年的深度学习一样。大模型是一个表达器,今天,通过挖掘人的意图,模型能力可以进一步提升,进而继续做大模型。
自然语言模型是桥梁,激活其他业态模型
国内科技企业抢滩大模型开发,目前仍处于追赶阶段。“走好自己的路,就是要有一些差异化。所谓的差异化就是用好行业自身的禀赋。”徐立认为,中国大模型的发展一定会用场景倒逼多模态大模型开发,这种多模态大模型具有行业差异性。
而要真正达到大模型开发的“拐点”,就要设定一个预期的任务集或任务目标,完成真实场景中的系列任务,在这样的垂直场景中能够通过图灵测试。“目前来看,大家都在往前走,至于走成什么样,其实还是要看大家所处的行业。不存在一个泛在式的大模型来解决所有问题。”
2019年起,商汤布局10亿参数规模的视觉模型,2023年4月10日发布“日日新”大模型体系,涵盖1800亿参数中文大语言模型应用平台“商量”、超10亿参数自研文生图生成模型“秒画”、AI数字人视频生成平台“如影”、3D内容生成平台“琼宇”(场景生成)、“格物”(物体生成)等。
自然语言模型作为桥梁,可以激活其他业态的模型和应用。徐立表示,商汤用千亿参数级的自然语言模型把其他模型串起来形成一个完整的任务集是第一步。“在这个过程当中,我们会看到有更多的多模态数据喂到网络中,呈现完全新的能力,以此开发下一阶段更加混合式的多模态模型。”
“日日新”大模型体系针对B端用户,目的是和用户的使用习惯完整连接,用更多B端场景挖掘模型的大能力,并提供新的多模态训练框架,训练下一阶段的多模态大模型,通过细分场景端到端的迭代和应用,帮助多模态大模型的发展。“未来的模型趋势是一个行业里面可能有1-2个大模型,剩下的小模型、行业模型非常多。实际上自然语言模型也好,多模态模型也好,未来都是这个趋势,大模型会开发出来,在每一层可以做很多模型叠加,对最后的推理来说也会有很大的性能提升。”
在人工智能领域,“模型即服务”不断被提及,徐立也谈到了大模型的商业化,模型的训练和部署、模型下游的应用及模型的增量训练,整套服务叠加在人工智能基础设施商汤AI大装置上,“我们的收益来自于训练模型、部署模型、推理模型,并且在模型上面还提供了一些增量的服务。”此外,收益还来自垂直细分领域,如金融、医疗、商业直播等。“在B端的应用当中,肯定会有很多的生产力工具先被发展出来,之后逐步能够有C端应用出来,就会百花齐放。”