大模型能力与应用场景思考
本周去杭州的阿里参加了一个人工智能研讨会。听了几天的讲座和一晚上的讨论,大家都很热烈但也充满疑惑。大模型看上去很美,到底怎么落地似乎都在等待答案。
前言 #
上周去杭州开人工智能研讨会之前,写了一篇文章《大模型是连接主义的胜利吗?》。这篇文章实验了大模型对复杂规则的推理能力,总结了两个观点:
- 不能过于迷信大模型的能力,它并不是万能的。大模型基于相关性,不是因果性。它需要传统的机理模型、符号推理等弥补自身缺陷。比如大模型并不能回答你现在是几点,所以它也不能聪明到推导出炼钢作业计划。
- 大模型的回答普遍不精确、不幂等、不实时、不可解释,其结果不能直接用在工业现场反馈到现实世界,在工业领域应用有限。
上面是我的观点并非得到实证,所以很期望这个研讨会能给出答案。
培训概述 #
参加了三天的培训课,各位专家从AI的发展历程、原理、应用场景、甚至哲学层面去理解和探讨人工智能对当前世界的影响。培训内容不限于大模型,还包括了很多传统模型的介绍和应用。但显然参会者都对大模型抱有更大的热情,提问也很积极,在晚上的讨论会上大家也分享了很多自己企业的应用情况。比如一汽用视频方式演示了大模型在企业内的应用,着重介绍了如何赋能研发过程,在编码、项目管理、设计等层面大模型都发挥了很大价值。
但总体参与下来,感觉各大企业或多或少地在做三件事:
- 造锤子
- 拿锤子找钉子
- 拿锤子一直在砸那几颗钉子
这里的造锤子是指打造大模型,比如中国移动的九天、中国电信的星辰,也打造了一些周边的应用生态。钉子是指应用场景,尽管有中国电科的专家分享了将近30多个应用场景,但大多跟大模型没有关联,还是传统模型的应用。一直在砸的那几颗钉子是指与语义或文本理解相关的应用,如:智能客服、咨询等。这些应用场景在很多企业作用有限。
目前各大企业在做的事情限于以上场景,覆盖大模型的L0到L2级别。
对于L0,如阿里等可以提供基础算力,这些是有硬件资源的大型互联网公司的主战场,本身是算力、分布式网络以及基础服务能力的资源整合。该商业价值明确,以按小时的方式提供算力租用为上层应用服务。
对于L1,则如智谱等发布大模型,同时也有阿里提供支持预训练、微调等服务,将大模型的训练过程标准化、流程化,最大限度降低训练门槛。该商业价值也很明确,为行业大模型提供训练的方法,“授之以鱼”或者“授之以渔”,都可以交付商业价值。
对于L3,则开发某领域的专业Agent,为用户提供应用价值,如:智能客服、政务咨询、数字人等。L3目前充分利用大模型的语义理解力,在文本、语音和视频等多模态方面发挥商业价值。
反思与观点 #
大模型正深刻影响人与机器的交互方式 #
大模型最大的能力在于语义理解力,它是通过单词之间的相关性统计获得的涌现能力。这个能力在翻译、文本理解、任务指令方面能发挥极大作用。我们同机器的交互方式发生重大变化。人类科技的进步,某种程度上可归结到与机器交互方式的变革上,从物理的按钮、手写笔、手、动作到语音、文字、眼球甚至到脑波(人机接口),逐渐有了意识控制物质的意味。
回到软件应用上,大模型促进了使用问答聊天的方式来与系统进行交互。在用户体验上发生本质变化,体现出了便利性和优化性。我们应充分利用大模型的语义化交互能力,融合到我们的软件产品中。未来随着大模型技术的不断发展,我们有理由相信,人与机器之间的交互方式将会变得更加智能化、自然化,为人类的生活带来更多的便利和可能。
不能过于迷信大模型的能力 #
**大模型的出现并没有解决掉以前未解决的难题,它的作用属于锦上添花。**我们面临的问题是钢铁行业的计划调度问题,运筹学工程化难题,大模型对此也无能为力。同时,大模型需要依赖传统的符号推理,无法取代以前解决问题的方法。
比如:在炼钢的计划调度问题上,大模型虽然能够处理大量数据并提供一定的优化建议,但它依然无法解决复杂的运筹学问题。这些问题通常需要精确的数学建模和符号推理,而这些是大模型目前难以胜任的领域。运筹学的工程化难题涉及到具体的资源配置、生产计划和物流优化等,这些需要高度专业化的算法和方法,大模型在这方面只能提供辅助支持,而不能从根本上解决问题。
研讨会分发了一些阿里的通义千问大模型的使用案例。其中一个案例是工业机器人如何利用大模型完成码垛任务。码垛需要规划路径。这里的方法是让大模型根据场景生成代码,然后调试代码后运行得出结果,再指导机器人完成码垛。该应用场景巧妙地利用了大模型的代码生成能力,但生成的代码充满了不确定性,能否顺利得出结果还是未知数,方案的可行性非常存疑。
故大模型在某些方面具有显著的优势,但它并不是万能的工具。我们需要理性看待它的能力,充分结合传统的运筹学和符号推理方法,才能在复杂的工业领域中取得实质性的进展。大模型可以作为一种辅助工具,为我们提供新的思路和方法,但在面对具体的工程化难题时,传统方法的作用依然不可替代。
大模型的商业价值仍然模糊 #
尽管大模型在许多领域展现出了强大的潜力和应用前景,但其实际商业价值尚未完全显现。目前来看各大企业都在布局大模型基座或应用,赋能研发过程和客服等领域,但ROI到底如何并没有得到验证。
大模型的黑箱特性也限制了其商业应用。在研讨会的提问中也有多人问起关于大模型的准确性问题。企业在实际应用中,需要对决策过程有清晰的理解和掌控。如果不够精确,特别是在工业领域是不能接受的。
大模型的性能也高度依赖于数据的质量和数量。与其说是大模型的价值,不如说是数据的价值。对钢铁行业来说,最宝贵也依然是数据本身。数据不足或数据质量不高,都会直接影响大模型的表现。我们需要投入大量资源来确保数据的可靠性。
另外甚至垂直大模型的必要性也有争议,研讨会有2位专家对此提出了质疑。即便是垂直大模型成立,那么训练的过程也应该是能借助成熟的训练平台低成本地执行,并不需要从头再来。另外垂直大模型如何赋能钢铁行业和盈利,也是不确定的,还有很长的路要走。
我个人认为未来大模型的价值在于垂直行业的agent,在于使用agent自主决策的应用,在于agent下的tools能解决什么问题。产品的价值依然还是以前的价值,只是交互方式发生了变化。
大模型作为基础设施还在不稳定期 #
大模型作为基础设施目前还处于不稳定期,每天都有大量的大模型发布,新的方法和理论层出不穷。在这个阶段,对于钢铁行业来说,对基础设施的投入可能会面临得不偿失的情况。毕竟大模型的发展和稳定需要时间,并且需要大量的资金和资源进行支持和完善。
大模型基建应该由大厂完成。一切方法论稳定的基础设施和平台服务都会被市场化,这些也不应该是垂直行业涉足的领域。
因此,当前钢铁等垂直行业的重点和核心竞争力依然是在应用上。通过将大模型技术与钢铁行业的实际业务相结合,开发出符合行业需求的应用程序和工具,可以更好地提升生产效率、优化资源配置、改善产品质量。这些应用将直接面向垂直市场,为企业带来实际的价值和回报。
我们应该做什么 #
准备好数据 #
我们应充分结合自身的行业特征以及中立地位,将工艺数据、材料、冶金流程、装备等数据收集好、处理好、标注好。无论大模型如何发展,大模型的应用方法如何变化,唯有数据才是最根本的。这些高质量的数据能够更好地支持大模型的训练和应用,从而实现更精确的预测和决策,在行业占得先机。即便是没有垂直大模型,这些数据也可以轻松利用现有的RAG机制实现一个行业知识库。
夯实业务基础 #
深刻理解与抽象我们目前的业务,融合冶金流程的思想,将现有的软件功能进行解析与重构,使它们能够产品化、模块化、流程化,更好地适配不同的需求和场景。这样当大模型生态足够丰富时,我们可以轻而易举地将各种模块以tools的方式融入到大模型中,建立大模型在冶金方面的应用工具,完善整个应用生态,实现更加智能化的冶金生产和管理。毕竟我们对大模型的功能业务是最熟悉的,也是我们的竞争优势和根本能力。
研究大模型的开发模式 #
随着大模型技术的不断进步和应用范围的扩大,开发者需要不断学习和探索新的开发方法和技术,以应对未来的挑战和机遇。了解大模型的开发生态,可以帮助开发者更好地理解其内部机制和工作原理,从而更高效地利用大模型开发和优化我们的产品,提高我们的工程化能力。比如了解ReAct的plan能力,如何将现有功能实现tools化,如何使用dify等等。
我们开发者应该保持对新技术和趋势的敏感性。随着技术的不断演进,新的开发模式和工具不断涌现,开发者需要及时了解并适应这些变化,以保持自身的竞争力和创新能力。只有不断学习和进步,才能在激烈的市场竞争中立于不败之地,为我们的产品开发做出更大的贡献。
结合业务开发agent进行尝试 #
目前大模型生态足够丰富,有很多免费api可供使用。我们可以结合当前的应用场景如:炼钢作业优化调度、仿真评价等,将一些业务模块化和工具化。使用类似于 dify 等 无代码开源项目帮助我们更快地验证想法和能力。充分利用开源社区的项目,我们可以更加高效地开发出符合实际需求的 agent,并在实际应用中进行验证和调整。
这样在不断地尝试和实践中,我们可以积累丰富的开发经验,保持技术敏感,为钢铁行业的智能化转型提供更多的支持和帮助。同时,我们也可以借鉴其他行业的经验和做法,加速产品交互方式的创新和产品价值的提升,更好地应对未来大模型对钢铁行业带来的冲击,保持一定的竞争力和领先地位。