
到2030年,大语言模型的成本效益将较2022年开发的同等规模早期模型高出多达100倍
商业与技术洞察公司Gartner预测,到2030年,生成式AI提供商对1万亿参数大语言模型(LLM)的推理成本将比2025年降低90%以上。
AI Token是生成式AI模型处理的数据单位。本次分析中,1 Token等于3.5字节数据,约合4字符。
Gartner高级研究总监Will Sommer表示:“推动这一成本下降的因素包括半导体和基础设施效率的提升、模型设计方面的创新、芯片利用率的提高、专用推理芯片的普及以及针对特定用例的边缘设备应用。”
基于这些趋势,Gartner预测,到2030年,大语言模型的成本效益将比2022年开发的同等规模早期模型高出多达100倍。
该模型预测结果分为两类半导体场景:
前沿场景:模型处理基于前沿芯片的表征。
传统混合场景:模型处理基于以Gartner预测为基准的现有半导体混合表征。
由于算力较低,“混合”预测场景的建模成本远高于“前沿”场景(见图一)。
图一、Gartner生成式AI推理成本场景预测

来源:Gartner(2026年3月)
Token成本下降不会推动前沿智能普及化
然而,生成式AI提供商的Token成本下降不会完全传导给企业客户。此外,前沿智能所需的Token数量将远超当前主流应用。例如,代理式模型每项任务所需的Token数量是标准生成式AI聊天机器人的5至30倍并且能够执行比人类使用生成式AI更多的任务。
尽管Token单位成本的下降将推动生成式AI技术的进步,但这些进步将导致Token需求急剧增长。由于Token消耗增速快于成本降幅,预计整体推理成本仍将上升。
Sommer表示:“首席产品官(CPO)不应将商品Token成本的下降与前沿推理的普及混为一谈。随着商品化智能的成本趋近于零,支持高级推理所需的计算和系统资源依然稀缺。如果当前首席产品官用廉价的Token掩盖架构的低效,那么将来会在实现代理式应用规模化上遇到难题。”
为了创造价值,平台需要能够编排多种不同模型的工作负载。常规的高频任务必须发送到更高效的小型和领域专用语言模型,这些模型如果能够与专业工作流对齐,则其性能会优于通用解决方案且成本仅为后者的一小部分。此外,必须严格管控前沿级模型的高成本推理并且仅将其用于高利润、复杂的推理任务。
Gartner——全球权威的AI评估与洞察提供者
Gartner是企业C级高管与技术提供商实施AI战略,实现核心业务优先事项的过程中,不可或缺的合作伙伴。Gartner洞察的独立性与客观性,为客户决策提供信心保障,助力其充分挖掘AI潜力。众多C级高管客户正通过Gartner专有的AskGartner AI工具,确定如何在其业务中运用AI。凭借逾2500名商业与技术专家、6000份书面洞察以及1000余个AI应用场景与案例研究,Gartner已成为全球AI领域的权威机构。更多信息请访问此处。
关于Gartner
Gartner(纽约证券交易所代码: IT)为企业机构提供切实可行的客观洞察,助力企业机构在最关键的优先事项上做出明智决策,取得出色业绩。欲了解更多信息,请访问http://www.gartner.com/cn。