
作者:电子创新网张国斌
过去一年,一个越来越流行的叙事正在 AI 行业内部迅速扩散:由于高质量的人类真实数据(Human-generated data)几乎被耗尽,开发者正大规模转向使用 合成数据(Synthetic Data),即“用 AI 训练 AI”。笔者曾在不止一次的会议上听到研究人员、产业人士提过或者正在做这样的事情。

在语言模型、图像生成、代码补全等领域,这条路径看起来颇为成功,也正在被视为“规模瓶颈之后的新增长曲线”。这条路是对的吗?如果把视角转向自动驾驶,这个叙事会立刻显露出一个根本性问题--并非所有 AI,都可以被“AI 生成的数据”持续喂养。
自动驾驶,恰恰是那个最残酷、也最具警示意义的反例。
一、模拟数据 vs 真实数据:差异不在“真假”,而在“权重与责任”
在自动驾驶领域,工程师从来不否认模拟和合成数据的价值。真正的分歧在于:
它们究竟能替代真实世界到什么程度。
关键区别并不在于“是否真实”,而在于两点:
统计权重是否来自真实世界
错误是否需要承担真实世界责任
模拟数据可以覆盖“可能发生什么”,
真实数据决定“什么最常发生、最危险、最不能犯错”。
而自动驾驶系统最终要面对的,并不是“可能性空间”,而是概率分布与责任边界。
二、哪些模拟数据在自动驾驶中是“真正可用”的
1. 感知层:高度可用,但永远只是前菜
在感知层,模拟和合成数据的价值毋庸置疑:
物体外形与几何结构
光照、雨雪、雾霾等物理扰动
传感器噪声、遮挡、模糊
这些问题本质上是物理世界的连续问题,可建模、可增强、可规模化生成。
因此,模拟数据非常适合用于:预训练、数据增强、鲁棒性测试
但前提只有一个:最终必须用真实世界数据完成分布校准。
2. 系统稳定性测试:有用,但不决定“会不会开车”
模拟在以下场景中同样有效:极端天气叠加极端工况、多传感器失效组合、异常输入下的系统退化行为。
这些测试回答的是一个问题:系统会不会崩溃,但它并不回答更关键的问题:系统在复杂现实中,会不会做出“正确且可负责”的驾驶决策。
3. 冷启动阶段:只能加速起跑,无法决定终点
模拟数据确实可以:缩短模型收敛时间、提供基础行为先验、降低早期真实道路试错成本,但它只能解决“能不能更快开始跑”,而无法决定“能不能跑到终点”。
三、哪些数据,模拟在自动驾驶中“永远不可替代”
1. 决策层:责任无法被模拟
自动驾驶最困难的部分,从来不在“看到什么”,而在于:在信息模糊、冲突、不完整的情况下,应该为谁让步、为谁承担风险。
例如:是优先避让行人,还是避免追尾?是相信路权,还是预测对方违规?是激进通过,还是保守刹停?
这些决策:没有标准答案、深度绑定法律、社会规范和事故责任、模拟无法生成真实的社会博弈。
2. 长尾问题:概率权重无法被想象出来
模拟可以“构造”极端事故,但它永远不知道哪些极端最常出现哪些只是工程师的想象;而自动驾驶真正需要学习的是:在最常见的危险场景中,做出最稳妥的选择。概率权重,只能由真实世界给出。
3. 人类驾驶的隐性规则,几乎无法模拟
现实道路中存在大量未被明文化的规则:眼神交流、驾驶员之间的默契让行、合法与非法之间的灰色操作
这些行为:不存在于交通法规、难以被工程师显式建模,却直接决定事故是否发生、责任如何划分,所以模拟环境,很难真正复现这种人类社会行为结构。
四、为什么真实世界“校准”不可跳过
即便大量使用模拟数据,自动驾驶系统仍然必须在真实世界完成三项关键校准:概率分布校准、哪些情况常见,哪些罕见但高风险。风险偏好校准--哪种错误更不可接受,激进与保守的边界在哪里。
闭环责任校准--错误 → 后果 → 责任 → 修正 → 再验证。这是一条只能在真实道路上完成的闭环。
五、更深一层的问题:AI 用 AI 训练 AI 的天花板在哪里?
从更高层看,这并非工程问题,而是方法论问题。
生成式 AI 的本质是:在已知分布内进行高质量补全。而自动驾驶面对的是开放世界、非平稳分布;由社会博弈驱动的行为系统。这意味着,如果长期脱离真实世界输入:模型会在自己的认知闭环中不断自洽、表现看似越来越好,却可能越来越偏离现实。这在承担真实世界责任的系统中,是不可接受的。
六、自动驾驶给整个 AI 行业的一个冷静提醒
自动驾驶正在用最残酷的方式提醒整个 AI 行业:模拟数据的价值在于“加速”,真实数据的价值在于“定性”。
前者决定效率,后者决定资格。当 AI 系统开始进入真实世界、开始影响生命安全、开始承担法律与社会责任时——时间、规模与真实运行,将成为任何模型能力之上的终极约束。
这也是为什么,在自动驾驶领域,真正的护城河从来不是“谁更会生成数据”,
而是:谁能更长时间、更大规模地活在真实世界里。
还有一个严峻问题,那就是“用 AI 训练 AI”。虽然这种方式能够极大地降低成本并填补数据缺口,但也带来了独特的风险--核心挑战:模型崩溃(Model Collapse)
当 AI 长期且重复地在自身生成的内容上进行递归训练时,会出现以下现象:
模型崩溃: AI 会逐渐遗忘真实分布中的“长尾”细节(即罕见但重要的信息),输出开始趋向于平庸的平均值。那如何避免“崩溃”?
1、必须在合成数据中按比例混入真实的人类数据,以保持模型对现实世界的感知。
2、通过控制 AI 生成特定领域的异构数据(如不同文体、不同逻辑),来增加合成数据集的广度。
3、建立严格的 AI 自动审核机制(如 InstructLab),剔除低质量或带有严重偏见的内容。
“用 AI 训练 AI”也会导致误差叠加: 初始模型的微小错误或偏差会在每一代训练中被放大,最终导致模型输出变得荒诞、无意义(Gibberish)。
此外还有MAD 综合征,研究者称之为“模型自噬障碍”(Model Autophagy Disorder),如果不加入足够的新鲜真实数据,模型的质量(精度)或多样性(召回率)将不可避免地下降。
总之要对保持“用 AI 训练 AI”保持警惕,合成数据决定效率,真实数据决定生死;“AI 训练 AI”可以是工具,但永远不能成为信仰。
注:本文为原创文章,未经作者授权严禁转载或部分摘录切割使用,否则我们将保留侵权追诉的权利