AI项目的真相:训练只占2%,剩下的98%都在“整理现实”

说实话,我之前一直以为 AI 项目最难的部分是训练——找一个够好的模型,调参,跑实验,不断迭代。
结果有一天看到特斯拉一位叫 Yun-Ta Tsai 的工程师发了一条帖子,彻底打了我的脸。
他说,他做 AI 的时间是这么分的:
评估效果占 50%,清洗数据占 40%,把各种东西接在一起占 8%——
训练本身?2%。
这条帖子被转发了两千多次,我理解为什么,因为大家都没想到这个数字。但更让人不舒服的,是他接下来说的那句话。

他说:数据的质量,决定了 AI 能学到什么。这个上限,你没办法靠换模型来突破。
我第一次看到这个,老实说有点抗拒——这不会吧,模型越强不就越能处理杂乱的数据吗?
但仔细想了想,确实是这个逻辑。更强的模型确实能消化更多噪声,但那个"消化"的过程,本质上还是在垃圾堆里翻找——上限没变。
你给一个人一堆前后矛盾的教材,哪怕他再聪明,学出来的东西也是乱的。因为他的"学习方向"从一开始就被你搞歪了,这不是努力的问题,是方向本身就错了。
AI 也一样。你喂进去的数据,定义了它能学到什么。数据质量不行,再强的模型也是在垃圾堆里找宝贝。

然后他还说了一件事,我觉得更值得琢磨。
他说,他每天都在想"标签还对不对"这个问题——那些以前打好的标注,到底还能不能用?
乍一听好像是个很无聊的工程细节,但细想起来真的有点让人后背发凉。
因为大多数人做 AI 项目,数据标注完就放那儿了,默认它是对的。但真实世界是在变的。三年前你觉得"这是一个正确答案",三年后完全可能变成了错的——不是数据错了,是世界变了,你的定义过时了。
Yun-Ta 在特斯拉做自动驾驶,路上每天都有他没见过的新情况。旧的标注框架根本描述不了那些新场景。他不重新想这些问题,AI 就只能学一套已经跟现实脱节的东西。
说白了——你以为你在训练 AI,其实你只是在教它记忆一套你自己也不确定还对不对的答案。

这里有一个比喻我觉得特别准。
你要教一个学生学线性代数,但发给他的教材目录全是乱的——第一章讲量子力学,第二章跳到哲学导论,第三章突然说微积分……
这个学生哪怕天才也没用。不是他学不会线性代数,是这本书压根就没把"线性代数是什么"讲明白。
标签,就是这个目录。
目录乱了,AI 就只能死记硬背,背的还是噪声。

我知道这篇文章读到这里,可能很多人会觉得:
"好,我懂了,那怎么办?"
老实说,方法不复杂,但要做到很反人性——
你需要定期翻出那些"已经标注好"的旧数据,带着"这真的对吗"的眼神重新看一遍。不是走流程,是真的怀疑它。问自己:这条标签在教 AI 学什么?它今天还准确吗?有没有哪里的定义其实是含糊的?哪怕只是随机抽一批,盯着那些"模型总是犯错"的样本往回追溯,往往就能揪出标签本身的问题。
另一件事是看看自己的时间花在哪里。评估和数据清洗,加起来有没有超过一半?
如果没有,你大概率不是在做 AI,你是在做一个"看起来很努力但方向不对"的项目。

Yun-Ta 这个人每天在真实道路上跑系统,不是在实验室刷榜单。他给出的结论只有一句话:至少在以真实世界为对象的感知任务里,训练不是瓶颈。我们整理现实的能力,才是瓶颈。
我觉得这句话值得贴在所有 AI 项目的白板上。
不是叫你别关注模型——而是说,在你花时间追下一个更强的模型之前,先回头看看你手里的数据,看看你对问题的定义是不是还对。

那才是真正决定结果的地方。