AI项目的真相：训练只占2%，剩下的98%都在“整理现实”_AI资讯

说实话，我之前一直以为 AI 项目最难的部分是训练——找一个够好的模型，调参，跑实验，不断迭代。
结果有一天看到特斯拉一位叫 Yun-Ta Tsai 的工程师发了一条帖子，彻底打了我的脸。
他说，他做 AI 的时间是这么分的：
评估效果占 50%，清洗数据占 40%，把各种东西接在一起占 8%——
训练本身？2%。
这条帖子被转发了两千多次，我理解为什么，因为大家都没想到这个数字。但更让人不舒服的，是他接下来说的那句话。

他说：数据的质量，决定了 AI 能学到什么。这个上限，你没办法靠换模型来突破。
我第一次看到这个，老实说有点抗拒——这不会吧，模型越强不就越能处理杂乱的数据吗？
但仔细想了想，确实是这个逻辑。更强的模型确实能消化更多噪声，但那个"消化"的过程，本质上还是在垃圾堆里翻找——上限没变。
你给一个人一堆前后矛盾的教材，哪怕他再聪明，学出来的东西也是乱的。因为他的"学习方向"从一开始就被你搞歪了，这不是努力的问题，是方向本身就错了。
AI 也一样。你喂进去的数据，定义了它能学到什么。数据质量不行，再强的模型也是在垃圾堆里找宝贝。

然后他还说了一件事，我觉得更值得琢磨。
他说，他每天都在想"标签还对不对"这个问题——那些以前打好的标注，到底还能不能用？
乍一听好像是个很无聊的工程细节，但细想起来真的有点让人后背发凉。
因为大多数人做 AI 项目，数据标注完就放那儿了，默认它是对的。但真实世界是在变的。三年前你觉得"这是一个正确答案"，三年后完全可能变成了错的——不是数据错了，是世界变了，你的定义过时了。
Yun-Ta 在特斯拉做自动驾驶，路上每天都有他没见过的新情况。旧的标注框架根本描述不了那些新场景。他不重新想这些问题，AI 就只能学一套已经跟现实脱节的东西。
说白了——你以为你在训练 AI，其实你只是在教它记忆一套你自己也不确定还对不对的答案。

这里有一个比喻我觉得特别准。
你要教一个学生学线性代数，但发给他的教材目录全是乱的——第一章讲量子力学，第二章跳到哲学导论，第三章突然说微积分……
这个学生哪怕天才也没用。不是他学不会线性代数，是这本书压根就没把"线性代数是什么"讲明白。
标签，就是这个目录。
目录乱了，AI 就只能死记硬背，背的还是噪声。

我知道这篇文章读到这里，可能很多人会觉得：
"好，我懂了，那怎么办？"
老实说，方法不复杂，但要做到很反人性——
你需要定期翻出那些"已经标注好"的旧数据，带着"这真的对吗"的眼神重新看一遍。不是走流程，是真的怀疑它。问自己：这条标签在教 AI 学什么？它今天还准确吗？有没有哪里的定义其实是含糊的？哪怕只是随机抽一批，盯着那些"模型总是犯错"的样本往回追溯，往往就能揪出标签本身的问题。
另一件事是看看自己的时间花在哪里。评估和数据清洗，加起来有没有超过一半？
如果没有，你大概率不是在做 AI，你是在做一个"看起来很努力但方向不对"的项目。

Yun-Ta 这个人每天在真实道路上跑系统，不是在实验室刷榜单。他给出的结论只有一句话：至少在以真实世界为对象的感知任务里，训练不是瓶颈。我们整理现实的能力，才是瓶颈。
我觉得这句话值得贴在所有 AI 项目的白板上。
不是叫你别关注模型——而是说，在你花时间追下一个更强的模型之前，先回头看看你手里的数据，看看你对问题的定义是不是还对。

那才是真正决定结果的地方。

AI项目的真相：训练只占2%，剩下的98%都在“整理现实”

相关推荐