皖ICP备15015255号-1
马斯克警示 AI 训练已至数据瓶颈,认为合成数据是未来关键,以下是具体介绍:
关于数据瓶颈的观点
数据资源枯竭论:马斯克在与 Stagwell 董事长马克・佩恩的现场讨论中表示,“我们现在基本上耗尽了人类知识的累积总和…… 用于 AI 训练,这基本上发生在去年”。前 OpenAI 首席科学家伊利亚・苏茨克维尔也曾在 NeurIPS 机器学习大会上提出 “数据峰值” 的概念,意味着 AI 系统依赖的高质量真实世界数据的有限可用性。
数据短缺的原因:一方面,随着 AI 模型日益复杂和对数据需求的不断增加,人类产生新数据的速度无法满足 AI 训练的需求。另一方面,部分数据所有者对 AI 使用其数据存在担忧,限制了数据的使用。
合成数据成为关键的依据
科技巨头的实践:微软的 Phi-4 模型结合了合成数据和真实世界数据集进行训练;谷歌的 Gemma 模型在合成数据和真实数据的混合下进行了微调;Meta 的 Llama 系列 AI 模型受益于 AI 生成的数据集;Anthropic 的 Claude 3.5 Sonnet 模型部分使用合成数据进行训练以提高性能。
合成数据的优势:
成本效益:如 AI 初创公司 Writer 几乎完全使用合成数据开发了其 Palmyra X 004 模型,成本仅为 70 万美元,而类似 OpenAI 的 GPT 模型据报道需要 460 万美元。
隐私保护:合成数据不与真实个人相关,避免了与真实世界数据集相关的隐私问题。
增强可扩展性:生成合成数据使 AI 开发者能够快速创建针对特定训练需求的数据集。
合成数据面临的挑战
模型崩溃风险:研究表明,过度依赖合成数据可能导致模型崩溃,AI 系统可能会失去创造力,产生越来越偏见或重复的输出。因为合成数据源自现有的 AI 模型,任何这些模型中的偏见或局限性都会随着时间的推移而被放大。
真实性和有效性问题:生成模型可能会引入偏见或错误,不同于高质量的真实数据。如何确保合成数据的真实性和有效性,成为未来研究的重要方向。
法规和政策不完善:合成数据的应用可能对数据隐私产生影响,目前相关的法规和政策还需要逐步完善,以适应这一新局势。