您现在的位置是:首页 > 科技 >正文
人类数据告急,OpenAI用AI喂AI,奥特曼:未来所有数据变合成数据
发布时间:2023-08-13 17:16:58姚河璐来源:
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI
人类数据缺缺缺,AI被迫开始吃AI生产的数据了!
这是微软、OpenAI等一众AI前沿公司面临的现状。
他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据,然后现在……这些数据快被用完了。
BUT,要训练更好的大模型,多少数据都不够。
据《金融时报》介绍,不少公司正把大模型生成的结果、也就是所谓的合成数据(Synthetic data),喂给参数量更小的大模型吃,发现效果还不错。
对于使用合成数据,OpenAI的CEO Sam Altman不仅不介意,还放话“未来所有数据都将变成合成数据”。
估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为:
合成数据可能加速通往“超级智能”AI系统的道路。
所以,究竟哪些大模型已经在用合成数据了,这些合成数据又是从何而来?
大AI合成数据,小AI吃
这些所谓的合成数据,本质上是用当前表现较好的大模型生成的数据,经过人工调整后,再喂给稍微小一点的大模型。
例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话,并将它们生成的结果做成合成数据。
这两个大模型分别扮演“数学老师”和“学生”,正在进行一堂虚拟的数学教学。同时,Cohere安排一个人类员工在旁边监督对话生成。
一旦对话出现错误,人类员工就会插手对文本进行修正。
尽管确实还需要人力,但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。
那么,什么样的大模型会用到这些合成数据呢?
微软研究院最近有研究表明,合成数据可以用于训练比GPT-4或PaLM-2稍微小一点的语言模型。
以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例,这个数据集被证明虽然只包含4岁小孩能理解的单词,但用于训练一个大模型之后,同样可以生成语法正确、阅读体验流畅的故事:
对于使用合成数据的理由,Cohere的CEO Aidan Gomez认为:
能从网上获取数据当然更好,但网络数据太杂乱了,完全无法满足需求。相比之下,合成数据已经非常多了,即使它还没被广泛传播。
背后产业链已出现
目前,包括Scale AI、Gretel.ai等企业,已经开始给外界提供合成数据服务。
先是Scale AI,旗下就推出了一款合成数据产品Scale Synthetic,用于给企业提供合成数据服务。
而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中,还提到GPT-4的数据集中,有数百万行是来自Scale AI和内部的指令微调数据。
至于合成数据平台Gretel.ai,从官网来看,它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作,以生成更多合成的数据提供给其他开发者使用。
Gretel.ai的CEO Ali Golshan认为,合成数据的好处在于,它保留了数据集中所有个人的隐私,同时仍然保持其统计学意义上的完整性(statistical integrity)。
但并非所有人都接受合成数据这种“神奇操作”,目前各方的看法主要分成两波。
一部分赞同使用合成数据。包括Cohere等AI公司在内,有不少搞大模型的企业仍然坚持这一做法,并认为它可能生成更好的AI,甚至从中诞生出“超级智能”。
另一部分则认为,合成数据终将让AI“自食其果”。
例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明:
使用合成数据训练,会让模型出现不可逆转的缺陷:
忘记那些“不可能发生的事件”,最终被自己生成的数据毒害。
有网友认为,这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行清洗。
还有网友调侃,这听起来就像是“AI近亲繁殖”一样。
你认为AI需要使用合成数据吗?
参考链接:
[1]https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de
[2]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/
[3]https://arxiv.org/pdf/2306.11644.pdf
[4]https://arxiv.org/pdf/2305.17493v2.pdf
标签:
猜你喜欢
最新文章
- 人类数据告急,OpenAI用AI喂AI,奥特曼:未来所有数据变合成数据
- 包凡失联的180天:一个人和一个行业的命运
- ChatGPT自定义指令功能已向所有用户开放
- 工作人员回应岳阳机场停车场禁特斯拉入内:会对周边环境录像,员工的也不能进
- 国产大模型已无公司可投
- 销售额大涨160%!“七夕”将近,浙江宁波黄金消费旺!
- 尊贵的红旗车主被骂了!对方还是4S店服务接待人员?回应来了
- 加强监管整治黄牛违法行为
- 释放重磅信号!一份财报,看清了阿里巴巴的“野心”
- 2025年汽车工业产值要达到万亿 深圳打造“新一代世界一流汽车城”凭什么?
- 又一波 新能源车 降价潮来袭?至少10家汽车品牌官宣降价促销
- 理想汽车二季度净利23.1亿?理想的未来到底在哪里?
- 2000亿巨头,业绩“爆雷”!
- 普元信息:签约某船舶行业领先企业
- 千亿私募景林美股持仓曝光:加仓 脸书 、 满帮 、 中通快递 、 网易
- 扫描全能王母公司IPO过会:实控人离婚6年前妻在启动上市前获1.4亿补偿
- 碧桂园就要召开债权人会议了
- 原实控人纷纷离职、二度IPO告吹的昆腾微,卖身纳芯微?
- 资管行业如何有大发展?李扬:基础法律关系要确定为信托关系
- 碧桂园深夜宣布:旗下多只境内公司债券8月14日起停牌
- 进球网:凯帕租借皇马的转会完成,他能够出战西甲第二轮比赛
- 韩媒评孙兴慜任热刺队长:与诸葛亮命运有些相似,需独自匡扶汉室
- 真假的英媒:凯塞多已关闭手机并安排了保安,蓝军和红军只能和经纪人谈
- 天空体育:马奎尔转会西汉姆已一切就位,只差最后细节仍在处理中