您现在的位置是:首页 > 房产 >正文
英伟达高级研究科学家范麟熙:基于合成数据训练AI将是未来方向
发布时间:2023-11-01 17:53公孙春蝶来源:
·“我们正在迅速用尽网络上高质量的真实token。从人工合成数据中获得人工智能将是前进的途径。”
·MimicGen使用不到200个人类演示,可自主生成超过5万个训练数据,涵盖18个任务、多个模拟环境。
“合成数据将为满足大模型提供下一个万亿token(文字或语言符号)。”当地时间10月27日,英伟达高级研究科学家范麟熙(Jim Fan)介绍了关于合成数据的最新研究——MimicGen系统,该系统可以生成机器人的训练数据。
机器人准备咖啡。
根据研究论文《MimicGen:使用人类演示进行可扩展机器人学习的数据生成系统》,MimicGen使用不到200个人类演示,可自主生成超过5万个训练数据,涵盖18个任务、多个模拟环境。
MimicGen可自主生成超过5万个训练数据,涵盖18个任务、多个模拟环境。
从大量人类示范中进行模仿学习,已经被证明是构建有能力的机器人智能体的有效范例。然而,示范的收集可能非常昂贵且耗时。研究发现,机器人智能体可以通过模仿学习在生成的数据集上进行有效训练,以在长期和高精度任务中获得出色的性能,例如多部件组装和制备咖啡。此外,研究团队进一步证明了MimicGen数据的有效性和实用性优于额外收集的人类演示,这使其成为扩大机器人学习规模的强大且经济的方法。
部分任务示例。
机器人智能体可以通过模仿学习在这个生成的数据集上进行有效训练,以在长期和高精度任务中获得出色的性能,例如多部件组装和制备咖啡。
这项研究的所有数据集全部开源。“我们是开源社区的忠实拥护者。像往常一样,我们开源一切,包括生成的数据集。”范麟熙说。
对于这项研究的具体逻辑,范麟熙阐释道:首先,人类远程操控机器人完成一个任务,生成非常高质量的演示数据,但这个过程缓慢且昂贵。其次,在高保真的GPU(图形处理器)加速的模拟环境中,创建机器人和场景的数字孪生。然后,在模拟环境中移动对象,替换新的物体,甚至改变机械臂,基本上是使用程序生成的方式扩充训练数据。最后,导出成功的场景,提供给神经网络进行训练。
MimicGen适用于毫米级精度的接触式任务。
“这样就获得了一个近乎无限的训练数据流。”范麟熙认为,机器人技术落后于其他人工智能领域的一个关键原因是缺乏数据,其无法从互联网上获取控制信号,同时它们在野外(自然环境)里根本不存在。
“MimicGen展示了合成数据和模拟的力量”,范麟熙相信这一原则也适用于机器人以外的领域。“我们正在迅速用尽网络上高质量的真实token。从人工合成数据中获得人工智能将是前进的途径。”
此前,加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)发出警告称,ChatGPT等人工智能驱动的机器人可能很快“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。研究机构Epoch估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。
标签:
猜你喜欢
最新文章
- 英伟达高级研究科学家范麟熙:基于合成数据训练AI将是未来方向
- 电动车需求放缓,雷诺电动车业务独立上市有波折
- 丰田承诺为美国电池工厂追加80亿美元投资,加速转型
- 我国第5个南极考察站长啥样?效果图来了
- 美国汽车工人争取到了 25% 涨薪
- FAA完成安全审查,SpaceX星际飞船离再次发射又近一步
- 巴菲特再次减持比亚迪后,芒格称“王传福是个天才”
- 杭州拟发文规范直播电商业:不得要求商家签订最低价协议
- 图灵三巨头激战持续升级!吴恩达痛批美国AI禁令扼杀开源,马斯克都下场了
- 美国第二例接受转基因猪心脏移植的患者死亡
- 微软发布Windows 11重大更新 “AI生产力革命”就此开启?
- 苹果“胶水”不够用了,M3救得了Mac吗?
- 潮州特斯拉撞人事故续:鉴定显示非车辆制动转向装置故障所致
- 全网都在喊“最低价”,竟然还是拼多多最便宜?丨双11特别策划
- 游族网络创始人林奇被毒杀案开庭,庭审至深夜10时许 知情人士:未当庭宣判
- 买牙膏时,3种牙膏不建议购买,或有潜在致癌风险,你家有吗?
- 全新宝马X2亮相东京车展,不进行国产就放心了
- 即将上市 宏光MINIEV第三代马卡龙内饰官图发布
- 海外版新款马自达CX-30上市,国内市场还有望更新换代吗?
- 是不是玩不起了?特斯拉未来充电或收取占位费
- 换代不成功,中期改款来补救!换上新装的十代索纳塔帅不帅?
- 价不低,车不大,XC60为何能成沃尔沃销量担当?试驾
- Model Y改款车型谍照曝光 前脸设计有所调整
- 上汽大众新能源10月销量破1.6万辆