您现在的位置是:首页 > 体育 >正文
苹果开发出新款AI:能"看懂"屏幕上内容并用语音回复
发布时间:2024-04-03 12:00魏腾琰来源:
4月2日消息,苹果公司的研究团队最近发表了一篇论文,宣布他们成功开发出了一款创新的人工智能系统。这个系统能够准确地理解屏幕上模糊的内容及其相关对话和背景环境,进而实现与语音助手更加自然的互动。
这个系统被命名为ReALM(Reference Resolution As Language Modeling,即以语言建模为基础的参考解析),它通过大语言模型的运用,将理解屏幕视觉元素指向的复杂任务转化为一个纯粹的语言问题。这一转换使得ReALM在性能上相较于现有技术有了显著的提升。
苹果研究团队强调:“让对话助手能够理解上下文,包括相关的内容指向,非常关键。能让用户根据他们所看到的屏幕内容进行提问,是确保真正实现语音操作体验的重要一步。”
增强对话助手的能力
ReALM的一大创新在于它能够重新构建屏幕内容,即通过分析屏幕上的信息及其位置信息来生成文本表示,这一点对捕捉视觉布局至关重要。研究人员展示了这种方法与专为内容指向调整的语言模型结合起来,能在执行相关任务时超越GPT-4的性能。
研究人员表示:“我们对现有系统进行了显著改进,在处理多种类型的内容指向时均展现出卓越性能。我们的最小模型就实现了超过5%的性能提升,而大型模型的表现则明显超过了GPT-4。”
实际应用与局限性
这项研究凸显了专注于语言模型在处理如内容指向解析等任务上的巨大潜力。由于响应时间或计算资源的限制,大型端到端模型往往难以实施。通过这项创新性研究,苹果展现了其持续投入,使Siri等产品在对话和理解上下文方面更加出色。
尽管如此,研究人员也指出,依靠自动化解析屏幕内容仍然面临挑战。在处理更复杂的视觉内容,比如区分多个相似图像时,可能需要结合计算机视觉和多模态技术。
努力缩小与AI竞争对手差距
虽然在人工智能领域苹果曾稍显落后,但它正在默默取得显著进展。从融合视觉与语言的多模态模型,到开发AI驱动的动画工具,再到构建高性能的专业AI技术,苹果的研究实验室持续实现技术突破。
面对谷歌、微软、亚马逊和OpenAI等公司的激烈竞争——这些公司已在搜索、办公软件、云服务等领域推出了先进的AI产品——作为一个以保密闻名的科技巨头,苹果正努力不落人后。
长期以来,苹果更多在创新领域扮演跟随者而不是领先者的角色,现在正面临着一个由人工智能快速改变的市场。在6月举办的全球开发者大会上,苹果预计将推出新的大语言模型框架、“AppleGPT”聊天机器人及其生态系统中的其他AI功能。
“我们很高兴今年晚些时候分享我们在人工智能方面的工作进展,”首席执行官蒂姆·库克(TimCook)最近在一次盈利电话会议上暗示。尽管苹果向来低调,但其在AI领域的广泛努力已经引起了业界的广泛关注。
然而,在日益激烈的人工智能领域竞争中,苹果的相对滞后使其处于不利地位。但凭借其雄厚的资金实力、品牌忠诚度、一流的工程师团队和紧密整合的产品线,苹果仍有机会扭转局面。(小小)
标签:
猜你喜欢
最新文章
- 苹果开发出新款AI:能"看懂"屏幕上内容并用语音回复
- 马斯克商业帝国在得州扩张,特斯拉超级工厂员工激增86%
- 4月2日外媒科学网站摘要:著名学者反对马斯克大规模火星殖民计划
- OpenAI重磅更新:无需登陆就可以使用ChatGPT
- 王者风范 迈巴赫GLS Night Series海外上市
- 20万预算买B级车,一箱油跑1167公里,广汽丰田全新凯美瑞咋样?
- 运动前卫 国产奥迪Q6L e-tron即将亮相
- 拒绝千篇一律,带“电”MPV会越来越好玩吗?
- 一夜狂赚218亿!小米雷军登上封神宝座
- 又是波音!货机坠毁后再撞客机残骸
- 小米造车迈出第一步
- 谷歌将删除数十亿条浏览器记录以和解隐身诉讼
- “百雀羚”“GUCCI”过度包装被通报;中铂旅行社虚假宣传秒杀价被罚
- 玩文字游戏、搞霸王条款,APP免费试用套路何时休
- 中炬高新失去的4年
- 金价逼近700元,周大福在县城「跌倒」
- Keep,离盈利还有多远?
- 冷清的糖酒会,分化的白酒行业
- 年亏百亿!恒大汽车停产
- 被困在购物车里的BAT们
- 遭贾跃亭炮轰,小米SU7,真的能打开局面吗?
- 大行年报中的房地产“秘密”:不良率抬头,房贷少了5500多亿
- 宝能地产被强制执行1.4亿 累计被执行超265亿
- 震动汽车圈!刚刚,安进被查!