您现在的位置是:首页 > 综合资讯 >正文
谷歌升级Gemini 1.5 Pro,对用户开放,AI可以听音频了
发布时间:2024-04-11 14:37傅堂燕来源:
4月10日消息,谷歌升级了大语言模型Gemini 1.5 Pro,为其配备了“耳朵”,使其能够监听并分析上传的音频文件,从财报电话会议或视频音频中提取关键信息,无需转为书面材料。
在美国时间周二举办的Google Next大会上,谷歌宣布,通过其人工智能应用开发平台Vertex AI,将Gemini 1.5 Pro首次对外开放。该模型最初于今年2月亮相。
Gemini 1.5 Pro被视为Gemini家族中的“中量级”(middle-weight)模型,其性能已经超越了最大规模、最强大的Gemini Ultra。谷歌表示,Gemini 1.5 Pro能够理解复杂指令,而且使用时无需对模型进行特别调整。
需要指出的是,不通过Vertex AI的用户无法体验到Gemini 1.5 Pro的全部功能。目前,大众主要通过Gemini聊天机器人与Gemini大语言模型互动。尽管GeminiUltra为Gemini Advanced聊天机器人提供了强大支持,能理解较长的指令,但在反应速度上不及Gemini 1.5 Pro。
除了Gemini 1.5 Pro的更新,谷歌还对其它大型人工智能模型进行了升级。特别是作为文本转图像生成模型的Imagen 2,它增强了Gemini的图像生成能力。通过引入图像外延(Outpainting)和内填(Inpainting)功能,用户现在能更灵活地对图像的元素进行添加或删除。
为确保Imagen模型生成的图片版权和来源可追溯,谷歌为所有生成图片加入了SynthID数字水印技术。这种创新技术通过几乎不可见的水印明确标识图片来源,可以通过专用工具进行检测。
Imagen模型的许多新特性,如图像外延和内填技术,已被其他文本转图像模型采用,例如Stability AI的Stable Cascade和Getty的Generative AI by iStock。此外,这些技术也被广泛应用于消费电子产品中,如三星Galaxy手机。
除图像生成的创新外,谷歌还公开展示了一种结合人工智能生成回答和谷歌搜索结果的方法,旨在为用户提供更实时、更准确的信息。然而,大语言模型生成的回答并非总是精准无误,有时可能会误导用户。因此,谷歌对Gemini模型设置了一些限制,比如禁止回答与2024年美国大选相关的问题。
此前,Gemini模型因在生成历史人物描述时出现不准确而受到批评。(小小)
标签:
猜你喜欢
最新文章
- 谷歌升级Gemini 1.5 Pro,对用户开放,AI可以听音频了
- 风暴中的TikTok,又要冲击另一家欧美社交巨头了
- 全面突围,谷歌昨晚更新了一大波大模型产品
- 华尔街警告:特斯拉第二季度交付量可能再次同比下滑
- Vision Pro用户称佩戴后出现健康问题:头痛、黑眼圈、颈部酸痛
- 字节开始惦记五环外了
- 揭秘“滴滴五折代叫”黑产:全国多地用户账号被盗,一天凭空冒出千元车费
- 大模型有望迎新突破!OpenAI、Meta将推出拥有“推理”功能的AI
- AI热潮,微软向日本投资29亿美元 韩国要投70亿美元开发芯片
- 英特尔发布新款AI芯片Gaudi 3,声称运行AI模型比英伟达H100快50%
- 4月10日外媒科学网站摘要:为何找不到外星人?学者假说:有些外星文明被AI消灭
- 马云内部发声 肯定阿里变革一年成效
- 谷歌推新款ARM架构CPU用于AI,声称性能比顶级ARM对手高30%
- 曾毓群放“大招“ 宁德时代要做“能量的搬运工”
- 暴雪娱乐与网易更新协议将备受喜爱的游戏带回中国;微软游戏与网易展开更广泛合作
- 这款断货又涨价的痔疮药“伤透”网友心
- 意外接触慢性乙型肝炎病毒怎么办?别慌!三步处理法从容应对
- 学习时如何护眼?这6个事项务必注意
- 吸烟,会让肚子变大
- 再迎发展里程碑!东风岚图第10万辆量产车正式下线
- 10-15万元买方盒子硬派SUV,有您想要的车吗?
- 奔驰全新一代C级内饰泄露!内饰升级三块大屏,换S级同款外观
- 五款“公认的”良心国产车,质量好又耐用,关键还很省油
- 重改997代保时捷911的Safari化,可以随意豁的后驱小跑