您现在的位置是:首页 > 综合资讯 >正文
一文看懂MoE的前世今生,大模型的未来它说了算?
发布时间:2024-04-30 18:59尚志宏来源:
出品|网易科技《态度》栏目
作者|薛世轩
编辑|丁广胜
所有的创新都有其现实驱动力。
在互联网巨头的世界,这一驱动力就是成本。
“降本增效”的逻辑贯穿着技术演进的始终,大模型架构也不例外。
目前,大模型的发展已经到了一个瓶颈期,包括被业内诟病的逻辑理解问题、数学推理能力等,想要解决这些问题就不得不继续增加模型的复杂度。
如何平衡大模型的训练难度和推理成本成为摆在各位玩家面前的难题。
而MoE模型的日渐成熟为开发者们重新指引了前进的方向——通过改变模型底层架构,换一种耗能低且训练和推理效果好的模型架构进行大模型开发。
一、MoE的前世今生:老树又冒新芽
MoE(Mixture-of-Experts,专家混合),首次出现于1991年的论文Adaptive Mixture of Local Experts中,其前身是“集成学习”(Ensemble Learning),作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术,MoE由多个子模型(即专家)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。
在“分而治之”的核心思想指导下,MoE 使用门控网络来决定每个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。
通俗来讲,MoE就像复仇者联盟,每个子模型(专家)都是一个超级英雄,门控网络则是尼克·弗瑞,负责协调各个超级英雄,决定在什么情况下召唤哪位英雄。门控网络会根据任务的特点,选择最合适的专家进行处理,然后将各位专家的输出汇总起来,给出最终的答案。
门控功能“稀疏性”的引入让MoE在处理输入数据时只激活使用少数专家模型,大部分专家模型处于未激活状态。换言之,只有擅长某一特定领域的超级英雄会被派遣,为用户提供最专业的服务,而其他超级英雄则原地待命,静待自己擅长的领域到来。这种“稀疏状态”作为混合专家模型的重要优势,进一步提升了模型训练和推理过程的效率。
MoE发展至今,离不开两个研究领域对其所做的巨大贡献:专家作为关键组件与条件计算。标签:
猜你喜欢
最新文章
- 一文看懂MoE的前世今生,大模型的未来它说了算?
- 马斯克想把特斯拉中国数据转移至美国做训练,这事太难
- 什么运动对心脏最健康?研究发现,这类运动对心脏最有益,甚至睡觉!
- 买谁更能把钱花在刀刃上 星光EV对比秦PLUS EV
- 配置/颜色更丰富 静态体验2024款欧拉好猫
- 接班张勇,46岁的她逆势翻盘
- 中国消费品和零售行业报告(2024):高性价比受到消费者追捧
- 我的公司,还没被OpenAI杀死
- 东风公司,又一前高管被查!
- 大涨!冲上热搜!
- 最新出手,布局这类产品!
- 久违涨停潮,A股港股双双狂飙!
- 秒速涨停,最高涨超50%!A股强势上攻,两个板块批量涨停!
- 关键时刻!超120亿元净买入!
- 创新高!拟分红181亿元!
- 这位异质结奇兵,如何搞钱过冬?
- 市占率连续12季下滑 多家银行打折卖基金
- 人闲也能财旺,“五一”假期理财全攻略来了!
- 牛市,无需多言
- 谁在狂飙?谁在创新高?外贸20强城市一季报出炉!
- 出游搭子找好了吗?“五一”假期@你了!快来认领行程→
- 特斯拉从此无禁区
- 海尔最有权势女富豪,获全国五一劳动奖章
- 下一个国货顶流,为什么是它?