
3月10日,字节豆包大模子团队官宣开源一项针对MoE架构的要津优化时期,可将大模子熟习后果晋升1.7倍,资本从简40%。
据悉,该时期已本色诳骗于字节的万卡集群熟习,累计匡助从简了数百万GPU小时熟习算力。
入选顶级会议MLSys 2025
据了解,MoE是刻下大模子的主流架构,但其在散播式熟习中存在无数跨征战通讯支出,严重制约了大模子熟习后果和资本。以外洋主流模子Mixtral-8x7B为例,其熟习历程中通讯时期占比可高达40%。
针对这一禁锢,字节在里面研发了COMET料想-通讯重复时期,通过多项更动,大幅压缩了MoE大家通讯空转时期。
相较DeepSeek近期开源的DualPipe等MoE优化决议,COMET不错像插件相通径直接入已有的MoE熟习框架,复旧业界绝大部分主流大模子,无需对熟习框架进行侵入式转变。该责任以5/5/5/4的高分入选环球机器学习系统顶级会议MLSys 2025 ,被合计“在大界限坐褥环境中极具诳骗后劲”。
COMET与Deepseek研发的DualPipe决议还不错纠合使用。在裁减MoE通讯支出上,COMET遴荐了料想-通讯交融算子的优化样式,DualPipe则通过排布算子来隐敝通讯,两种决议并不冲突,同一使用或将更大幅度压缩模子熟习资本。
现在,COMET复旧多种MoE并行模式,部署活泼、便捷。同期,COMET中枢代码已开源,并向开发者提供了一套友好的Python API,盘算兼容Triton等编译生态。
近期国内大模子研发时期快速取得糟塌,相干APP下载量也马上增长。下载量排名成为外界不雅察各家大模子实用能力最径直的窗口。适度发稿,DeepSeek在中国区苹果诳骗商店免费APP下载名次榜首,第二名是豆包,第三名是腾讯元宝。

最新辟谣
3月10日,寒武纪(688256.SH)股价午后出现拉升,一度涨超5%,收涨3.87%,报779元/股,总市值3252亿元。
有阛阓音讯称,字节向上向寒武纪下单4万颗580芯片,单价2.5万元,总价值料想10亿元。
对此,字节向上相干郑重东谈主暗意,音讯伪善。
近期一度大火的Manus也传曾婉拒字节的投资。
据报谈,开发出Manus的中国创业公司——Monica,在2024年纪首照旧与字节进行过一轮收购商量。其时字节出价3000万好意思元,但因为远远够不上创举东谈主肖弘的心思价位,此次商量最终不欢而散。
接近Monica里面的从业者暗意,字节收购的逻辑所以3000万好意思金的价钱收购团队,将其团队和居品整合到豆包体系中,然则Monica参预字节后就会跟字节大模子策略绑定,就丧失了Monica居品上的独有上风。这亦然肖弘过火团队不看好这场收购的主要原因。现在Monica估值接近1亿好意思元。
对此,适度现在,字节向上并未赐与呈文。
传抖音将接入豆包大模子
近期有音讯称,抖音App正在测试接入豆包App的AI能力,为用户带来愈加丰富多元的智能体验。
在测试版块中,抖音为豆包App绽开了两个超等进口:一个置于短视频界面,与点赞、辩驳、转发等功能比肩;另一个则放在抖音的音讯列表内,使AI时期与酬酢功能深度交融,进一步强化了用户互动体验。
此前,豆包App天然具备对话、创作及图像生成等功能,但用户需要离开抖音App才能使用,这在一定进度上,也适度了豆包大模子的使用频率。
而通过将豆包径直镶嵌抖音的两个首要进口,抖音App将径直买通豆包大模子中熟习的AI功能,用户无需跳转即可使用AI奇迹,这不仅能强化抖音自己的AI能力,罢了流量与功能的深度绑定,还能通过抖音纷乱的用户基数为豆包导流,鼓吹“AI生态闭环”的竖立。
此外尊龙凯时人生就是博,抖音接入豆包还不错延伸用户在抖音的停留时期,增多流量和用户粘性,为告白、电商等传统业务提供更大空间。