开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

一条神秘磁力链接引爆整个 AI 圈,现在,正式测评结果终于来了:

首个开源 MoE 大模型 Mixtral 8x7B,已经达到甚至超越了 Llama 2 70B 和 GPT-3.5 的水平。

(对,就是传闻中 GPT-4 的同款方案。)

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

并且由于是稀疏模型,处理每个 token 仅用了 12.9B 参数就做到了这般成绩,其推理速度和成本也与 12.9B 的密集模型相当。

消息一出,再次在社交媒体上掀起讨论热潮。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

OpenAI 创始成员 Andrej Karpathy 第一时间赶到现场整理起了笔记,还高亮出了重点:这家“欧版 OpenAI”透露出的最强模型,还只是“中杯”。

p.s. Mixtral 8×7B 甚至只是小杯……

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

英伟达 AI 科学家 Jim Fan 则赞说:

每个月都会有十几个新的模型冒出来,但真正能经得住检验的却寥寥无几,能引发大家伙热烈关注的就更少了。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

并且这波啊,不仅是模型背后公司 Mistral AI 大受关注,也带动 MoE(Mixture of Experts)再次成为开源 AI 社区的最火议题。

HuggingFace 官方就趁热发布了一篇 MoE 的解析博文,同样打出了“转发如潮”的效果。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

值得关注的是,Mistral AI 的最新估值已经冲破 20 亿美元,在短短 6 个月中增长了 7 倍多……

基本超越 Llama 2 70B

说起来,Mistral AI 这家公司也是不走寻常路。隔壁大厂前脚刚轰轰烈烈搞发布会,慢慢悠悠发模型,他们可倒好,直接来了个程序颠倒:

先甩链接开放下载,又给 vLLM 项目(一个大模型推理加速工具)提了 PR,最后才想起来发布技术博客给自家模型整了个正经官宣。

模型一开始是酱婶发布的

那么还是先来看看,官方给出了哪些信息,与这两天吃瓜群众自己扒出来的细节有何不同。

首先,官方自信地表示:

Mixtral 8×7B 在大多数基准测试中都优于 Llama 2 70B,推理速度快了 6 倍。

它是最强大的、具有宽松许可的开放权重模型,也是最佳性价比之选。

具体来说,Mixtral 采用了稀疏混合专家网络,是一个 decoder-only 的模型。在其中,前馈块会从 8 组不同的参数组中进行选择 ——

也就是说,实际上,Mixtral 8×7B 并不是 8 个 7B 参数模型的集合,仅仅是 Transformer 中的前馈块有不同的 8 份。

这也就是为什么 Mixtral 的参数量并不是 56B,而是 46.7B。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

其特点包括以下几个方面:

  • 在大多数基准测试中表现优于 Llama 2 70B,甚至足以击败 GPT-3.5

  • 上下文窗口为 32k

  • 可以处理英语、法语、意大利语、德语和西班牙语

  • 在代码生成方面表现优异

  • 遵循 Apache 2.0 许可(免费商用)

具体测试结果如下:

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

另外,在幻觉问题方面,Mixtral 的表现也优于 Llama 2 70B:

在 TruthfulQA 基准上的成绩是 73.9% vs 50.2%;在 BBQ 基准上呈现更少的偏见;在 BOLD 上,Mixtral 显示出比 Llama 2 更积极的情绪。

此次与 Mixtral 8×7B 基础版本一起发布的,还有 Mixtral 8x7B Instruct 版本。后者经过 SFT 和 DPO 优化,在 MT-Bench 上拿到了 8.3 的分数,跟 GPT-3.5 差不多,优于其他开源大模型。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

目前,Mistral 官方已经宣布上线 API 服务,不过还是邀请制,未受邀用户需要排队等待。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

值得关注的是,API 分为三个版本:

  • 小小杯(Mistral-tiny),对应模型是 Mistral 7B Instruct;

  • 小杯(Mistral-small),对应模型是这次发布的 Mixtral 8×7B;

  • 中杯(Mistral-medium),对应的模型尚未公布,但官方透露其在 MT-Bench 上的得分为 8.6 分。

有网友直接把 GPT-4 拉过来对比了一下。可以看到,中杯模型在 WinoGrande(常识推理基准)上的得分超过了 GPT-4。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

价格方面,小小杯到中杯的输入和输出价格分别是每一百万 token0.14~2.5 欧元和 0.42~7.5 欧元不等,嵌入模型则是 0.1 欧元每百万 token(1 欧元约合 7.7 人民币)。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

而在线版本,目前还只能到第三方平台(Poe、HuggingFace 等)体验。

能看懂中文,但不太愿意说

虽然官方通告中并没有说支持中文,但我们实测(HuggingFace Chat 中的在线版,模型为 Instruct 版本)发现,Mixtral 至少在理解层面上已经具备一定中文能力了。

生成层面上,Mixtral 不太倾向于用中文来回答,但如果指明的话也能得到中文回复,不过还是有些中英混杂的情况。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

面对更多的“弱智吧”问题,Mixtral 的回答虽中规中矩,但看上去至少已经理解了字面含义。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

数学方面,面对经典的鸡兔同笼问题,Mixtral 的回答从过程到结果都完全正确。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

即使是高等数学问题,比如复杂的函数求导,Mixtral 也能给出正确答案,更难能可贵的是过程没什么问题。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

而此次的官方通告中专门强调了 Mixtral 的代码能力很强,所以也受到了我们的重点考察。

一道困难难度的 LeetCode 下来,Mixtral 给出的代码一次就通过了测试。

给你一个未排序的整数数组 nums,请你找出其中没有出现的最小的正整数。

请你实现时间复杂度为 O (n) 并且只使用常数级别额外空间的解决方案。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

但随着我们继续提问,Mixtral 的回答一不小心暴露了自己可能专门针对 LeetCode 做过训练,而且还是中文版 LC。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

为了更加真实地展示 Mixtral 的代码能力,我们转而让它编写实用程序 —— 用 JS 写一个 Web 版计算器。

经过几轮调整之后,虽然按钮的布局有些奇怪,但基本的四则运算已经可以完成了。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

此外我们会发现,如果在同一个对话窗口中不断补充新的要求,Mixtral 的表现可能会有所下降,出现代码格式混乱等问题,开启新一轮对话后则会恢复正常。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

除了 API 和在线版本,Mistral AI 还提供了模型下载服务,可以用𝕏上的磁力链接或通过 Hugging Face 下载之后在本地部署。

在𝕏上,已经有不少网友在自己的设备上跑起了 Mixtral,还给出了性能数据。

在 128GB 内存的苹果 M3 Max 设备上,使用 16 位浮点精度运行 Mixtral 时消耗了 87GB 显存,每秒可以跑 13 个 token。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

同时也有网友在 M2 Ultra 上通过 llama.cpp 跑出了每秒 52token 的速度。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

看到这里,你会给 Mistral AI 的模型实力打几分?

不少网友是已经兴奋起来了:

“OpenAI 没有护城河”,看起来肯定会成为现实……

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

要知道,Mistral AI 今年 5 月才刚刚成立。

短短半年,已是一手 20 亿美元估值,一手惊艳整个 AI 社区的模型。

更关键的是,普林斯顿博士生 Tianle Cai 分析了 Mistral-7B 与 Mixtral-8x7B 模型的权重相关性做了分析,证明了模型的成功复用。

随后网友发现,Mistral AI 创始人也亲自证实,MoE 模型确实就是把 7B 基础模型复制 8 次,再进一步训练来的。

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

随着此类模型的免费商用,整个开源社区、新的创业公司都可以在此基础之上推动 MoE 大模型的发展,就像 Llama 已然带动的风暴那样。

作为吃瓜群众,只能说:

开源大模型超越 GPT-3.5!爆火 MoE 实测结果出炉,网友:OpenAI 越来越没护城河了

参考链接:

  • [1]https://mistral.ai/news/mixtral-of-experts/

  • [2]https://mistral.ai/news/la-plateforme/

  • [3]https://huggingface.co/blog/mixtral#about-the-name

本文来自微信公众号:量子位 (ID:QbitAI),作者:克雷西 鱼羊

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,神卡网所有文章均包含本声明。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

复制成功
微信公众号: 神卡申请助手
截屏保存图片去微信扫码