阿里通义Qwen2成斯坦福大模型榜单最强开源模型

2024-06-20 11:07 由环球网发表于 #科技

【环球网科技综合报道】6月20日消息，斯坦福大学的大模型测评榜单HELM MMLU发布最新结果，斯坦福大学基础模型研究中心主任Percy Liang发文表示，阿里通义千问Qwen2-72B模型成为排名最高的开源大模型，性能超越Llama3-70B模型。

MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）是业界最有影响力的大模型测评基准之一，涵盖了基础数学、计算机科学、法律、历史等57项任务，用以测试大模型的世界知识和问题解决能力。但在现实测评中，不同参评模型的测评结果有时缺乏一致性、可比性，原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。

斯坦福大学基础模型研究中心（CRFM，Center for Research on Foundation Models）提出的基础模型评估框架HELM（A holistic framework for evaluating foundation models），旨在创造一种透明、可复现的评估方法。该方法基于HELM框架，对不同模型在MMLU上的评估结果进行标准化和透明化处理，从而克服现有MMLU评估中存在的问题。比如，针对所有参评模型，都采用相同的提示词；针对每项测试主题，都给模型提供同样的5个示例进行情境学习，等等。

日前，斯坦福大学基础模型研究中心主任Percy Liang在社交平台发布了HELM MMLU最新榜单，阿里巴巴的通义千问开源模型Qwen2-72B排名第5，仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4，是排名第一的开源大模型，也是排名最高的中国大模型。

据悉，通义千问Qwen2于6月初开源，包含5个尺寸的预训练和指令微调模型，目前Qwen系列模型下载量已经突破1600万。

热门相关：调教初唐隐婚99天：首席，请矜持极品明君女职员：职场恋爱汉阙

在watchOS 11中可以为不同日子安排定制的活动目标

在watchOS 11测试版中，Apple Watch的活动应用可以让你为一周中的不同日子安排定制的活动目标，如果你需要休息，还可以让你暂停你的目标。如果你在活动应用中查看你的移动、锻炼或站立目标时点'......阅读全文

（粤港澳大湾区）黄茅海跨海通道全线贯通

6月19日，广东珠海，随着最后一片钢箱梁焊接完成，黄茅海跨海通道项目黄茅海大桥实现合龙，标志着黄茅海跨海通道全线贯通，为项目2024年底建成通车奠定基础。图为黄阅读全文

方太集团推出智慧全屋高端定制品牌FotileStyle，个性化与智能化的交响

因此，方太集团以“情感价值”为核心，打造出了这一全新的智慧全屋高端定制品牌，旨在为用户提供更加个性化、智能化的家居解决方案阅读全文

红魔新品发布会官宣：新手机来了？

红魔游戏手机在今天官宣了新品发布会的信息。“#游戏AI新竞界# #红魔电竞宇宙# 新品发布会7月3日 19:00见！”从文案和配图来看，本次的红魔新品发布会主打的也是AI方向，并且属于是游戏AI的细分品类，红魔游戏手机作为当下手机市场硕果仅存的两个游戏手机品牌之一，在用户心中还是有相当的份量的，而且这两年红魔手机的设计ID可以说是打造出来了游戏玩家的梦想之机，甚至也因此带动了努比亚Ultra系列的销量，这份功绩还是值得铭记的。目前还不知晓这次发布会上是否会带来新手机产品，红魔现在除了手...阅读全文