《2023 大语言模型综合能力测评报告》出炉:国内产品即将冲出重围|热推荐
作者 | 鲁冬雪
(资料图)
近日国内与人工智能领域相关的利好政策陆续释放,中央召开的相关会议强调“未来要重视通用人工智能发展,营造创新生态。”《北京市促进通用人工智能创新发展的若干措施(2023-2025 年)(征求意见稿)》围绕五大方向提出 21 项具体措施,包括“开展大模型创新算法及关键技术研究”,“加强大模型训练数据采集及治理工具研发”等,同时面向政务服务、医疗、科学研究、金融、自动驾驶、城市治理等领域拓展应用场景,以抢抓大模型发展机遇,推动通用人工智能领域实现创新引领,中国大模型技术产业迎来了一波前所未有的发展契机,百度、阿里、华为等国内众多企业迅速布局了相关业务,推出自家的人工智能大模型产品。
此外,目前全球整个大模型领域都拥有着较高密度的人才团队,且有资本加持。在人才方面,从目前公布的部分大模型研发团队背景可以看出, 团队成员均来自国际顶级高校或拥有顶级科研经验;在资本方面,以 Amazon 和 Google 举例,这两家 2022 年在大模型技术方面的资本性支出分别达 583 亿美元和 315 亿美元,并仍然呈现上涨趋势,就 Google 最新披露数据,其训练参数规模 1750 亿的大模型, 理想训练费用超过 900 万美元。
当一个领域有高密度的资本和人才团队,那意味着这个领域将有更快的发展。很多人觉得,ChatGPT 这一现象级产品横空出世,拉开了大语言模型技术蓬勃发展的序幕。但实际上,自 2017 年大语言模型诞生,OpenAI、微软、谷歌、Facebook、百度、华为等科技巨头在大语言模型领域的探索持续不断,ChatGPT 只是将大语言模型技术推进至了爆发阶段,当下大模型产品格局更是呈现出了新形势——国外基础模型积累深厚,国内应用侧优先发力。
为此 InfoQ 研究中心基于桌面研究、专家访谈、科学分析三个研究方法,查找了大量文献及资料,采访了 10+ 位领域内的技术专家,同时围绕语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度,拆分出语义理解、语法结构、知识问答、逻辑推理、代码能力、上下文理解、语境感知、多语言能力、多模态能力、数据基础、模型和算法的能力、安全和隐私 12 个细分维度,分别对 ChatGPT 、Claude-instant、Sage 、天工 、文心一言 、通义千问 、讯飞星火认知大模型、Moss-16B、ChatGLM-6B、vicuna-13B 进行了超过 3000+ 道题的评测,根据测评结果发布了《大语言模型综合能力测评报告 2023》(下文简称《报告》)。
为了保证报告的客观性、公正性及计算结果的准确性,InfoQ 研究中心根据样本制造了一套科学的计算方法——通过实际测试获得各模型对 300 道题目的答案,针对答案进行评分,正确答案获得 2 分,部分正确的答案获得 1 分,完全错误的获得 0 分,模型表示不会做的获得 -1 分。计算公式为“某模型在某细分类别题目得分率 = 模型得分 / 模型总分”。举个例子,A 大模型在 7 道题目的类别中总得分为 10,该类题目可获得的总得分为 7*2=14,则 A 大模型在这个题目类别的得分为 10/14=%。
基于以上评测方法,报告主要得出了许多值得大家关注的结论,希望下文的核心结论解读可以为各位的未来大语言模型技术具体实践和探索提供方向。
百亿参数规模是大模型训练的“入场券”,大模型技术革命已经开始
企业对于大模型产品研发需要同时具备三大要素,分别为数据资源要素、算法和模型要素、资金和资源要素。通过对目前市场中的产品特征进行分析,InfoQ 研究中心发现数据资源、资金和资源两要素为大模型研发的基础要素,算法和模型是目前区分大语言模型研发能力的核心要素。算法和模型影响的的模型丰富度、模型准确性、能力涌现等都成为评价大语言模型优劣的核心指标。此处需要说明的是,虽然数据、资金资源为大语言模型研发设置了高门槛, 但对于实力雄厚的大型企业仍然是挑战较小的。
仔细研究大模型产品的核心要素会发现,大模型训练需要“足够大”,百亿参数规模是“入场券”。就 GPT-3 和 LaMDA 的数据显示,在模型参数规模处于 100 到 680 亿这个区间时,大模型的很多能力(如计算能力)几乎为零。同时,大量计算触发了“炼丹机制”,根据 NVIDIA 论文里的附录章节显示,一次迭代的计算量约为 ExaFLOPS,而完整训练需要 9500 次迭代,完整训练的计算量即为 430 ZettaFLOPS(相当于单片 A100 跑 年的计算量)。
数据来源:Sparks of Artificial General Intelligence Early experiments with GPT-4
纵观全球大模型训练参数规模的数量级,根据民生证券研究所和 wiki 百科资料显示,国际领先的大模型 GPT-4 的推测参数量级可达 5 万亿以上,国内部分大模型规模大于 100 亿。其中,百度研发的 Ernie 和华为研发的盘古目前是有数据的国内大模型参数规模的领先者。
InfoQ 研究中心对各家的大语言模型进行了综合测试后也发现,国外的 ChatGPT 各项能力确实很抗打,位居第一位。令人惊喜的是,百度的文心一言闯进了前三名,位居第二,而且值得一提的是,其综合得分仅落后 ChatGPT ,远超第三名 Claude。
数据说明:测评结果仅基于上文所列模型,测评截止时间为 2023 年 5 月 25 日
在整个研究过程中,InfoQ 研究中心发现,算法和训练模型水平主导大语言模型的能力表现。从基础模型到训练方式的工程化,再到具体的模型训练技术,目前赛道中的所有厂商,每一个环节模型选型的差异造就了大语言模型的最终能力表现的差异。
可能各个厂商的产品能力有所差异,但是因为参与到大模型技术建设的玩家足够多,他们对技术持续的探索,让我们看到了大模型技术革命成功的希望。在大模型产品百花齐放的当下,大语言模型将计算机能力从“搜索”拓展到了“认知 & 学习”到“行动 & 解决方案”层面,大语言模型的核心能力已经呈现出金字塔结构。
“写作能力”和“语句理解能力”是大语言模型目前擅长能力的 Top2
据 InfoQ 研究中心的测评结果显示,安全和隐私问题是大语言模型研发的共识和底线,位居能力评分第一位。大语言模型的基础能力整体表现均排名更为靠前,逻辑推理相关的编程、推理和上下文理解目前整体表现仍有较大的提升空间;多模态仍然是少数大语言模型的独特优势。
在基础能力层面,大语言模型展现出了优秀的中文创意写作能力。在六个写作细分题目分类中, 大语言模型表现均较为突出,其中访谈提纲和邮件写作都获得了接近满分的成绩,而比较之下视频脚本的写作仍然是大语言模型产品较不熟悉的领域,细分题目类别得分仅为 75%。
关于文学题,随着写作难度的升高,大语言模型表现的能力水平递减。其中表现最好的板块为简单写作题,得分为 91%;对联题虽然很多模型表现较好,但是有⼀些模型对对联回答表现欠佳, 整体得分最低为 55%。
然而,在语义理解方面,目前的大语言模型就没有那么“灵”了。在方言理解、关键词提炼、语义相似判断、“怎么办”4 个题目分类中, 大语言模型呈现很大的差异化分布, “怎么办”题获得最高分 %,中文方言理解题难倒了大语言模型,整体准确率仅为 40%。
InfoQ 研究中心的报告显示,就中文知识这一类题目而言,国内模型表现明显优于国际模型。在十个模型中知识得分最高的为文心一言,得分 %,得分第二的为 ChatGPT,得分为 %。除 IT 知识问答题目外,其他八个题目分类中国内的大模型产品在中文知识环境中会的问答表现整体接近或优于国际大模型产品。
事实上,无论是中文创意写作,还是语义理解、中文知识问答,这些题目都主要反应的是大语言模型产品对文字的基础认知和学习能力,而我们从测评结果中清晰的看到,百度文心一言各方面数据表现优异,各项能力评分都位居 Top2。然而,我们看到的其实不仅是文心一言的技术能力,我们更多看到的是国内大语言模型的强势技术突破和显著进步。
国内产品在跨语言翻译中仍有较大提升空间,逻辑推理能力整体挑战较大
随着近几年,国家和国内各厂商在人工智能领域的投入逐年增大,我们看到了国内大语言模型的飞速进步,技术成果使我们喜悦,但是当我们更客观地去看大语言模型技术的发展,我们会发现我们在一些方面和国际水平相比还有许多提升空间。
比如我们从 InfoQ 研究中心发布的《报告》就可以得知,国外产品编程能力显著高于国内产品,在十个模型中编程得分最高的为 Claude,得分 %,国内产品表现最好的文心一言,得分 %,与 Claude 还存在一定的距离。在四个题目分类中,Android 相关题目国外产品明显超越国内产品,但令人惊喜的是,在“代码自动补全类”题目中,国内产品文心一言已经超越国外产品,这说明国内产品超越国际水平仅是时间问题。
此外,在十个模型中知识得分最高者也是 Claude,得分 %,国内大语言模型得分最高的分别为文心一言和天工 ,但与国际水平依旧存在差距。要知道,翻译类题目主要反应大语言模型产品对语言的理解能力,此次 InfoQ 评测的“编程翻译题”、“英文写作”、“英文阅读理解”三个题目分类中,大语言模型呈现很大的差异化分布, 在测评的所有模型中,英文写作题获得的最高分 80%,而英文阅读理解仅获得得分 46%,这意味着国内产品在跨语言翻译方面还需要继续努力迭代。
差距犹在,但不必妄自菲薄,大模型技术的技术演进一直在进行着。据《报告》显示,目前整个大语言模型在逻辑推理能力方面的挑战都比较大。为了考评大语言模型的理解力和判断力,InfoQ 研究中心设置了多个维度的逻辑推理题。在商务制表题、数学计算题、数学应用题、幽默题、中文特色推理题 5 个题目分类中,大语言模型整体得分都低于基础能力。分析原因, 商务制表题不但需要搜集和识别内容还需要在内容的基础上做逻辑分类和排序,整体难度较大,逻辑推理能力是未来大语言模型产品的主要进攻方向。
在 InfoQ 研究中心测评的十个模型中,逻辑推理题得分最高的为文心一言和讯飞星火,得分均为 60%,与得分最高的 ChatGPT 仅差 %。在部分细分领域,国内产品的表现还是十分优异的,比如在中文特色推理题中,国内模型领先国际模型得分较多, 国内模型对中文内容和逻辑的熟悉应该是该结果的核心原因。
从 InfoQ 研究中心发布的以上测评结果来看国内产品与国外产品的差距,国内大语言模型能力接近 水平,但是与 GPT4 能力仍存在巨大差距。然而,纵观整个大语言模型领域,其实我们每个人都可以清晰地发现,大语言模型技术的发展门槛和挑战还是非常高的,芯片门槛、实践经验积累的门槛、数据和语料门槛都需要国内外各大厂商一起努力突破。
从 InfoQ 研究中心的评测结果来看,文心一言的综合评分已与 ChatGPT 所差无几,在中国最新涌起的互联网革命浪潮中,文心一言可以称之为国内最有希望在短期内赶超国际水准的 AIGC 产品。而拥有众多 AI 专家的文心一言团队一直保持着兢兢业业地技术探索态度,努力缩小差距中,文心一言的下一次突破已经不远了,值得我们所有人期待。
活动推荐
《大语言模型综合能力测评报告 2023》选取语言模型准确性、数据基础、模型和算法的能力、安全和隐私四个大维度和 12 个细分维度,分别对 ChatGPT、Claude、Sage、天工 、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B 进行了超过 3000+ 道题的评测。识别下图二维码或点击阅读原文,立即获得大语言模型、AGI 创业方向选择、工作实际应用的最新认知吧!
标签:
- 《2023 大语言模型综合能力测评报告》出炉:国内产品即将冲出重围|热推荐
- 无人驾驶,走向沉寂or走进现实?
- 专访:马自达将强化对中国市场投入——访马自达(中国)董事长中岛徹
- 实木家具_实木
- 【天天快播报】“明星”直播间带货?仅需 3.5 万元,随意“换脸”
- 激智科技:5月29日融资买入1451.17万元,融资融券余额1.54亿元
- 众业达:5月29日融资买入823.69万元,融资融券余额1.65亿元_今头条
- 焦点热议:中物联:1-4月全国社会物流总额为107.6万亿元 同比增长4.4%
- 5月29日基金净值:南方中证科创创业50ETF最新净值0.5753,跌0.96%
- 儿童消费市场持续升温
- 财经早班车丨十八部门:探索利用人工智能、虚拟现实等技术手段改进和强化实验教学|世界播资讯
- 绿色化、智能化“换挡提速” 老牌建筑国企焕发新活力
- 丰田重申电动汽车绝非碳中和唯一途径 多家日本造车巨头发声支持
- Stein:鲍勃-迈尔斯本周有可能离开勇士
- 泉州通淮关岳庙紧急声明!_全球信息
- 阿峰讲good | 凌晨从5米高桥跳入水中,勇救落水情侣
- 国产新车品鉴:全新一代宝马X5正式亮相 性能再次升级 世界观热点
- 正度16开纸尺寸是多大_正度16开纸尺寸
- 今日视点:“丫丫”回京最新画面曝光!网友表示:判若两熊!
- 快资讯丨机构:碳酸锂价格进入深度博弈,中游电池厂商观望情绪酝酿
- 热门看点:咸丰活龙坪乡:架起群众幸福的“连心桥”
- 天天新动态:援外日记|“等待我们的并不是终点,而是整装再出发!”
- 三和建筑集团(03822)发盈警 预计年度净亏损不少于1500万港元
- 美女类的女性角色好看的游戏有哪些 五款有超多美女角色的游戏推荐
- 全球速看:autocad快捷键命令大全表格_autocad快捷键
- 滁州市琅琊区迎“六一”趣味亲子运动会欢乐多
- 维纳斯威廉姆斯和塞雷娜威廉姆斯(维纳斯威廉姆斯)2023年05月25日更新
- 打招呼英语_打招呼用英语怎么说
- 小摩:予美团-W增持评级 目标价190港元
- 阿里P9下岗再就业
- 福祉街道潭西社区开展“趣味拓展,乐享生活”——潭西社区老年居民身体素质拓展活动
- 江国良新蒲公英艺术团演唱歌曲
- 环球观热点:39岁白百何抽烟喝酒被拍,动作娴熟烟瘾超大,当众挠鼻子毫无偶像包袱
- 揭阳市第一届U18八人制足球联赛结束-环球观热点
- 生态环境部:持续对环评违法行为加强高压严惩态势
- 盘中连板池:睿能科技(存储芯片)7连板
- 关于平湖市二孩、三孩家庭申请购房补贴的公示
- 【天天热闻】5月29日永晶科技氢氟酸价格暂稳
- 新研究强调了新型抗骨质疏松药物的潜在心血管风险 天天日报
- 监利首例 跨省远程评标落地-世界要闻
- 又一个买菜平台,输给了菜市场
- 针对四种变异株!北京等地开始接种国内首款四价新冠疫苗
- 早报:C919商业首飞成功 iPhone 15 Pro Max参数曝光|今日热讯
- 饭桌上的礼仪规矩 饭桌的礼节_每日热点
- 加拿大专家:国债流动性堪忧 美国面临国债市场可能崩溃的威胁 世界资讯
- 曼秀雷敦|天天播资讯
- 当前信息:diskgenius注册码生成器
- 谷文昌的故事电视剧一共多少集_电视剧谷文昌简介|全球聚看点
- 股四头肌腱损伤多久才能恢复_股四头肌腱损伤的恢复方法 环球微速讯
- 挪用公款900万可以判多少年?
- 上海居民吐槽快递不送上门了,快递员说和时间、体力、收入有关
- 历史上的今天|武汉森林野生动物园开园
- 超头直播“618”预售首日GMV近50亿,国货龙头产品力持续验证
- 全球动态:沉浸昆明 周末一起来享受这份专属“松弛感”
- 【天天播资讯】中国舞蹈史试题(中国舞蹈史)
- 热讯:【南北组】龙
- 【全球独家】他,40岁,中国首位重量级拳王
- 形容男生帅气的成语_形容帅气的成语 快资讯
- 如何查支付宝名下有几个账户 可通过官网查询!具体情况详细内容介绍
- 少华什么意思_少华
- 当前热文:1291名学生提前录取!2023年长沙市城区“小升初”提前批联合微机派位举行
- 青岛西海岸新区总工会举办心理专题讲座
- 世界百事通!花千骨中糖宝的扮演者_花千骨糖宝扮演者
- 全球热资讯!细胞培育肉亮相中关村论坛
- 湖人同时送走詹眉会怎样?美媒支招2换7方案:新阵容能比现在更强|每日头条
- 多特市长:呼吁球迷们保持冷静 多特的成功将延续下去_微资讯
- 焦点信息:深度影评《卧虎藏龙》:剑与心如何伏虎降龙
- 自动补胎液的缺点 自动补胎
- 每日热门:武汉长江光电有限公司(关于武汉长江光电有限公司介绍)
- 速看:英雄联盟美测服PBE下载教程 云顶之弈s9美测服即将开启
- 幸福一家人剧情简介_讲的是什么故事
- 世界新动态:风干猪肉最正宗做法熟食?
- 当前消息!专科学护理专业怎么样医哪个校好自考铜陵
- taylorlautner肌肉_taylor lautner
- “茶和天下”云课堂走进马耳他圣玛格丽特中学|简讯
- 今日报丨拜仁女足球员祝福男足:相信小伙子们,会祈祷他们为冠军而战
- 今年前4月中国规模以上工业企业实现利润总额同比降20.6%_动态
- 高达德尔塔改是谁的_德尔塔高达改驾驶员是谁
- 氦气球安全吗有毒吗(氦气球安全吗)
- 基辛格 100 岁了,但现在的美国似乎不再需要他 世界简讯
- 【当前热闻】亚太多国领导人齐发声:“反对脱钩”
- 初三鼓励学生的话语 中考励志名言警句|环球焦点
- 独弦琴独奏(独玄琴之思五开能杀)-全球热推荐
- 环球新资讯:蹲便池尺寸一般多大(蹲便池尺寸是多少)
- 全球新消息丨山东黄金(600547)5月26日主力资金净卖出2193.69万元
- 今年养老金具体能涨多少钱?退休人员涨工资2023年最新消息公布-播报
- 天天信息:宣汉县气象台发布暴雨黄色预警信号【III级/较重】【2023-05-27】
- 同比增长0.60%!四川省发布一季度制造业人工成本监测信息_报道
- 安杰思:目前内镜用二氧化碳送气装置和内镜用送水装置增速良好_天天热点
- 环球微头条丨高端ERP白皮书发布
- “亏空400亿被华润收购”“考虑出售20个万达广场”?万达回应四大传闻:谣言!
- 全球热门:民营经济纳税人缴费人新增减税降费及退税缓费超3393亿元
- 河北围场:“六个一”定制服务持续优化营商环境
- 全球微速讯:等额本息和等额本金提前还款好吗_等额本息和等额本金的区别提前还款
- 陕西2023一级建造师考试报名入口-世界实时
- 跟队记者:拜仁青训主管绍尔无意离队,他与球队延长了合同
- 拼多多一季度营收376.4亿元 净利润同比增长212%_当前关注
- 天天视点!华发股份:公司目前经营正常
- 腾讯加大贵州投入力度 助力打造数字经济发展创新区-最新资讯
- 今日视点:当一个人不联系你时,就不要做这几件蠢事了
广告
广告
- 长治襄垣县增收11517万元 提前15天实现首季“开门红”
- 黑龙江讷河新增1例确诊4例无症状 病例详情公布
- 浙江宁波余姚奉化宁海三地开展核酸检测 结果均为阴性
- 浙江湖州南浔三处棋牌室经营者被行拘
- 那年今日 | 一张漫画涨知识之12月13日
- 在宁波乘火车跨省出行须持48小时内核酸阴性证明
- 浙江温州一地发现核酸弱阳性?复采复检结果均为阴性
- 浙江三门发现一名密接者:二次核酸检测结果均为阴性
- 贱卖的发电机 新买的制茶机——安徽水电供区改革两周年回访见闻
- 浙江杭州新增1例新冠肺炎确诊病例 为集中隔离人员
- 2022年研考在即,学硕缩招,专硕时代真的来了?
- 探访杭州核酸检测点:排队高峰多在夜间 医院24小时运转
- 浙江发挥零售药店“哨点”作用 织就疫情防控监测网
- 哈尔滨市本轮疫情首批1名确诊患者出院
- 宁波镇海第三轮全员核酸检测574181人 结果均为阴性
- 陕西新增本土确诊病例1例、境外输入无症状感染者2例
- 齐齐哈尔讷河一地调整为中风险地区
- 浙江新增新冠肺炎确诊病例75例 其中本土74例
- 内蒙古新增本土确诊病例5例 均在呼伦贝尔满洲里市
- 黑龙江无新增确诊病例 新增本土核酸检测初筛阳性人员5例






