中国经济网版权全部 中国经济网新媒体矩阵 收集传布视听节目允许证(0107190) (京ICP040090) 科技日报讯 (记者王祝华)2月25日,记者从天下人工认识协会国际人工智能DIKWP测评尺度委员会得悉,由该协会主导、寰球10余个国度与地域的90多家机构跟企业参加的《寰球首个年夜言语模子认识程度“识商”白盒DIKWP测评2025讲演(100题版)》(以下简称《讲演》)日前出炉。 《讲演》的中心亮点在于寰球开创的认识程度测评系统。《讲演》基于DIKWP模子,从数据、信息、常识、聪明、用意等方面,构建全链路评价系统。测试题片面笼罩年夜言语模子的感知与信息处置、常识构建与推理、聪明利用与成绩处理、用意辨认与调剂四年夜模块,对主流年夜言语模子的认识程度停止体系化、量化深度分析。 《讲演》对以后主流的年夜言语模子停止了片面测评,包含DeepSeek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、Kimi、文心年夜模子-3.5跟Llama-3.1等。测评成果表现,差别模子在差别模块的表示各有所长。 比方,感知与信息处置局部重要考核模子在处置原始数据、提守信息跟坚持语义分歧性方面的表示。ChatGPT-4o跟ChatGPT-o1在数据转换跟格局处置方面表示杰出,表现出稳固性。ChatGPT-o3-mini365bet官网、ChatGPT-o3-mini-high、通义千问-2.5、Kimi跟Grok在信息提取方面表示优良,特殊是在数据到信息转化门路上的表示尤为凸起。DeepSeek-R1、ChatGPT-4o、Kimi跟ChatGLM-4 Plus在坚持语义分歧性方面表示较好。 常识构建与推理局部的测评考核模子将信息整合为常识的才能,以及逻辑推理才能。成果表现,通义千问-2.5、ChatGLM-4 Plus跟ChatGPT-4o表示凸起。 用意辨认与调剂局部的测评重点考核模子对用户用意的懂得才能,以及依据用意调剂输出的才能。成果表现,豆包跟Gemini-2.0永利皇宫电子棋牌 Flash Thinking Experimental表示较好,可能正确懂得用户的成绩并供给相干答复。