您的位置：首页 >关注 >

国内大模型在局部能力上已超 ChatGPT？

来源：钛媒体时间：2023-08-07 19:11:35

图片来源 @视觉中国

文 | 数科星球原创，作者丨苑晶，编辑丨大兔

从 GPT3.5 彻底出圈后，大模型的影响力开始蜚声国际。一段时间内，国内科技公司可谓被 ChatGPT 按在地上打，毫无还手之力。

(资料图片仅供参考)

彼时，很多企业还不知大模型为何物，GPT3.5 就已够生成诸如营销文案、小说、诗歌等高质量的中文文本。一时间，买课小贩、租号中间商和套壳开发者大行其道。

现如今，在国内厂商严肃对待 OpenAI 后，情况发生了变化。

在公开资料中，就有 360、复旦大学、科大讯飞等企业表达了在中文能力上超越 ChatGPT 的消息。现在，时间进入 2023 年 8 月份，号称超越国外竞品的公司变得越来越多。

01 中文模型进击：ChatGPT" 不香 " 了

客观地说，在 GPT-3 推出后，OpenAI 曾经在中文文本输出中占得先机。其一经推出，便可覆盖诸如营销文案、小说和诗歌等领域的文生文需求。几个月前，这种先手优势养活了国内一众卖课达人、租号团队以及套壳聊天机器人产品。

不过，很快，这些功能便被国内众多厂商超越，变成了大模型的 " 标配 " 功能。

根据第三方监测机构 SimilarWeb 的数据显示，ChatGPT 从 4 月开始就呈现出了明显放缓的趋势。以至于在 2023 年的第二季度，人们的朋友圈内几乎没有了 OpenAI 的踪影。在科技圈，这被归结为竞争对手大批量涌入、垂直模型兴起和新技术迭代所导致。

8 月初，中文大模型的 " 千模大战 " 已进入白热化阶段。以数科星球团队所掌握的信息来看，越来越多的企业开始关注下沉市场、并致力于推进具体行业和大模型产品的结合。

这种趋势的结果是，可能会有更多的企业和机构选择使用本土产品，同时也对国外模型的市场份额造成一定影响。在数科星球团队体验二十余款中文大模型后，所得到的观感和上述言论趋同：即中文大模型正在变得越来越好用，并变得越来越聪明。

更为关键的是，政策层面对国内产品的扶植力度正在加强，而出于安全和自主可控等因素，ChatGPT 的 " 没落 "（至少在国内）似乎已成板上钉钉。

但国内厂商的野心还远不止 " 内卷 " 国内市场——一些公司已然将目光瞄准了海外。

科大讯飞董事长刘庆峰此前表示，其星火大模型中文已超越 ChatGPT，在英文中也已接近，虽还有细微差别，但目前在进一步优化中。

02 中文大模型变聪明的背后

为了探求国内中文大模型的发展情况，在过去的几个月中，数科星球团队与几十家公司进行了百余次沟通。结果是，科技圈的大佬和创业新星们对待 OpenAI 的态度严肃且认真。

除了在产品上进行了洗心革面式的改进，还对模型的评价体系进行了优化。

为了弥补中文大模型在评测领域的缺失，日前由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集于不久前推出，该评测名为 C-Eval，受到了行业内的广泛关注。

在一些专业人士看来，此评测的初衷是用 " 锱铢必较 " 的方式找出中文大模型的比较优势。和以往由第三方咨询公司所主导的、带有倾向性甚至定制化的行业评比所不同的是，无论在过程和结果上，C-Eval 更加透明和公开。

据了解，全套测验包含 13948 道多项选择题，涵盖 52 个不同学科和四个难度级别。其中前四名包括为清华智谱的 ChatGLM2、OpenAI 的 GPT-4、商汤的 SenseChat，APUS 的 AiLMe-100Bv1。

对比由微软亚洲研究院（Microsoft Research Asia）开发的基准测试 AGIEval，C-Eval 覆盖的领域更广。APUS 技术专家张旭称："AGIEval 只覆盖了中国高考题、公务员考试题等几个类别，而 C-Eval 覆盖了注册电气工程师、注册计量师……等领域 "，覆盖范围的拓宽意味着，除高考、公务员考试等场景外，在其他特定职业领域也可以测定大模型的能力。

从另一个角度说，C-Eval 是一个对大模型从人文到社科到理工多个大类的综合知识能力进行测评的竞赛。通常，高阶难度测试是考验大模型性能的关键动作，面对复杂且有挑战性的任务，大多大模型性能会大幅下降。在 C-Eval 公布的评比结果中，APUS 的 AiLMe-100Bv1 除了在平均分上进入四强，还在难题处理方面超越 GPT-4*，排名第一。据悉，C-Eval Hard（难题）类别是首个提供中文复杂推理能力的测试，" 即便是 GPT-4 来做这个题也会很吃力，" 张旭提及，" 这是‘闭卷考试’，而以往如 AGIEval 和 MMLU 是‘开卷考试’，也就是说，AGIEval 和 MMLU 是各公司自己测试、自己打分、自己公布成绩，而 C-Eval Hard 的评比显然更加客观、可信。"

的确，C-Eval 测评难度比其他测评更高且更严格。在打分流程上，C-Eval 更像是学校中为学生准备的大考模式，各个公司参加统一考试并由系统自动打分、C-Eval 团队人工审核成绩并公布，所以，就结果上看，其测评所公布的成绩真实性更高。

03 国内大模型的未来

放眼行业，大模型对于国内人工智能产业的意义非凡。

在 NLP 行业出现范式变革后，Transformer 为主导的新一代通用大模型产品大行其道，让人们看到了 AGI 的曙光。甚至可以说，中国版的 ChatGPT3.5/4.0 的问世是我国正式迈向人工智能时代的重要标志。

在过去，一、二级资本市场对国内大模型产业意见颇多。讨论最多的是，国内公司没有在前沿技术投入太多，反而将精力侧重于 " 蹭 " 数字人、AIGC 等概念之上。

客观地说，上述评价不无道理，其中不乏因大环境不好，企业对前沿投入审慎和相关技术积累薄弱等问题所导致。

但近期，随着数科星球（ID：digital-planet）对大模型行业认识的深入，以上问题正在得到改变：首先，以智源研究院、百度文心一言、商汤和 APUS 等企业的持续投入，我国已有多家企业具备大模型制作和运营能力（此前大多为小模型）；其次，随着上半年密集的模型发布大会逐渐落幕，新模型开始迭代积累，并向着 ChatGPT 能力靠拢。

在我们所知的大模型产业上下游企业中，针对数据处理、清洗、标注、模型训练、推理加速等方面的技术也正在加速追赶之中；最后，政策层面已注意到发展大模型和 ChatGPT 的必要性，开始着手调集更多资源应对，相关生态和创新土壤也正在完备的过程中。

可以肯定的是，本次人工智能革命的核心就是通用大模型。目前，我国众多企业正在加速追赶。

现在，超越 ChatGPT 已成为国内 AI 从业者们心中的图腾。想必若假以时日，这个目标将有机会实现。而到那时，一个属于人工智能时代的大幕才彻底拉开。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

标签：