您的位置：首页 >科技 >

环球观速讯丨GPT-4“自我反思”后能力大增，测试表现提升 30%

来源：搜狐号-IT之家时间：2023-04-04 12:08:01

【资料图】

IT之家 4 月 4 日消息，OpenAI 最新的语言模型 GPT-4 不仅能够像人类一样生成各种文本，还能够设计和执行测试来评估和改进自己的表现。这种“反思”技术让 GPT-4 在多项难度较高的测试中，都取得了显著的进步，测试表现提升 30%。

GPT-4 是继 GPT、GPT-2 和 GPT-3 之后，OpenAI 推出的最先进的系统，也是目前最大的多模态模型（可以接受图像和文本输入，输出文本）。其利用深度学习技术，使用人工神经网络来模仿人类的写作。

研究人员诺亚・辛恩（Noah Shinn）和阿什温・戈平纳特（Ashwin Gopinath）在论文中写道：“我们开发了一种新颖的技术，让 AI 代理能够模拟人类的自我反思，并评估自己的表现。GPT-4 在完成各种测试的时候，会增加一些额外的步骤，让它能够自己设计测试来检查自己的答案，找出错误和不足之处，然后根据发现来修改自己的解决方案。”

在 HumanEval 编码测试中，GPT-4 使用自我反思环路，准确率从 67% 上升到 88%

GPT-4 可以通过设计和执行测试来批判其自身的性能，如 AlfWorld 测试结果所示，可以大大改善其性能

研究团队使用这种技术对 GPT-4 进行了几种不同的性能测试。在 HumanEval 测试中，GPT-4 需要解决 164 个从未见过的 Python 编程问题，原本准确率为 67%，使用反思技术后，准确率提升到了 88%。在 Alfworld 测试中，AI 需要在各种不同的交互环境中，通过执行一些允许的操作，来做出决策和解决多步任务。使用反思技术后，GPT-4 的准确率从 73% 提高到了 97%，只有 4 个任务失败。在 HotPotQA 测试中，GPT-4 可以访问维基百科，并回答 100 个需要从多个支持文档中解析内容和推理的问题，原本准确率为 34%，使用反思技术后，准确率提高到了 54%。

这项研究表明，AI 问题的解决方案有时候是依赖 AI 本身。IT之家发现，这有点像生成对抗网络，这是一种让两个 AI 互相提高技能的方法，比如一个 AI 试图生成一些看起来像真实图片的图片，另一个 AI 试图分辨哪些是假的，哪些是真的。但在这种情况下，GPT 既是写作者又是编辑，通过自我反思来改进自己的输出质量。

标签：

热门资讯

富拓集团打造一站式投资交易服务，让用户快速抢占市场先机 随着经济不断发展，人们收入水平的...
深化共享价值模式 I 健合集团发布2022年可持续发展报告 4月3日，全球高端营养及健康产业领...
共襄盛举擘画未来——2023易派客工业品展览会开幕在即！ 工业是立国之本，是建设社会主义现...
七匹狼集团深耕夹克品类，满足消费者更多时尚需求 随着我国居民收入的持续增加，人民...

观察

图片新闻

今日热闻!小小“金种子”触摸三亚南繁“新力量” 4月1日至4日，一年一度的种业盛会...
世界通讯！最高人民法院发布第三批人民法院种业知识产权司法保护典型案例 4月1日，在2023中国种子大会暨南繁...
环球热消息：南繁硅谷分论坛举行 4月3日，2023中国种子大会暨南繁硅...
世界观速讯丨南繁种业创新成果发布三亚一水稻新品种入选 4月3日，2023中国种子大会分论坛—...

精彩新闻

观点：国际爱鸟日镜头下的空中精灵 4月1日是《世界保护益鸟公约》规定...
国家医疗保障局工作组赴三沙市开展调研 日前，国家医疗保障局价格招采司司...
微软发布 Xbox 预览版更新：可查看好友的成就、社区帖子等 IT之家4月4日消息，微软今天面向Al...
清明节的来历和风俗清明节吃什么风俗食物？ 清明节的来历和风俗清明节又叫踏青...
环球百事通！《帕丁顿熊 3》电影将于七月开拍，片名《帕丁顿熊在秘鲁》 IT之家4月4日消息，Deadline的一份...
观速讯丨广西：不负好春光 【原标题】不负好春光4月2日，游人...
每日快看：川崎总部落户佛山总投资10亿元 4月3日下午，千亿工业大镇容桂迎来...
【速看料】消息称电视剧《最后生还者》第二季将在温哥华拍摄 IT之家4月4日消息，根据国外科技媒...
TIL 疗法公司劲风生物完成千万美元 A 轮融资，道彤投资领投 近日，免疫细胞疗法公司劲风生物...
世界实时：危险！湘西13辆三轮摩托车违法载人被曝光 红网时刻新闻4月3日讯（通讯员张进...
迎春花是什么颜色迎春花有红色和白色的吗？ 迎春花是什么颜色迎春花颜色只有黄...
当前速看：“污水不出村，出村无污水” 江苏徐州：农村生活污水治理率位居苏北第一 记者从市生态环境局了解到，2022年...
速递！GDF免税城将亮相第三届消博会别样“世界之城”等你来打卡 第三届中国国际消费品博览会将于4...
哥斯拉的由来是什么哥斯拉是谁创作的哥斯拉的父母被谁杀了？ 哥斯拉的由来是什么哥斯拉起源：19...
摊丁入亩是什么意思摊丁入亩是谁提出来的？ 摊丁入亩是什么意思摊丁入亩是清朝...
七匹狼集团深耕夹克品类，满足消费者更多时尚需求 随着我国居民收入的持续增加，人民...
浙南闽北赣东精准诊断中心落户温州，迪安诊断助力区域医疗高质量发展 精准医疗在新时代有哪些新思考和新...
家禽有哪些动物家畜有哪些动物六畜是指哪六畜？ 家禽有哪些动物家禽动物是：家鸭、...
许文赫为什么娶马丽沈腾为什么不娶马丽？ 许文赫为什么娶马丽因为许文赫喜欢...
“和珅”扮演者王刚清空多平台账号和珅是哪个皇帝在位？ 和珅扮演者王刚清空多平台账号近日...
主力净流入大增为什么还跌主力流入多第二天会涨吗？ 主力净流入大增为什么还跌?1、散户...
北爱尔兰和爱尔兰区别是什么北爱尔兰是国家还是城市？ 北爱尔兰和爱尔兰区别爱尔兰是一个...
【全球新要闻】一个标签页可显示两个网页，微软 Edge 浏览器稳定版引入分屏模式 ... IT之家4月4日消息，微软在今年2月...
全球看热讯：三亚在省内首设“首席创新官”！ “我承诺，以制度创新为己任，刻深...
微软Surface Dock 3扩展坞照片曝光：弃用专用接口 IT之家4月4日消息，根据国外科技媒...
2023徐州迷马即将开跑 中国徐州网-徐州日报讯（记者陆铭...
每日速递：高职院校竞争力白皮书发布，专科生就业以二三产业为主 职业教育一直是我国高等教育体系中...
今日讯！三亚市“制度创新年”行动第一批制度集成创新课题 点击查看
125家A股生物医药公司2022年近九成盈利超七成研发投入同比增长 同花顺数据显示，截至4月3日，A股4...
徐州唢呐演奏上榜 唢呐演奏《欢天喜地庆丰收》。徐州...
导航仪品牌哪个好点？导航仪品牌有哪些推荐？ 1、简介：车载导航仪是目前社会上...
战鼓催春，项目建设涌热潮 本报记者林雪劲风好扬帆筑巢好引凤...
看热讯：德国数据官员称不排除封禁ChatGPT，法国、爱尔兰正向意大利“取经” 据路透社消息，德国联邦数据保护专...
每日关注!DuoWoA项目动态，初代Surface Duo手机可流畅运行Win10X系统 IT之家4月4日消息，得益于DuoWoA项...
焦点！桃红柳绿尽芳菲 游客在桃花园内拍照打卡。本报记者...
全球今头条！NASA公布明年参加“阿耳忒弥斯2号”绕月飞行的宇航员名单 IT之家4月4日消息，据央视新闻，当...
警惕数据泄露，对侵犯停车信息犯罪行为说“不” 日前，由江苏省南京市鼓楼区检察院...
即时：诺基亚7500棱镜基本参数介绍？诺基亚7500棱镜的优势有哪些？ 说起手机这个名词，大家都不陌生！...
天天快播：森养 AF35-150mm F2-2.8 FE 镜头参数曝光，重约 1224g IT之家4月4日消息，森养将于4月6日...
热推荐：怎么取消桌面图标阴影？去掉桌面图标的阴影的方法介绍？ 1、导读：现在随着电脑在我们家庭...
天天新消息丨远朋随春至共赴梨花海 梨花文化节期间，汉服游园等活动精...
每日报道：无线网密码忘了怎么办？无线网密码忘了如何找回？ 1、根据网络调查，笔者发现随着无...
当前看点!超薄型避孕套有哪些推荐？推荐十款受欢迎的超薄避孕套 1、杜蕾斯避孕套安全套情爱四合一3...
索尼HDR-AS15相机怎么样？索尼HDR-AS15的三防应用介绍？ 三防手机军用，三防摄像机很多人还...
播报：百度随身wifi如何连接？百度随身wifi的连接方法？ 1、小米WiFi和百度WiFi哪个好？2、...
保卫萝卜沙漠5怎么玩？保卫萝卜沙漠5攻略？ 萝卜沙漠怎么防守？保卫芜菁的游戏...
天天即时：三星S4怎么刷机？s4刷机教程有哪些？ 1、三星s4刷机教程2、S4搭载Exynos...
世界速递！安徽省第五届青少年语言艺术大赛总决赛落幕 3月18日至19日，“美好少年”安徽...
当前热点-n7100三星手机报价是多少？三星n7100怎么样？ 1、手机已经成为人们生活中不可或...
全球滚动:HyperX 旋火2 系列游戏鼠标发布：可选有线/无线版本，399 元起 IT之家4月4日消息，HyperX极度未知...