GPTo1论文详解

news/2024/9/20 20:44:49 标签: 深度学习, 人工智能

Learning to Reason with LLMs – OpenAI o1 论文详解

Abstract

OpenAI 推出了 OpenAI o1,这是一种新的大型语言模型,通过强化学习进行训练,用于执行复杂的推理。o1 在回答之前会思考 - 在响应用户之前,它可以产生一个很长的内部思维链。OpenAI o1通过Chain of thought来对数学与写代码问题进行提升。

OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89 个百分位(前11%),在美国数学奥林匹克竞赛 (AIME) 资格赛中跻身美国前 500 名学生之列,在物理、生物和化学问题的基准 (GPQA) 上超过了人类博士水平的准确性。

Main results

大规模强化学习算法教会模型如何在高度数据高效的训练过程中使用其思维链进行高效思考。我们发现,随着强化学习(训练时计算)的增加和思考时间的增加(测试时计算),o1 的性能会不断提高。

在这里插入图片描述

为了突出对 GPT-4o 的推理改进,我们在各种人类考试和 ML 基准测试中测试了我们的模型。我们表明,在绝大多数这些推理密集型任务中,o1 的性能明显优于 GPT-4o。

在这里插入图片描述

  • 在许多需要大量推理的基准测试中,o1 的表现可以与人类专家相媲美。最近的前沿模型在 MATH2 和 GSM8K 上的表现如此出色,以至于这些基准测试已经不再能够有效地区分模型之间的差异。我们评估了 AIME(一项旨在挑战美国最优秀的高中数学学生的考试)上的数学表现。在 2024 年的 AIME 考试中,GPT-4o 平均只解决了 12%(15 题中的 1.8 题)。而 o1 在每题仅用一个样本的情况下平均解决了 74%(15 题中的 11.1 题),在使用 64 个样本达成共识时解决了 83%(15 题中的 12.5 题),当利用学习到的评分函数对 1000 个样本进行重新排序后,则解决了 93%(15 题中的 13.9 题)。得分 13.9 使它处于全国前 500 名学生之列,并超过了美国数学奥林匹克竞赛的入选门槛。
  • 我们还在 GPQA 钻石测试上对 o1 进行了评估,这是一个难度很高的智力基准测试,涵盖了化学、物理和生物学的专业知识。为了将模型与人类进行比较,我们招募了具有博士学位的专家来回答 GPQA 钻石测试的问题。我们发现 o1 的表现超越了这些人类专家,成为首个在这一基准测试上实现这一成就的模型。这些结果并不意味着 o1 在所有方面都比拥有博士学位的人更胜一筹 —— 只是表明该模型在解决某些博士生应能解答的问题上更加熟练。

在这里插入图片描述

Chain of Thought思维链

官网的展示提供了使用GPT-4o和OpenAI o1进行推理的例子,涉及Cipher,coding,Math,Crossword,English等问题。

https://openai.com/index/learning-to-reason-with-llms/

可以看出虽然在user的指示下,GPT-4o也会一步一步地思考,但是越到思考的关键点或问题的深入,就开始只给定性信息了,开始扯东扯西了,没有得到想要的答案。而OpenAI o1则是一步步地思考,一步步地回答,最终得到了具体的答案。无论答案对与错,一个具体的答案都能给user启发,这一点我觉得是OpenAI o1的独特之处。

coding水平

我们训练了一个模型,在2024年国际信息学奥林匹克竞赛(IOI)中获得了213分,并排名在第49百分位。这个模型是基于o1初始化的,并进行了进一步的训练以提高编程技能。该模型与人类参赛者在相同的条件下参加了2024年的IOI,有十个小时来解决六个具有挑战性的算法问题,并且每个问题允许提交50次。

对于每个问题,我们的系统采样了许多候选提交,并根据比赛时的选择策略提交了其中50个。提交的选择依据是IOI公开测试用例的表现、模型生成的测试用例以及一个学习到的评分函数。如果我们随机提交的话,平均只能得到156分,这表明在这种竞赛约束下,这种策略的价值接近60分。

当我们放宽提交限制时,发现模型的表现显著提升。当每个问题允许提交10,000次时,即使没有任何比赛时的选择策略,模型也达到了362.14分——超过了金牌门槛。

最后,我们模拟了Codeforces举办的编程竞赛,以展示这个模型的编码技能。我们的评估严格遵循竞赛规则,并允许每个问题提交10次。GPT-4o取得了808的Elo评分,位于人类竞争者的第11百分位。而这个新模型远远超越了GPT-4o和o1,它达到了1807的Elo评分,表现优于93%的竞争者。

在这里插入图片描述

其他水平

在这个评估中,人类训练员被展示了来自o1预览版和GPT-4o的匿名响应,并投票选择了他们更喜欢哪一个响应。在诸如数据分析、编码和数学等需要大量推理的类别中,人们明显更倾向于选择o1预览版。然而,在某些自然语言任务上,o1预览版并不受欢迎,这表明它并不适用于所有使用场景。

在这里插入图片描述

但是我在B站评论区还发现了一些针对自然语言任务有提升的情况

在这里插入图片描述

在这里插入图片描述

安全性与隐私

OpenAI一贯的作风就是:不让用户通过一些越yu的方法来让大模型生成一些harmful的东西,然后现在又隐藏了Chains of Thougt的思维链,让用户无法知道模型的思路。其实就是又想让别人觉得他厉害,又不想让友商学习。我代表友商谴责这种行为(除非他免费给我用),以下是官方说法:

  • 我们认为隐藏的连贯思维为监控模型提供了一个独特的机会。假设它是忠实且可读的,隐藏的连贯思维使我们能够“读懂”模型的想法,并理解其思考过程。例如,未来我们可能希望监控连贯思维中是否存在操控用户的行为迹象。然而,为了让这种方法有效,模型必须有自由以未修改的形式表达其思想,因此我们不能将任何政策合规性或用户偏好训练到连贯思维中。同时,我们也不希望将未经对齐的连贯思维直接展示给用户。

  • 因此,在权衡了包括用户体验、竞争优势以及追求连贯思维监控的可能性等多方面因素后,我们决定不向用户显示原始的连贯思维。我们承认这一决定存在缺点。

  • o1预览版在关键越yu评估及用于测试模型安全拒绝边界的最难内部基准上实现了显著改进的表现。我们认为使用连贯思维对于安全性和对齐性具有重要意义,原因在于:(1) 它使我们能够以清晰的方式观察模型的思考过程;(2) 模型关于安全规则的推理更能抵御分布外情况。

在这里插入图片描述

总结

  1. OpenAI o1使用强化学习训练模型,通过Chain of Thought思维链来进行推理。但最重要的是它指出了新的方向。虽然只是思维链,模型本身没什么提升,但这意味着你可以堆算力来产出高质量的问答。然后把这些问答再喂给更小的模型。然后再用更小的模型微调大模型。然后大模型再继续cot产出更好的问答。这就是一个指数性的爆发。原本以为ai很难又再大的模型突破,但现在看来应该会沿着势头继续下去。
  2. o1这次没有多模态,也没有花里胡哨的东西,openai给大模型解决了一个相当关键的问题,让大模型学会先思考,在思维链中逐步提取要素然后才输出结果,与一般思维链不同这个强化学习内部自我对抗完全是一个新方向,也正因如此,复杂问题即难以直接得出结论的问题这样的思维链效果很爆炸,简单问题能够直接得出结论的反倒多余,他们后续再更新之后无论简单还是复杂都能进行准确思考的话,这是AI能够称得上智能的决定要素了吧

http://www.niftyadmin.cn/n/5667620.html

相关文章

影刀RPA实战:网页爬虫之苦瓜书籍数据

书籍常常被视为心灵的慰藉,因为它们能够在不同的层面上为人们提供支持和安慰。 1. 书籍对我们的重要性 书籍是人类知识的载体,也是智慧的结晶。它们不仅是学习的工具,更是人类心灵的慰藉。在忙碌的生活中,书籍能够提供知识、启发…

Selenium 4.* 获取网页token

环境: <dependency><groupId>org.seleniumhq.selenium</groupId><artifactId>selenium-java</artifactId><version>${selenium.version}</version> </dependency>java 版本 11 chromeDriver 下载地址 我使用的版本: https…

揭开 Vue 3 中大量使用 ref 的隐藏危机

在 Vue 3 中&#xff0c;ref 是用来创建响应式的引用&#xff0c;它能够追踪和管理单一的变量或对象。当代码中大量使用 ref 时&#xff0c;虽然可以实现对各个状态或数据的精细控制&#xff0c;但也会带来一些问题和潜在影响。 1. 大量使用 ref 带来的问题 1、代码冗长与维护…

C++解决n点最小曼哈顿距离

作者制作不易&#xff0c;关注、点赞、收藏一下吧&#xff01; 1.曼巴顿距离 ‌‌曼哈顿距离是由十九世纪的‌赫尔曼闵可夫斯基所创词汇‌&#xff0c;用于标明两个点在标准坐标系上的绝对轴距总和。 2.代码实现 2.1.导入头文件、命名空间 这个没有什么好说的&#xff0c;…

通信工程学习:什么是ODN光分配网络

ODN&#xff1a;光分配网络 ODN&#xff08;Optical Distribution Network&#xff0c;光分配网络&#xff09;是光接入网中的重要组成部分&#xff0c;它位于光线路终端&#xff08;OLT&#xff09;和光网络单元&#xff08;ONU&#xff09;/光网络终端&#xff08;ONT&#x…

【Python】耗时任务的超时管理

一、背景介绍 在日常编程中&#xff0c;我们经常会遇到一些耗时的任务&#xff0c;如文件处理、网络请求等。为了提高程序的执行效率&#xff0c;我们可以采用多进程的方式来实现任务的并行处理。然而&#xff0c;在某些情况下&#xff0c;任务执行时间过长可能会导致程序卡顿&…

ARM中要使用的汇编基础

汇编代码&#xff1a; preserve8 area reset, code, readonly code32 entry ; 异常向量表 b start ; 重置异常&#xff0c;跳转到 start 标签 ldr pc, do_undifined ; 未定义指令异常处理函数地址 ldr pc, do_swi ; 软件中断异常处理函数地…

初体验《SpringCloud 核心组件Eureka》

文章目录 1.案例准备1.1 案例说明1.2 案例数据库准备1.3 环境搭建1.3.1. 创建一个空的项目1.3.2. 创建Maven工程1.3.3. 配置父工程依赖&#xff0c;SpringCloud版本以及对应的SpringBoot版本1.3.4. 创建公共模块1.3.5. 创建用户模块工程1.3.5.1 引入依赖以及配置文件1.3.5.2 在…