AI「未来指南」！OpenAI安全团队负责人：AI Agent「详细讲义」

时间：2024-01-21 12:20:05

面，对每个以外顺利完形同详细的解释。

建设工程 Planning

多样的战斗任务不一定就其许多工序。AI Agent必需知道他们是什么，并提之前结束构想。

1、战斗任务氧化（Self-Reflection）

战斗任务氧化主要是的借以是将多样的战斗任务氧化形同十分简单的小战斗任务，这样LLM可以越来越十分简单地为了让疑问。

这里详述2类方法：

1）意识核酸已形同为加强多样战斗任务假设性能的标准高亮系统设计（Prompt Technology）。也就是说上就是让假设“一步一步地思考”，运用越来越多的测试间隔时间计数将不便战斗任务氧化为越来越小、越来越十分简单的工序。CoT将大型战斗任务再生为多个可管理工作的战斗任务，并对假设的意识流程顺利完形同了表述。

2）思想树根（姚等人2023年）通过在一个大探索多种悬疑或许性来扩展CoT。它首先将疑问氧化为多个意识工序，并一个大转换形同多个意识，创始人一个树根结构。监视流程可以是BFS（广度之前提监视）或DFS（广度之前提监视），每个稳定状态都由归入器（通过高亮）或多数票指标。

2、自我反思（Self-Reflection）

自我反思是一个重要的方面，它受受到限制AI Agent通过完善无论如何的军事行动决断和缺失之之前的偏差来插值地革从新。它在现实世界里起到着至关重要的作用，在现实世界里，试错是无可避免的。

这里也涵盖几种方法：

1）ReAct（姚等人2023年）通过将跳跃生活空间扩展为特定于战斗任务的DFT跳跃和语种生活空间的组合，将悬疑和不道德集形同在LLM里。之前者使LLM能够与状况交互（例如应用于MediaWiki监视API），而后者则高亮LLM以自然语种转换形同悬疑监视。

2）Reflexion（Shinn & Labash 2023）是一个为改由搭载时序清醒和自我当下能够以大幅提高悬疑能够的组件。Reflexion 具有标准的强化进修（Reinforcement Learning，RL）设置，其里奖励假设给予十分简单的十六进制奖励，而军事行动生活空间则沿用至今 ReAct 里的设置，即在特定战斗任务的军事行动生活空间里加入语种，以为了让问题多样的悬疑工序。每次军事行动后，AI Agent则会计数一个启发式的值，然后根据自我当下的结果决定重置状况以开始从新的试验性。

3）Chain of Hindsight（CoH；Liu 等人，2023 年）通过向假设确实展示一系列无论如何的负载结果，借此假设革从新自己的负载结果。

清醒 Memory

清醒（Memory），是类似多轮提问里讲出在此之之前的回传和设定的一种能够。在近期的大假设指令集里，随着提问的上升，要讲出在此之之前用户的回传章节再负载必需消耗大量的硬件资源。大多数假设默许的语义间隔都是十分依赖于的。

超过这个间隔之后，大多数假设的性能都则会极具下降或者是不默许。但是长语义是为了让确实疑问里必须要面对的。如代码转换形同、童话故事续写、评注摘要等场景，支撑越来越长的回传不一定理论上越来越好的结果。

在这里，Lili Weng先是归纳了一下有机体的清醒归入归纳，然后对应到大假设上分别是什么样的。

1、清醒类别

清醒可以定义为用于得到、驱动器、移去和查询电子邮件的流程。有机体大脑里有几种类别的清醒。

感受清醒（Sensory Memory）：这是清醒的最早阶段，能够在原始诱导结束后移去对感受电子邮件（缩放、听觉等）的印象。感受清醒不一定才则会持续几秒钟。其子类别最主要可选清醒（缩放）、水声清醒（听觉）和嗅觉清醒（嗅觉）。

短时清醒（Short-Term Memory，STM）或临时工清醒：它驱动器我们近期意识到的电子邮件，以及继续执行进修和悬疑等多样认知战斗任务所需的电子邮件。

长时清醒（Long-Term Memory，LTM）：长时清醒可以将电子邮件驱动器更长间隔时间，从几天到几十年不等，驱动器容量也就是说上是无限的。长时清醒有两种亚型：

显性/陈述性清醒：这是对似乎和暴力事件的清醒，指那些可以主观地回忆起的清醒，最主要一般而言清醒（暴力事件和经历）和语义清醒（似乎和概念）。

内隐/比如说清醒：这种清醒是思绪的，就其操作者继续执行的能力和例行程序，如骑车或在键盘上打字元。我们可以也就是说上再考虑将右边的清醒类别对应到下面几个以外：

感受清醒是类似大假设进修原始回传（最主要评注、缩放或其他模式）的给定表征；

短时清醒可以了解为大假设的语义进修，类似于prompt。由于受到 Transformer 依赖于语义售票厅间隔的受到限制，它是短暂和依赖于的，但是可以每次回传都加进。

近十年清醒一般就是大假设之外作为举例来说formula_驱动器的数据资料了，AI Agent可在查阅时加以关切，并可通过短间隔时间内查询顺利完形同访问。

那么，在举例来说数据资料查询的时候也必需再考虑一些方法。这里给予一种经典的方法。

2、最小线性变换监视（MIPS）

举例来说驱动器器可以大大的降低依赖于注意力的受到限制。标准的做法是将电子邮件的给定问到留存到formula_驱动器数据资料库里，该数据资料库可默许短间隔时间内的最小线性变换监视（MIPS）。

为了冗余查询速度，不一定选项近似邻近地区（ANN）算法来来到近似的之前 k 个邻近地区，从而以财产损失的少量精准度换取庞大的速度降低。

方法应用于 Tool Use

LLM，本身最强的是评注比对、意图了解等，但是对于计数等加载或许还不如传统习俗计数器。因此，为LLM搭载一些方法可以大大的降低LLM的能够，这里详述几个相关的深入研究（产品）。

1、MRKL（Karpas等人，2022 年）是 “模块化化悬疑、知识和语种 “的简称，是一种用于自主改由的神经符号指令集。MRKL 系统则会涵盖一系列 “医学专家 “模块化，区别于 LLM 用作路由器，将查阅路由到最合适的医学专家模块化。这些模块化可以是神经模块化（如广度进修假设），也可以是符号模块化（如算术计数器、货币转换器、天气情况 API）。

Karpas等人应用于数论作为测试个案，对LLM顺利完形同了简化实验，以子程序计数器。他们的实验表明，为了让口述算术疑问比为了让确实陈述的算术疑问越来越难，因为LLM（7B Jurassic1-large model）能够有效率地提取也就是说数论的正确模板。这理论上当举例来说符号方法能够有效率地临时工时，了解何时以及如何应用于这些方法至关重要，这取决于 LLM 的能够。

2、TALM（方法加强语种假设；Parisi 等人，2022 年）和 Toolformer（Schick 等人，2023 年）都对 LM 顺利完形同了简化，使其该协则会应用于举例来说方法API。数据资料集根据从新添加的API子程序注释到底能大幅提高假设负载的质量顺利完形同扩展。

ChatGPT Plugins 和 OpenAI API 返回值是加强方法应用于能够的 LLM 在实践里起到作用的良好范例。方法 API 的子集可以由其他开发人员给予（如插件），也可以自行定义（如返回值）。

3、HuggingGPT（Shen 等人，2023 年）是一个应用于 ChatGPT 作为战斗任务建设工程器的组件，可根据假设描述选项 HuggingFace 网络服务里可用的假设，并根据继续执行结果归纳响应。

HuggingGPT涵盖四个工序：战斗任务建设工程、假设选项、战斗任务继续执行和响应转换形同。

4、API-Bank（Li 等人，2023 年）是指标方法加强 LLM 性能的基准。它涵盖 53 种常见的 API 方法、一个完整的方法加强 LLM 临时工流程以及 264 个注释提问，其里就其 568 次 API 子程序。

API 的选项非常多种不同，最主要监视引擎、计数器、日历查阅、智能家居支配、提之前管理工作、保健数据资料管理工作、账户认证临时工流程等。由于 API 数量众多，LLM 首先可以访问 API 监视引擎，找到要子程序的 API，然后应用于相应的文档顺利完形同子程序。

。

病理性黄疸
女人保养
拉稀吃蒙脱石散不管用
流感喉咙痛用什么药好得快
病毒性胃肠炎用什么药

上一篇：性能优先还是续航优先？一加Ace2pro在这道作文上答错了

下一篇：湖南9岁小学生被老师砸伤头部，头盖骨被打碎，家长愤怒不已