openAl正在开发代号为“Strawberry”的新模型可自主浏览互联网并自主推理

OpenAl正在开展一个代号为“Strawberry"的新人工智能模型项目

"Strawberry"项目原名为 Q*，据路透社报道，去年已被公司内部视为一项突破。内部文档显示团队正致力于此，但其工作细节及公开时间未明。该项目旨在让其人工智能不仅能回答问题，还能自主可靠地浏览互联网进行深度研究。

OpenAl希望借此大幅提升模型的推理能力，这是克服挑战的关键组成部分。

根据内部文件和熟悉情况的人的描述，该项目正在进行中，尚未明确何时会公开发布。

项目名称:Strawberry(草莓)国

目标:通过增强推理能力，使AI能够自主进行深入研究和长周期任务(LHT)，提高Al模型的智能水平

启用深度研究:Strawberry项目的核心目标是使A!模型不仅能够生成答案，还能自主浏览互联网进行“深度研究”。”这意味着AI将能够独立地进行信息检索和分析，并基于其发现采取行动。

推理能力提升:Strawberry旨在改进AI模型的推理能力，使其能够更好地处理多步骤问题和长周期任务。这种改进将使AI模型在科学发现、软件开发等复杂领域中表现出色。

后训练(Post-training):项目涉及一种特殊的后训练方法，即在模型预训练之后，通过进一步的调整和优化，提升模型的性能。这一过程包括但不限于细调(fine-tuning)，即通过人工反馈和示例调整模型的输出。

自我训练数据生成:Strawberry项目的方法类似于斯坦福大学开发的“Self-Taught Reasoner(STaR)，通过模型自我生成训练数据，不断提高其智能水平。理论上可使语言模型超越人类智能水平

·内部文档:根据内部文档，Strawberry项目已经在进行中，但具体发布日期尚未确定

“深度研究"数据集:根据OpenAl的内部文件，0penAl正在创建、训练和评估模型，使用该公司称之为“深度研究”数据集,

Strawberry将用于执行需要长时间规划和连续行动的任务，如科学研究和软件开发。

两位消息人士描述了今年早些时候观看的被0penAl员工称为Q*演示的内容，能够回答今天市售模型无法解决的棘手科学和数学问题。

据彭博社报道，在周二的一次内部全员会议上，0penA!展示了一个研究项目的演示，声称该项目具有人类般的新推理能力。0penAl的一位发言人确认了会议的存在，但拒绝透露内容细节。路透社无法确定展示的项目是否为“Strawberry"

知情人士称，0penAl希望这一创新能够显著提高其AI模型的推理能力，并补充道，“Strawberry"涉及一种在模型经过大规模数据预训练后处理AI模型的特殊方法。

虽然大语言模型已经能够比任何人类更快地总结密集文本和撰写优美的文章，但该技术在常识问题上往往表现不足，这些问题的解决方案对人类来说似乎是直观的，如识别逻辑谬误和玩井字棋。当模型遇到这些问题时，它往往会“幻觉"出虚假信息。

路透社采访的AI研究人员普遍认为，在AI背景下，推理涉及形成一个模型，使A!能够提前计划，反映物理世界的运作方式，并可靠地解决复杂的多步骤问题，

改进AI模型的推理能力被视为解锁模型能够做的一切事情的关键，从进行重大科学发现到规划和构建新的软件应用。

谷歌、Meta和微软等公司也在尝试不同的技术来提高A!模型的推理能力，大多数进行Al研究的学术实验室也是如此。然而，研究人员对大语言模型(LLM)是否能够将想法和长期规划纳入其预测方式存在分歧。例如，现代Al的先驱之一Yann LeCun在Meta工作，他经常表示LLM不具有人类般的推理能力。