Meta 公司近日宣布了一项新的 LLM 评估研究资助计划,旨在推动大型语言模型(LLM)评估领域的进一步创新。获选者将获得 20 万美元的资助,用于支持相关研究工作。提案提交截止日期为 9 月 6 日。
百度的研究团队开发出一种 “自我推理” 框架,该框架赋予 AI 系统以批判性思维,使其能够自主评估并验证自身知识与决策过程的准确性。百度在权威学术平台 arXiv 上发布的研究论文中详细阐述了这一方法。百度研究团队表示:“我们提出的自我推理框架,旨在提升检索增强语言模型(RARMs)的可靠性和可追溯性,其核心在于利用 LLM 自身生成的推理轨迹。”
通过内置的自我推理机制,AI 系统能够批判性地审视并评估自己的输出。这一发展标志着 AI 模型正由单一的预测工具向复杂的推理系统转变,自我推理能力的引入不仅提升了 AI 的准确性,还增强了其决策过程的透明度。
在具体实施上,百度的自我推理 AI 首先评估检索信息的相关性,随后选择并引用相关证据,最后通过分析推理路径,生成既有依据的答案。这种多步骤、严谨的推理流程,使得 AI 在信息处理上更加谨慎,同时也为其输出提供了清晰可追溯的依据。
在多个权威问答和事实验证数据集上的测试中,百度的自我推理系统均表现良好,甚至在某些情况下,仅使用少量训练样本(如 2000 个样本)就达到了与顶尖 AI 模型 GPT-4 相当的性能水平。
OpenAI 发布了其最新的小型模型 GPT-4o mini。OpenAI 称 GPT-4o mini 为 “我们最具成本效益的小模型”,其在性能和成本上均有进步。每百万输入 Token 仅需 15 美分,每百万输出 Token 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。
GPT-4o mini 在多项基准测试中表现良好。例如,在 MMLU 测试中得分 82%,高于 Gemini Flash 的 77.9% 和 Claude Haiku 的 73.8%。在编程能力测试 HumanEval 上,GPT-4o mini 得分 87.2%。作为 GPT-4o 家族的一员,GPT-4o mini 在 API 中支持文本和视觉,未来将支持文本、图像、视频和音频的输入和输出。
OpenAI 官方宣称,GPT-4o mini 在 API 中具有 128K Tokens 的上下文窗口,每次请求支持最多 16K 输出 Tokens,并且拥有截至 2023 年 10 月的知识。OpenAI 已经完成了 ChatGPT 网页版的模型替换,使用 GPT-4o mini 作为免费模型。该模型在 ChatGPT 上暂不支持上传图片、文件,也无法进行工具调用,对话最大上下文 Token 数为 8191。
GPT-4o mini 是 OpenAI 第一个应用 “指令层次方法” 的模型,这一方法有助于提高模型抵抗越狱、提示注入和系统提示提取的能力。指令层次方法的核心是建立一个明确的指令优先级结构,从高到低依次为:系统消息、用户消息、图像或音频中的指令,以及工具(如 Browsing)返回的文本。

