背景与发布
OpenAI 在推出新模型 o3-mini 仅两天后,于 2 月 3 日发布了第二个 AI 代理——Deep Research(深度研究)。这一工具专为金融、工程、科学等领域的知识工作者设计,能够帮助用户进行复杂的调研任务,甚至可以作为购物助手,帮助用户做出理性的购买决策。
功能亮点
深度调研能力:
Deep Research 能够上网搜索、分析和合成数百个在线资源,生成媲美研究分析师级别的报告。
它可以在 5-30 分钟内完成人类专家需要数小时甚至数天的复杂调研任务。
实时搜索与推理结合:
与传统的 OpenAI 模型不同,Deep Research 结合了实时互联网搜索和深度推理能力,能够逐步拆解复杂任务,进行多轮搜索、解读和验证。
文档记录与引用:
所有返回的结果都有完整的文档记录,包含清晰的引用和思维过程总结,方便用户参考和验证。
个性化应用场景:
适用于金融、科学、工程等领域的高强度知识工作。
也可用于购物决策,帮助用户研究产品性能、筛选个性化需求,甚至查找小众信息(如网友的真实评论)。
使用权限与未来计划
使用权限:
目前仅向 ChatGPT Pro 用户(200 美元/月)开放,每月最多可使用 100 次。
Plus 用户(20 美元/月)预计在一个月内获得该功能,每月可使用 10 次。
未来将推出更快速、成本更低的版本,并增加免费用户的使用额度。
未来扩展:
计划增加嵌入式图片、数据可视化等功能。
扩展数据来源,包括订阅制和会员制,服务企业用户。
实际案例演示
市场调研:
用户输入需求后,Deep Research 通过关键词搜索获取初步信息,进一步查找相关报告、统计数据、专家观点等,最终生成综合性研究报告。
购物决策:
用户可要求 Deep Research 研究特定商品(如滑雪板),根据个性化需求生成详细报告,帮助做出理性决策。
通识知识查询:
帮助用户查找模糊记忆中的信息,如 10 年前去过的餐厅名称或某集电视剧的名字。
性能测试与评价
“人类终极考试”测试:
Deep Research 在化学、人文、社会科学和数学领域的表现显著提升,准确率达到 26.6%,远超 Google Gemini Thinking(6.2%)、Grok-2(3.8%)和 GPT-4o(3.3%)。
与开源模型 DeepSeek-R1(9.4%)相比,Deep Research 的准确率是其 2.8 倍。
GAIA 测试:
在评估 AI 解决现实世界问题能力的 GAIA 测试中,Deep Research 位居榜首,展现了其在推理、多模态理解、网页浏览和工具使用方面的强大能力。
幻觉评估:
Deep Research 在幻觉(错误信息生成)方面的表现优于现有 ChatGPT 模型,但仍建议用户核对信息来源以确保准确性。
专家评价
Jason Wei(OpenAI 研究员):Deep Research 不仅是出色的 AI 代理,更是互联网的新界面,能够高效浏览大量网页并整合知识。
Ethan Mollick(沃顿商学院教授):Deep Research 像是一位拥有博士学位的研究人员,能够遵循引导完成复杂任务。
Felipe(OpenAI 政府公共部门负责人):分享了一个感人故事,Deep Research 帮助他和妻子在癌症治疗中做出科学决策,认为这是一个可以改变世界的工具。
局限性与未来展望
局限性:
仍处于早期阶段,可能存在幻觉或错误推断。
缺乏停止按钮,若搜索方向错误,只能从头开始。
有时提供的信息缺乏引用来源。
未来展望:
OpenAI 计划将 Deep Research 与自定义上下文、企业数据存储连接,服务于更专业的企业级应用。
未来将结合 Deep Research 的智能搜索与 Operator 的执行能力,使 ChatGPT 能够执行更复杂的任务,迈向 AGI(通用人工智能)的目标。
总结
Deep Research 是 OpenAI 在深度研究领域的重要突破,它不仅大幅提升了 AI 的调研能力,还为用户提供了高效、低成本的解决方案。尽管存在一些局限性,但其潜力巨大,未来有望成为各行业知识工作者的得力助手,推动 AI 技术的进一步普及和应用。