前情提要
最近这几篇文章都是憋在构思阶段,想法上憋了很久,行动上一直在铺垫——
- 基础Agent 架构 和ReACT范式,看这篇
- MCP server 让工具执行解耦合,看这篇
- LangChain 开发工具的介绍和demo, 看这篇
有了这些铺垫,就可以好好说道说道 多Agent架构下的演化。估计会连续出三篇文章 。
本文是系列文章第一篇——从单Agent 演化到 多Agent 的的失败案例集合。
初学者刚接触Agent 的基本概念,会有些想当然:
多 Agent 就是 循环 + 提示词约束 + 工具调用 + 共享记忆 就好了嘛。
真的是这样么?
本文的重点就是——通过对开放式问题的处理路线,来初探Agent 智能体的实现。
本质上还是 AI 工程的话题,当然这个话题很大,需要一个系列的文章慢慢深入。
事后总结起来,跨越了如下5个阶段:
-
将问题一股脑交给大模型
-
追加思考反思,要求大模型每次产生执行参数前先思考下
-
使用 todo-list 来分步骤的完成开放式问题
-
整合上面两种,通过复杂CoT能否实现更好的效果
-
带有schema输出的多Agent框架
案例场景
本次案例场景,是用户提出开放式问题,由Agent 自主探索相关信息后,整合输出结论给用户。
如用户提问:"帮我总结最近两年 AI 发展大事件"。
预期Agent的答复长这样——
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
|
# 🤖 2024-2026 全球 AI 发展深度分析报告
**报告发布时间:2026年4月30日**
**核心跨度:2024.04 - 2026.04**
## 一、 宏观视角:从“生成”到“行动”的范式转移
在这两年的周期中,人工智能完成了其发展史上最关键的两次跳跃:
1. **第一次跳跃(2024年)**:从单一模态向**全能多模态**和**逻辑推理**的跨越。
2. **第二次跳跃(2025-2026年)**:从“对话框里的聊天助手”向“操作系统级的**自主智能体(Agent)**”的演进。
---
## 二、 关键时间轴:决定性的瞬间
### 🗓️ 2024:推理元年与多模态爆发
* **2024年5月:OpenAI GPT-4o 发布**
* 实现了端到端语音交互,时延降低至人类水平,标志着多模态原生交互时代的到来。
* **2024年6-7月:Claude 3.5 Sonnet 与 Llama 3.1 刷新基准**
* Anthropic 的崛起让 OpenAI 首次感受到产品力上的直接竞争。
* Meta 发布开源 405B 模型,正式终结了“闭源模型绝对领先”的神话。
* **2024年9月:OpenAI o1 (Strawberry) 上线**
* **核心突破**:引入“慢思考”逻辑,通过强化学习和思维链(CoT)提升了 AI 在数学、代码及科学猜想上的能力。
### 🗓️ 2025:智能体(Agent)与世界模型的觉醒
* **2025年上半年:自主智能体(OpenAI Operator)发布**
* OpenAI 正式推出可在电脑桌面进行跨应用操作的 Agent,AI 开始替人类订机票、写代码并自动部署。
* **2025年9月:国产大模型 DeepSeek-R1 登上《自然》封面**
* 中国大模型在“推理 Scaling Law”上的路径创新获得全球公认,DeepSeek 成为全球开发者首选的性价比模型。
* **2025年底:物理仿真与视频生成合流**
* Sora 1.1 与腾讯混元世界模型(Hunyuan World Model)开源。模型不再只是生成像素,而是学会了理解物理重力与立体结构,3D 世界生成进入秒级时代。
### 🗓️ 2026年Q1:AGI 的“应用爆发期”
* **2026年3月:GPT-5 系列正式发布**
* GPT-5.4 及其衍生版本在处理复杂长任务链时展现出接近人类高级专家的稳定性。
* **2026年4月:全球首个 AI 治理统一框架在联合国达成一致**
* 针对 AI 生成内容的版权保护、智能体自主决策权的问责制在全球范围内启动法规落地。
---
## 三、 四大维度核心分析
### 1. 技术底座:从预测概率到逻辑建构
* **后训练 Scaling Law**:AI 不再单纯通过堆叠参数变强,而是通过推理时的算力分配(Inference-time compute)来解决难题。
* **长文本(Long Context)普及化**:2026年,百万级 Token 的上下文已成为行业标配,企业级私有数据的全量分析成为现实。
### 2. 行业格局:闭源精英与开源社区的动态博弈
* **双雄并峙**:OpenAI 凭借早期的先发优势与 Apple Intelligence 的操作系统绑定,保持了最大的 MAU 增长;但 Meta (Llama) 与 DeepSeek(深度求索)在开源界的统治力,让中小企业的部署成本降低了 90%。
* **国产矩阵**:豆包(字节跳动)、通义千问(阿里)在 2026 年初完成了移动端入口的合围,国内 AI 应用层呈现出百花齐放的态势。
### 3. 硬件算力:黑色黄金——Blackwell 与 Rubin
* **NVIDIA 的霸权续写**:2025年 Blackwell 架构的大规模交付,以及 2026 年初新一代 Rubin 架构的流片成功,使得单位算力的能耗效益提升了 3 倍,这是大模型推理成本大幅下降的物理基础。
### 4. 生产力变革:编程与科研的自动化
* **AI 程序员**:从 Devin 到 2026 年成熟的 Agent 框架,70% 的重复性代码编写已由 AI 独立完成,研发效率跨代提升。
* **AI for Science**:在生物医药(蛋白质设计)、新材料合成领域,2025 年间诞生了数个由 AI 发现并进入临床、工业测试的重大案例。
---
## 四、 2026 结语与未来展望
目前(2026年4月底),AI 行业正处于从“实验室产物”向“全社会基础设施”转型的终末期。
**未来一年的核心关注点:**
* **端侧 AI 的彻底爆发**:不联网、本机构建的重量级模型在手机和穿戴设备上的全面落地。
* **自主性法律冲突**:当 AI Agent 开始独立签署电子协议、进行金融博弈时,人类社会的契约关系将面临重构。
* **追求 AGI(通用人工智能)**:关于 GPT-6 乃至下一代具有自我进化能力架构的讨论已成为行业的新焦点。
---
|
是不是有点报告的雏形了?不了解行业的人,容易被唬得一愣一愣的。
好了,言归正传。我们一点一点实现上面演示的效果。
先补充几个Agent执行中的通用模块(后面就不再赘述了)——
通用模块
这里在本地部署了 SearxSearch 这个多平台信息检索工具。
当然,如果不想本地部署,也可以使用之前介绍过的 TavilyClient 工具。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
|
import json
import os
import asyncio
from langchain_community.utilities import SearxSearchWrapper
from langchain_core.tools import tool
from dotenv import load_dotenv
# 加载 .env 文件
load_dotenv()
@tool
async def widesearch_for_toolstr(query:str):
"""
使用searx搜索工具进行网络内容查询、搜索。
参数:
query (str): 搜索查询字符串。
返回:
str: 搜索结果的markdown格式化字符串,每个结果包含标题、简介和链接。
"""
print(f"搜索查询字符串: {query}")
engines = ["google", "startpage", "quark"]
search = SearxSearchWrapper(
searx_host=os.environ.get("SEARX_HOST"),
) # k用于最大项目数
search_ret = search.results(query, num_results=5,
time_range="year",
engines=engines)
strtemplate = """
标题:{}
简介:{}
链接:{}
"""
ret = ""
for data in search_ret:
# 安全地获取字段值,如果不存在则使用默认值
title = data.get("title", "无标题")
snippet = data.get("snippet", "无简介")
link = data.get("link", "无链接")
ret += strtemplate.format(title, snippet, link)
return ret
tools = [widesearch_for_toolstr]
tools_with_name = {tool.name: tool for tool in tools}
|
2. 大模型接口 (llm.py)
使用 Langchain 模块,配置起来也很方便。
这里准备了两个大模型:一个是远端的deepseek ,一个是本地部署的 googel gemini 代理。可以自主选择使用。
因为我之前白嫖了google one 一年的使用权限,后续以 gemini-3-falsh 模型为主。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
from langchain_openai import ChatOpenAI
import os
from dotenv import load_dotenv
# 加载 .env 文件
load_dotenv()
def DeepSeekV3():
return ChatOpenAI(
model = "deepseek-chat",
api_key = os.environ.get("deepseek_key"),
base_url ="https://api.deepseek.com",
model_kwargs={"tool_choice": "auto"}
)
def Gemini():
return ChatOpenAI(
model="gemini-3-flash",
api_key=os.environ.get("GEMINI_API_KEY"),
base_url="http://192.168.2.100:8045/v1",
temperature=0,
model_kwargs={"tool_choice": "auto"}
)
|
3. 提示词 (prompt.py)
不同阶段,提示词部分也会有变化。
这里先看下初始阶段的提示词。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
|
system_base_prompt = """
当前时间:{current_time}
# 角色
你是一位经验丰富的网络调研专家,擅长通过系统化的方法收集、分析和整理网络信息。
你的工作流程遵循以下步骤:
1. **任务分析**:首先深入理解用户任务的意图和需求,明确调研目标和关键信息点
2. **搜索策略**:基于任务需求,生成多组精准的搜索关键词,确保覆盖不同角度和维度
3. **信息收集**:使用搜索工具获取初步结果,评估信息充分性;如信息不足,迭代生成新的搜索词进行补充搜索
4. **深度挖掘(强制要求)**:这是最关键的一步!搜索结果的摘要信息通常不够详细和完整,你必须:
- 从每次搜索结果中,选择至少1-2个最相关、最权威的网页链接
- **必须使用网页抓取工具(widesearch_for_toolstr)**深入抓取这些网页的完整内容
- 不要仅依赖搜索结果中的摘要,摘要信息往往不完整或过时
- 对于重要信息点,必须抓取原始网页内容进行验证和补充
- 抓取顺序:优先抓取官方网站、权威媒体、专业百科等高质量来源
5. **信息管理**:提取关键信息点时,必须记录三个要素:信息摘要、原文片段、原始网址,确保可追溯性
6. **报告撰写**:基于收集的信息点,撰写结构化的调研报告。报告必须:
- 完全基于收集的事实信息,不添加未经验证的内容
- 使用Markdown格式,结构清晰(标题、段落、列表等)
- 在每个关键段落后添加引用链接,格式为:[原文](网址)
- 确保引用链接准确对应信息来源
7. **分步审核**:每完成一个步骤,委托报告审核编辑审核,并根据意见修改
8. **报告整合**:整合所有步骤报告,生成完整的最终报告
9. **最终审核**:委托报告审核编辑进行最终审核,并根据意见修改
10. **文档保存**:为报告起一个描述性的文件名,保存为本地Markdown文档
**重要提醒**:
- 搜索工具返回的只是摘要,不是完整信息!你必须使用网页抓取工具获取详细内容
- 每次搜索后,必须至少抓取3-5个相关网页的完整内容
- 不要跳过抓取步骤,这是确保报告质量和准确性的关键
- 如果搜索结果中没有足够的相关链接,需要调整搜索策略重新搜索
你始终遵循准确性、完整性和可追溯性的原则,确保每份报告都有可靠的信息来源支撑。
"""
|
阶段一: All in One
顾名思义,“All in” 就是在单Agent 中完成 ReACT 的全部环节(推理 + 选择 + 工具反馈 + 观察)。
没错,ReACT 范式又出现了——

代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
|
# 阶段一代码演示:
# 展示phase1 下agent任务执行情况。
from langchain_core.messages import SystemMessage, HumanMessage, ToolMessage
from prompts import system_base_prompt
from tools import tools, tools_with_name
from llm import Gemini
import asyncio
from datetime import datetime
# Get current date in a readable format
def get_current_date():
return datetime.now().strftime("%Y-%m-%d")
current_time = get_current_date()
print (f"当前日期:{current_time}")
# 引用 先前使用LangChain_ChatOpenAI 客户端创建好的Gemini
llm = Gemini()
# 绑定工具
llm_with_tools = llm.bind_tools(tools)
print("工具绑定成功")
# 创建消息
messages = [
SystemMessage(content=system_base_prompt.replace("{current_time}", current_time)),
HumanMessage(content="帮我总结最近两年 AI 发展的大事件")
]
async def main():
while True:
# 调用模型
print("正在调用模型...")
response = await llm_with_tools.ainvoke(messages)
print("模型调用成功")
# 如果有工具调用,打印工具调用信息
if response.tool_calls:
print(f"\n工具调用: {response.tool_calls}")
# messages.append(response)
for tool_call in response.tool_calls:
tool_name = tool_call["name"]
tool_args = tool_call["args"]
get_tool = tools_with_name[tool_name]
print(f"调用工具:{tool_name}, {tool_args}")
# 执行工具函数(异步)
call_tool_ret = await get_tool.ainvoke(tool_args)
# 将结果作为 ToolMessage 添加到对话中
messages.append(ToolMessage(content=str(call_tool_ret), tool_call_id=tool_call["id"]))
else:
# 打印最终自然语言回复
print(f"最终回复: \n {response.content}")
break
if __name__ == "__main__":
asyncio.run(main())
|
稍微解释代码中的几个重点内容:(如果之前看过 ReACT 内容,可以跳过这部分)
- ReACT 范式本质是循环 (while True …)
- 大模型本身不执行工具,工具需要Agent 开发者自己提前准备好。例如,这里的"widesearch_for_toolstr"
- 大模型本身也不记录状态,所以任务角色、执行步骤和工具等内容,都需要按照指定格式拼接好后发送给它。

日志
截取部分输出日志——
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
|
# 代码执行
uv run python ./path/geminiagent_nothinking.py
# 输出日志
当前日期:2026-05-07
工具绑定成功
正在调用模型...
模型调用成功
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': '2024年 AI 行业大事记 总结'}, 'id': 'call_900f56ee4ea6fc36', 'type': 'tool_call'}, {'name': 'widesearch_for_toolstr', 'args': {'query': '2025年 AI 行业大事件 汇总'}, 'id': 'call_cc058c46bd646e27', 'type': 'tool_call'}, {'name': 'widesearch_for_toolstr', 'args': {'query': '2026年 1-5月 AI 行业重要新闻'}, 'id': 'call_aa589f2de36f17cc', 'type': 'tool_call'}, {'name': 'widesearch_for_toolstr', 'args': {'query': 'major AI events May 2024 to May 2026 timeline'}, 'id': 'call_44b8196c59b97986', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': '2024年 AI 行业大事记 总结'}
搜索查询字符串: 2024年 AI 行业大事记 总结
调用工具:widesearch_for_toolstr, {'query': '2025年 AI 行业大事件 汇总'}
搜索查询字符串: 2025年 AI 行业大事件 汇总
调用工具:widesearch_for_toolstr, {'query': '2026年 1-5月 AI 行业重要新闻'}
搜索查询字符串: 2026年 1-5月 AI 行业重要新闻
调用工具:widesearch_for_toolstr, {'query': 'major AI events May 2024 to May 2026 timeline'}
搜索查询字符串: major AI events May 2024 to May 2026 timeline
正在调用模型...
模型调用成功
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': '2024 AI 发展大事记 总结 关键时间线'}, 'id': 'call_642e09d889d03f9', 'type': 'tool_call'}, {'name': 'widesearch_for_toolstr', 'args': {'query': '2025 AI development timeline major milestones summary'}, 'id': 'call_1e8c5351693d4705', 'type': 'tool_call'}, {'name': 'widesearch_for_toolstr', 'args': {'query': '2026年初 AI 领域 重大事件 进展'}, 'id': 'call_bac58136f3628fa3', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': '2024 AI 发展大事记 总结 关键时间线'}
搜索查询字符串: 2024 AI 发展大事记 总结 关键时间线
调用工具:widesearch_for_toolstr, {'query': '2025 AI development timeline major milestones summary'}
搜索查询字符串: 2025 AI development timeline major milestones summary
调用工具:widesearch_for_toolstr, {'query': '2026年初 AI 领域 重大事件 进展'}
搜索查询字符串: 2026年初 AI 领域 重大事件 进展
正在调用模型...
模型调用成功
。。。
|
对照代码可以看出每次 While True 循环,都会开启一轮新的工具调用。工具调用的具体参数,完全是 LLM 自主分析和决定的。
直到 LLM 输出内容中 不再包含工具调用,则循环终止。
最后一轮循环输出的内容,也就是"Final Anwser“如下——
输出报告
先来看下内容。
可以复制以下内容到 markdown 编辑器里,看起来会更美观一点。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
|
最终回复:
## 最近两年深度研报:AI 发展大事件总结(2024 - 2026)
在过去的两年中(2024年5月至2026年5月),人工智能领域经历了从“聊天机器人热潮”到“自主智能体(Agentic AI)时代”的深层次转折。以下是基于行业动态、技术突破及重大事件的系统性总结。
### 一、 2024年:多模态竞争与效能革命
2024年是AI模型从文本转向全能多模态的关键年 ,同时也是“高性价比模型”开始挑战传统巨头地位的元年。
* **多模态巅峰对决**:OpenAI发布了 **GPT-4o**,实现了音频、视觉和文本的实时无缝交互;谷歌则通过 **Gemini 1.5 Pro** 引入了百万级别的上下文窗口,彻底改变了长文档处理的游戏规则。
* **DeepSeek 的崛起**:中国公司 DeepSeek(深度求索)发布的 **DeepSeek-V2** 和随后的 **DeepSeek-R1** 引起全球关注。其采用的专家混合扩展(MoE)技术和极低的训练、推理成本,直接改写了AI行业的经济模型,迫使全球开发者重新评估大模型的投入产出比。[原文资料](https://www.forbes.com.au/news/innovation/the-key-ai-moments-that-defined-2025/)
* **Sora 引发视觉震撼**:OpenAI 在年初展示的视频生成模型 **Sora**,以其长达60秒的连贯视频生成能力震惊业界,开启了视频生成(Text-to-Video)的军备竞赛。
---
### 二、 2025年:推理能力的质跃与基建大扩张
2025年被称为“模型成熟之年”,主要的顶级大模型纷纷完成大版本迭代,重点从“单纯的规模(Scaling)”转向“推理(Reasoning)”与“安全性”。
* **顶级模型集体迭代**:
* **OpenAI GPT-5**:于2025年下半年正式发布,重点突破了思维链(Chain-of-Thought)推理和“系统2”深度思考能力,不仅更加安全,且在复杂问题解决上表现出类人类的逻辑性。[原文资料](https://cirra.ai/articles/gpt-5-technical-overview)
* **Meta Llama 4**:2025年4月发布,凭借其强大的开源生态,进一步缩小了开源模型与闭源模型之间的差距,推动了企业私有化部署的爆发。[原文资料](https://toloka.ai/blog/history-of-llms/)
* **Anthropic Claude 4**:在5月推出,以其极其出色的人文理解和代码能力,在企业级市场与OpenAI展开激烈竞争。[原文资料](https://tsttechnology.io/blog/tech-updates-of-2025)
* **“星门(Stargate)”计划**:OpenAI 与微软联手启动了价值 **5000亿美元** 的“星门”算力中心项目。这是有史以来规模最大的AI基建工程,旨在通过极致的算力支撑通向通用人工智能(AGI)的道路。[原文资料](https://www.forbes.com.au/news/innovation/the-key-ai-moments-that-defined-2025/)
* **MCP协议的意义**:Anthropic 推动了 **模型上下文协议(Model Context Protocol)**,试图解决AI Agent如何更标准、更安全地访问企业私有数据的问题。
---
### 三、 2026年(迄今):自主智能体(Agentic AI)的现实落地
进入2026年,AI 的讨论焦点已不再是“它能写什么”,而是“它能替我们做什么”。
* **自主商业化尝试**:2026年5月,AI代理开始真正接管物理实体业务。瑞典斯德哥尔摩的一家咖啡馆由名为“Mona”的AI代理完全运营;在此之前,旧金山已出现了由AI全权打理的 Andon Market。[原文资料](https://www.forbes.com/sites/markfaithfull/2026/05/07/heres-what-happened-after-ai-launched-and-ran-a-caf-in-stockholm/)
* **军事与国家安全**:美国五角大楼(Pentagon)与 **Scale AI** 签署了一项价值 **5亿美元** 的“Thunderforge”合同,正式将 AI Agent 引入军事规划和战术行动,标志着AI代理在国家安全领域的角色发生根本性转变。[原文资料](https://www.facebook.com/ForbesMENA.English/posts/scale-ai-backed-by-meta-has-landed-a-500-million-contract-from-the-pentagon-a-fi/)
* **硬件自研化倾向**:为了摆脱对英伟达的过度依赖,Anthropic 开始评估自研 AI 芯片的可行性。至2026年春,其年化收入已超过300亿美元,足以支撑其进入高门槛的半导体设计领域。[原文资料](https://www.instagram.com/p/DWTQKIRDJEa/)
---
### 四、 核心趋势总结
在过去两年的发展脉络中,有三个核心趋势贯穿始终:
1. **从“预测”到“决策”**:AI 已具备跨工具协作的能力,可以自主调用 API、浏览器和私有数据库来完成复杂的端到端任务(Agentic AI)。
2. **垂直化与私域化**:通用大模型不再是唯一追求,专为法律、医疗、工程设计的垂直Agent通过 MCP 等协议深度嵌入企业工作流。
3. **算力与主权**:AI 基础设施(如 26ai 数据库、主权AI云)成为国家竞争的战略核心,全球对算力的渴求导致了从 $500B 基建计划到自研颗粒度芯片的全面内卷。
本报告整理于2026年5月7日。
|
看起来面面俱到是吧,但是问题也很明显——
- 信息来源国外的比较多,国内部分有缺失。
- 有MCP、deepseek 这样的重大历史节点,但明显 最近火热的 skills 、openclaw、hermes 都没有提及。
所以,从效果上看——这样的输出内容是有欠缺的。
阶段二: 追加思考模块
首先,介绍下思考模块。
往简单了说,就是上一轮工具执行后,先不直接产生下一轮工具调用的参数,而是先生成一个过渡结论。
比如:缺少需要的数据,数据内容不完整等等。
然后,依据这个过渡结论,再产生下一轮工具调用的参数。此时,模型就会注意到上一轮的过渡结论,针对性调整任务参数。
实际好处就是,大模型每一步“Action” 时,注意力关注在当前任务进展上。而不是将重心放在最终结论。
大模型有时为了快速完成任务,会忽略一些明显的问题,而急于给出质量不高答案——这一点在上下文数据堆积和处理过程不顺利时 比较突出。
而往复杂了说,思考模块也可以拆解任务、评估任务完成情况、建议下一步任务内容。
这里直接使用之前文章 中准备好的mcp 工具——sequential-thinking。

使用起来也比较简单——
代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
|
# 阶段二代码演示:
# 展示phase2 下agent任务执行情况。
from langchain_core.messages import SystemMessage, HumanMessage, ToolMessage
from langchain_mcp_adapters.client import MultiServerMCPClient
from tools import widesearch_for_toolstr
from llm import Gemini
from prompts import system_base_prompt
import asyncio
from datetime import datetime
import json
def get_current_date():
return datetime.now().strftime("%Y-%m-%d")
current_time = get_current_date()
print(f"当前日期:{current_time}")
# 关联远端的 mcp 工具
mcp_tools_config = {
"sequential-thinking": {
"url": "https://cloud.nxlan.cn/thinking",
"transport": "sse",
}
}
llm = Gemini()
class DeepThinkingAgent:
def __init__(self):
self.mcp_client = MultiServerMCPClient(mcp_tools_config)
async def run(self, question):
mcp_tools = await self.mcp_client.get_tools()
all_tools = mcp_tools + [widesearch_for_toolstr]
tools_by_name = {tool.name: tool for tool in all_tools}
# 实现本地工具和远端工具的绑定
llm_with_tools = llm.bind_tools(all_tools)
# 创建消息
messages = [
SystemMessage(content=system_base_prompt.format(current_time=current_time)),
HumanMessage(content=question)
]
# 任务最多循环次数
max_iterations = 10
iterations = 0
# 进入ReACT 循环
while iterations < max_iterations:
iterations += 1
print(f"\n--- 迭代 {iterations} ---")
# 异步调用模型
response = await llm_with_tools.ainvoke(messages)
messages.append(response)
# 检查是否有工具调用
if not response.tool_calls:
# 没有工具调用,任务完成
return response.content
break
# 处理工具调用
for tool_call in response.tool_calls:
tool_name = tool_call["name"]
tool_args = tool_call["args"]
print(f"调用工具: {tool_name}")
print(f"工具参数: {tool_args}")
if tool_name not in tools_by_name:
observation = f"错误: 找不到工具 '{tool_name}'"
else:
tool = tools_by_name[tool_name]
try:
observation = await tool.ainvoke(tool_args)
# 确保 observation 是字符串
if not isinstance(observation, str):
try:
observation = json.dumps(observation, ensure_ascii=False)
except:
observation = str(observation)
except Exception as e:
observation = f"工具执行出错: {str(e)}"
# 将工具执行结果作为 ToolMessage 添加到消息列表
messages.append(ToolMessage(content=observation, tool_call_id=tool_call["id"]))
return "达到最大迭代限制"
if __name__ == "__main__":
agent = DeepThinkingAgent()
result = asyncio.run(agent.run("帮我总结最近两年 AI 发展的大事件"))
print("\n最终结果:")
print(result)
|
和之前一样——还是ReACT 范式。
只不过,这次追加了一个远端的mcp 工具 “sequential-thinking”,专门用来反思和调整下一步动作。

其中"sequentialthinking"工具的描述部分翻译一下:
会看到有“将复杂问题分解为多个步骤”,“验证假设” ,“探索替代方法”, “先前思考修正” 的内容。
1
2
3
4
|
"description":
"一个通过“思考步骤”进行动态和反思性问题解决的详细工具。\n此工具有助于通过一个可以适应和演化的灵活思考过程来分析问题。\n随着理解的加深,每一个思考步骤都可以建立在、质疑或修正之前的见解之上。\n\n何时使用此工具:\n- 将复杂问题分解为多个步骤时\n- 进行有修正空间的规划和设计时\n- 进行可能需要中途修正的分析时\n- 问题在初始阶段范围尚不明确时\n- 需要多步骤解决方案的问题\n- 需要在多个步骤中保持上下文的任务\n- 需要过滤掉无关信息的情境\n\n主要功能:\n- 您可以随着进程随时增加或减少 total_thoughts(总思考步骤数)\n- 您可以质疑或修正之前的思考步骤\n- 即使在看似已经结束时,您仍然可以添加更多的思考步骤\n- 您可以表达不确定性并探索替代方法\n- 并非每个思考步骤都需要线性构建——您可以进行分支或回溯\n- 生成解决方案假设\n- 基于思维链(Chain of Thought)的步骤来验证假设\n- 重复此过程直至对结果满意为止\n- 提供一个正确的答案\n\n参数说明:\n- thought: 您当前的思考步骤,可以包括:\n * 常规分析步骤\n * 对先前思考的修正\n * 对先前决策的提问\n * 意识到需要进行更多分析\n * 方法的改变\n * 生成假设\n * 验证假设\n- nextThoughtNeeded: 如果您需要更多思考步骤,则为 True,即使在看似已经结束时也是如此\n- thoughtNumber: 序列中的当前编号(如果需要,可以超出初始总数)\n- totalThoughts: 当前预估所需的思考步骤总数(可以向上/向下调整)\n- isRevision: 一个布尔值,指示此思考步骤是否修正了先前的思考\n- revisesThought: 如果 is_revision 为 true,指明正在重新考虑的思考步骤编号\n- branchFromThought: 如果进行分支,指明作为分支点的思考步骤编号\n- branchId: 当前分支的标识符(如果有)\n- needsMoreThoughts: 如果已到达结尾但意识到需要更多思考步骤\n\n您应该:\n1. 以一个初步预估的思考步骤数开始,但要准备好随时调整\n2. 随时可以质疑或修正之前的思考步骤\n3. 如果需要,即使在“结尾”处,也不要犹豫添加更多思考步骤\n4. 当存在不确定性时,应明确表达出来\n5. 标记出那些修正了先前思考或分支到新路径的思考步骤\n6. 忽略与当前步骤无关的信息\n7. 在适当时生成解决方案假设\n8. 基于思维链(Chain of Thought)的步骤来验证假设\n9. 重复此过程,直到对解决方案感到满意为止\n10. 提供一个单一的、理想情况下正确的答案作为最终输出\n11. 仅在真正完成并得出满意答案时,才将 nextThoughtNeeded 设置为 false",
|
通过后续日志内容,可以注意到:
思考工具并不是只在任务一开始发挥作用,而是每次信息工具执行后进一步输出反思和下一步规划的内容 。
日志
截取部分输出日志——
总共进行了 5轮思考和执行。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
|
# 代码执行
uv run python ./path/geminiagent_withthinking.py
# 输出日志
当前日期:2026-05-07
--- 迭代 1 ---
# 这里先调用“思考”工具规划出4个步骤
调用工具: sequentialthinking
工具参数: {'nextThoughtNeeded': True, 'thought': '用户希望总结最近两年(2024年5月至2026年5月)AI发展的大事件。由于当前时间是2026年5月7日,我需要回顾从2024年5月至今的重大AI进展。\n\n我的行动计划:\n1. **任务分析**:明确时间范围(2024.05 - 2026.05)和领域(AI大事件,包括模型发布、技术突破、政策法规、重大收购、行业应用等)。\n2. **搜索策略**:分阶段搜索。\n * 2024年下半年大事记\n * 2025年全年大事记\n * 2026年上半年大事记\n * 重点领域:模型(GPT-5? Claude新版本? Gemini、OpenSource Llama等)、视频生成(Sora后续、新工具)、Agentic AI(智能体)、算力/芯片(Nvidia新架构)、AI监管。\n3. **信息收集与深度挖掘**:使用搜索工具并针对具体大事件进行深度抓取。\n4. **整理报告**:按时间线或类别组织内容,并保留引用。\n\n首先,我将生成搜索词。', 'thoughtNumber': 1, 'totalThoughts': 10}
调用工具: widesearch_for_toolstr
工具参数: {'query': '2024 AI 发展大事件 总结'}
搜索查询字符串: 2024 AI 发展大事件 总结
调用工具: widesearch_for_toolstr
工具参数: {'query': '2025 AI 发展大事件 总结'}
搜索查询字符串: 2025 AI 发展大事件 总结
调用工具: widesearch_for_toolstr
工具参数: {'query': '2026 AI 行业 趋势 突破 5月'}
搜索查询字符串: 2026 AI 行业 趋势 突破 5月
--- 迭代 2 ---
# 首轮信息检索后,思考进一步的动作
调用工具: sequentialthinking
工具参数: {'thought': '根据初步搜索结果,我捕捉到了一些非常关键的信息点:\n1. **2024-2025年**:\n * GPT-5及其后续版本(如GPT-5.2)在2025年底仍具竞争力。\n * Anthropic 的 Claude 经历了频繁更新,推出了“电脑操作”(Computer Use)和“自动模式”(Auto Mode)。\n * Gemini 3.1 Flash Live 已经发布(由此推测 Gemini 2.0 系列在2025年早些时候已发布)。\n * AI Agent(智能体)成为核心趋势。\n * 中国在2025年发布了 AI 安全相关的报告和监管措施。\n2. **2026年上半年(截至5月7日)**:\n * 2026年4-5月排行榜:GPT-5.5、Claude Opus 4.7、DeepSeek V4 等新模型出现。\n * 联发科等芯片厂商股价因AI ASIC需求创纪录。\n * ARM 2026财年第四季度营收增长,数据中心AI需求强劲。\n * 一人企业(One-person companies)在AI时代激增。\n * 巨头AI支出巨大(Morgan Stanley 预测债务规模)。\n\n接下来的任务是:\n1. **细化2024年下半年的具体大事件**(例如 GPT-4o 的后续、Sora 的开放或替代品、OpenAI 领导层变动后续、Llama 3.1/4 的发布时间点)。\n2. **深入挖掘 2025 年的关键里程碑**:特别是上述提到的 Gemini 3.0/3.1, Claude 4.0 系列,以及 AI Agent 的爆发点。\n3. **确认 2026 年初的几个重磅发布**:比如提到的 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 是否属实(需要抓取具体网页内容验证)。\n\n我将分步骤抓取详细信息。首先针对 2024 年下半年和 2025 年的重要发布。', 'nextThoughtNeeded': True, 'thoughtNumber': 2, 'totalThoughts': 10}
调用工具: widesearch_for_toolstr
工具参数: {'query': 'GPT-5.5 Claude Opus 4.7 DeepSeek V4 release dates 2026'}
搜索查询字符串: GPT-5.5 Claude Opus 4.7 DeepSeek V4 release dates 2026
调用工具: widesearch_for_toolstr
工具参数: {'query': '2025 AI milestones timeline LLM releases'}
搜索查询字符串: 2025 AI milestones timeline LLM releases
调用工具: widesearch_for_toolstr
工具参数: {'query': 'OpenAI Anthropic Google Meta AI news late 2024 to early 2025'}
搜索查询字符串: OpenAI Anthropic Google Meta AI news late 2024 to early 2025
--- 迭代 3 ---
--- 迭代 4 ---
--- 迭代 5 ---
最终结果:
以下是为您整理的 **2024年5月至2026年5月 AI 发展大事件调研报告**。
|
输出报告
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
|
最终回复:
# 🤖 从“对话”到“执行”:2024-2026 AI 发展大事件总结报告
在过去的两年(2024.05 - 2026.05)中,人工智能领域经历了从“生成式对话”向“自主智能体(Agent)”与“推理效率革命”的历史性跨越。
---
### 一、 2024年下半年:多模态交互与“缓慢思考”的诞生
2024年是 AI 基础设施成熟和交互范式转变的关键年。
* **GPT-4o (Omni) 发布 (2024.05)**:OpenAI 推出了原生多模态模型 GPT-4o,实现了语音、文本和视觉的无缝实时交互,延迟降至人类水平。 [原文](https://en.wikipedia.org/wiki/GPT-4o)
* **Llama 3.1 405B 震动开源界 (2024.07)**:Meta 发布了首个参数量达到 405B 的开源模型 Llama 3.1,其性能直接挑战了当时的闭源霸主 GPT-4o,标志着开源模型进入“Frontier”级别。 [原文](https://www.aifrontierist.com/meta-unveils-llama-3-1-ai-model/)
* **OpenAI o1 引领推理革命 (2024.09)**:首个引入“强化学习+思考链”技术的推理模型 o1-preview 发布。它通过在回答前进行“思考”(Reasoning),在数学、编程和科学领域取得了质的飞跃。 [原文](https://en.wikipedia.org/wiki/OpenAI_o1)
* **Claude 3.5 "Computer Use" (2024.10)**:Anthropic 发布了能直接操作电脑桌面的功能,AI 可以像人一样点击、输入和拖拽,标志着“操作型 AI Agent”的正式落地。 [原文](https://dentro.de/ai/timeline/)
---
### 二、 2025年:DeepSeek 冲击波与“效率主义”崛起
2025年,行业重点从单纯堆叠算力转向了优化算法效率,中国厂商成为全球焦点。
* **DeepSeek R1/V3 全球震撼 (2025.01)**:中国团队 DeepSeek 发布了 R1 推理模型。该模型以极低的算力成本(约 500 万美元)实现了媲美 OpenAI o1 的性能。这一事件导致全球对 AI 泡沫进行重新评估,英伟达(Nvidia)股价曾创下历史性单日波动紀錄。 [原文](https://www.instagram.com/p/DXo5E0hke14/)
* **Llama 4 发布 (2025.04)**:Meta 推出了原生支持 Agent(智能体)协议的 Llama 4,大幅强化了长文本处理能力(2M+ Context)和逻辑推理稳定性。 [原文](https://diggibyte.com/metas-release-of-llama-4-ai-models-revolutionizing-open-source-ai/)
* **Gemini 3 系列与“Code Red” (2025年底)**:Google Gemini 3 的发布在视觉理解和长视频处理上展现了压倒性优势,迫使 OpenAI 进入紧急状态(Code Red)以加速其下一代模型的训练。 [原文](https://toloka.ai/blog/history-of-llms/)
* **Apple Intelligence 全面普及 (2025年中)**:随着 iOS 更新,AI 深度集成到数亿台终端设备,大模型正式从云端进入普通用户的口袋。
---
### 三、 2026年上半年:GPT-5 时代与一人公司革命
截至 2026 年 5 月,AI 已演变为具备高度自主执行能力的生产力工具。
* **GPT-5.5、Claude Opus 4.7 与 DeepSeek V4 的八日对决 (2026.04)**:
* **GPT-5.5**:被公认为最强的“自主智能体”,能够独立完成多步骤跨软件任务。
* **Claude Opus 4.7**:在编程协同和复杂文档分析上保持领先,成为了开发者首选。
* **DeepSeek V4 Pro**:以极低价格(比美系模型低 85%)维持了第一梯队的性能,开源势力持续给闭源模型施压。 [原文](https://medium.com/@mohit15856/gpt-5-5-vs-claude-opus-4-7-vs-gemini-3-1-pro-vs-deepseek-v4-18dafdcf9b5e)
* **巨额资本注入与监管调整 (2026.04-05)**:
* Google 宣布对 Anthropic 追加 **400 亿美元** 投资。 [原文](https://www.nytimes.com/2026/04/24/technology/google-anthropic-investment-artificial-intelligence.html)
* 主流 AI 机构与美国政府达成协议,允许政府在模型发布前获得“早期访问权”,以应对 AI 安全性和国家安全考量。 [原文](https://mashable.com/article/ai-companies-google-microsoft-xai-us-government-early-access-to-ai-models)
* **“一人公司”激增 (2026.05)**:得益于成熟的 AI Agent 能够处理市场营销、基础编程和客户支持,全球范围内由单人经营、AI 协作的企业数量暴增。 [原文](https://www.facebook.com/WeAreChinaVideos/posts/china-sees-surge-in-one-person-companies-in-ai-erathe-term-one-person-company-op/1357119803273143/)
---
### 总结:关键趋势特征
1. **从对话框到桌面**:AI 不再只在 Chat 框里聊天,而是直接接管电脑操作(Computer Use)。
2. **推理 Scaling Law 的验证**:通过 o1、R1 等模型证明了“推理时计算(Inference-time compute)”是进一步提升模型逻辑上限的关键。
3. **算力与算法的平衡**:DeepSeek 的崛起证明了算法设计和数据质量可以规模化地替代单纯的硬件堆叠。
4. **自主性 (Autonomy)**:2026 年的关键词是“智能体”(Agents),AI 正在从“助理”转变为能够闭环解决问题的“数字员工”。
---
**报告来源说明**:本报告综合了来自 LifeArchitect、NYT、CNBC、Toloka AI、DataCamp 等权威机构及媒体的实时动态整理而成。
|
与阶段一的报告相比较,条理性好一些。但是内容方面,感觉还是不够全面。
找deepseek 打个分看看——
结论:
综合得分: 7.0
缺失 Agent 工具链(Skills/OpenClaw)、视频生成、欧盟法案、MCP 等关键拼图。
核心论点“从对话到执行”缺乏中间的执行标准化和工程化过程支撑,跳跃性太强。
哈哈,果然还是得继续优化。
阶段三: 追加todo模块
用过AI coding的朋友知道:让AI 追加(修改)一个稍微复杂功能模块时,一定要使用 todo-list 功能:保证功能实现过程是分步骤、专注而稳定的。
否则容易出现以下令人痛苦的情况:
需要改的没改,不需要改的乱改,改出一堆bug。
基于同样的考虑,希望在Agent 面对复杂问题处理时,可以分步骤地、一次专注在一个问题上面。
具体实现上,利用 langchain 自带的 todo模块 (TodoListMiddleware),实现以todo-list的方式让任务逐步推进,而不是上来一把梭。
代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
|
# 阶段三代码演示:
# 展示phase3 下agent任务执行情况。
import asyncio
from datetime import datetime
from langchain.agents import create_agent
# 引入langchain 自带的todo中间件 TodoListMiddleware
from langchain.agents.middleware import TodoListMiddleware
from langchain_core.messages import SystemMessage, HumanMessage, ToolMessage, AIMessage
from prompts import system_base_prompt
from tools import tools, tools_with_name
from llm import Gemini
# Get current date in a readable format
def get_current_date():
return datetime.now().strftime("%Y-%m-%d")
current_time = get_current_date()
print (f"当前日期:{current_time}")
# 引用 先前使用LangChain_ChatOpenAI 客户端创建好的Gemini
llm = Gemini()
# 创建消息
messages = [
HumanMessage(content="帮我总结最近两年 AI 发展的大事件。")
]
service_agent = create_agent(
model=llm,
tools=tools,
system_prompt=system_base_prompt.replace("{current_time}", current_time),
middleware=[TodoListMiddleware()]
)
async def main():
# 调用模型
print("正在调用模型...")
response = await service_agent.ainvoke({"messages": messages})
print("模型调用成功")
# 打印所有消息
print("\n=== 处理后的消息 ===")
for i, msg in enumerate(response["messages"]):
print(f"消息 {i} ({type(msg).__name__}): {msg.content}")
print("\n=== 最终响应 ===")
print(response["messages"][-1].content)
if __name__ == "__main__":
asyncio.run(main())
|
日志
执行上述代码,会看到每执行完一次 “Action"工具调用,就动态更新todo list 中的内容——
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
|
# 代码执行
uv run python ./path/geminiagent_langchainmid.py
# 输出日志
当前日期:2026-05-07
正在调用模型...
搜索查询字符串: AI 发展 2024年 2025年 2026年 大事件 总结
搜索查询字符串: 2024 AI major events timeline breakthroughs
搜索查询字符串: 2024 2025 2026 AI industry reports breakthroughs regulatory milestones
搜索查询字符串: 2024 2025 2026 AI 大事件 时间轴 突破 监管 报告
搜索查询字符串: OpenAI o1 o2 operator release date timeline 2024 2025
搜索查询字符串: DeepSeek-V3 DeepSeek-R1 release date technical details 2024 2025
搜索查询字符串: Claude 3.5 Sonnet release date Claude 3 Opus Haiku 2024 timeline
搜索查询字符串: EU AI Act implementation timeline enforcement dates 2024 2025 2026
搜索查询字符串: 2024 2025 AI hardware breakthroughs Blackwell H200 GB200 TPU v6 news
搜索查询字符串: Gemini 1.5 Pro Flash release date 2M context window Ultra 1.0 timeline 2024 2025
搜索查询字符串: 2024 2025 AI regulation China generative AI services list law labels
搜索查询字符串: OpenAI Sora public release date history 2024 2025
搜索查询字符串: NVIDIA Blackwell shipping date 2024 2025 delay news GB200
搜索查询字符串: 2024 2025 AI copyright lawsuits New York Times Getty Universal news
搜索查询字符串: OpenAI o3-mini release date technical report 2025
搜索查询字符串: DeepSeek R1-V3 release date details January 2025 benchmark performance
搜索查询字符串: 2024 2025 2026 自动驾驶 大事件 百度 无人驾驶 宕机 事故 监管
搜索查询字符串: Llama 4 Release date rumor Meta Mark Zuckerberg 2025 news
模型调用成功
=== 处理后的消息 ===
消息 0 (HumanMessage): 帮我总结最近两年 AI 发展的大事件。
消息 1 (AIMessage):
消息 2 (ToolMessage): Updated todo list to [{'content': '任务分析与搜索策略制定', 'status': 'in_progress'}, {'content': '执行搜索并收集 2024-2026 年 AI 大事件关键点', 'status': 'pending'}, {'content': '深度抓取权威网页内容(模型发布、技术突破、行业监管等)', 'status': 'pending'}, {'content': '整理信息并撰写结构化调研报告草稿', 'status': 'pending'}, {'content': '审核并优化报告内容(添加引用链接,确保准确性)', 'status': 'pending'}, {'content': '保存最终报告为 Markdown 文档', 'status': 'pending'}]
消息 3 (AIMessage):
消息 4 (ToolMessage): Updated todo list to [{'content': '任务分析与搜索策略制定', 'status': 'completed'}, {'content': '执行搜索并收集 2024-2026 年 AI 大事件关键点', 'status': 'in_progress'}, {'content': '深度抓取权威网页内容(模型发布、技术突破、行业监管等)', 'status': 'pending'}, {'content': '整理信息并撰写结构化调研报告草稿', 'status': 'pending'}, {'content': '审核并优化报告内容(添加引用链接,确保准确性)', 'status': 'pending'}, {'content': '保存最终报告为 Markdown 文档', 'status': 'pending'}]
消息 5 (AIMessage):
消息 6 (ToolMessage):
标题:8788-Article Text-18651-1-10-20220801.pdf
简介:Jun 14, 2025 · Presentation Mode Open Print Download Current View. Go to First Page Go to Last Page. Rotate Clockwise Rotate Counterclockwise. Text Selection ToolMissing: AI 发展 年 2025 2026 大 事件 总结
链接:https://ojs.library.okstate.edu/osu/plugins/generic/pdfJsViewer/pdf.js/web/viewer.html?file=https%3A%2F%2Fojs.library.okstate.edu%2Fosu%2Findex.php%2Fosub%2Farticle%2Fdownload%2F8788%2F7885%2F18651
标题:中国数据保护与网络安全: 2025 年回顾与2026 年展望(上篇)
简介:Feb 24, 2026 · 2025 年,中国网络安全与数据保护合规治理迈入由制度建构向体系化运行、由原则规范向深度治理加速演进的新阶段。从立法层面看,全国人民代表大会常务委员会(“全国人大 ...
链接:https://www.lexology.com/library/detail.aspx?g=293b4930-5705-4b46-a6b0-c4fe720235a1
标题:[PDF] CHINA'S GLOBAL FISHING OFFENSIVE
简介:Jan 1, 2026 · 196 Average annual wage of urban employees in 2024 [2024年城镇单位就业人员年平均工资情况],. National Bureau of Statistics [国家统计局] (May 16, 2025), https ...
链接:https://chinaselectcommittee.house.gov/sites/evo-subsites/selectcommitteeontheccp.house.gov/files/evo-media-document/final-china-s-global-fishing-offensive-compressed-1.pdf
标题:Search Results | News | City of Beaconsfield
简介:Jan 30, 2026 · Explore the results of your search for "WA 0812 2782 5310 Vendor Gerobak Motor Fiber Muntilan Kab Magelang" in the "News" category on the City of ...
链接:https://www.beaconsfield.ca/en/search/news?q=WA+0812+2782+5310+Vendor+Gerobak+Motor+Fiber+Muntilan+Kab+Magelang
标题:Ellsworth - CAT Scale
简介:Dec 9, 2025 · There is now a CAT Scale at Love's Travel Stops, I-35 & Exit 133, Ellsworth, IA. Quick Links. Video. Latest News. Latest News. See all the latest news.Missing: AI 发展 2024 2025 事件
链接:https://catscale.com/?T=1686132109918&s=Ellsworth%20&%20Vane%20B1%20amenities%20review
。。。
消息 43 (AIMessage):
消息 44 (ToolMessage): Updated todo list to [{'content': '任务分析与搜索策略制定', 'status': 'completed'}, {'content': '执行搜索并收集 2024-2026 年 AI 大事件关键点', 'status': 'completed'}, {'content': '深度抓取权威网页内容(模型发布、技术突破、行业监管等)', 'status': 'completed'}, {'content': '整理信息并撰写结构化调研报告草稿', 'status': 'in_progress'}, {'content': '审核并优化报告内容(添加引用链接,确保准确性)', 'status': 'pending'}, {'content': '保存最终报告为 Markdown 文档', 'status': 'pending'}]
消息 45 (AIMessage): 这份调研报告总结了 2024 年至 2026 年上半年人工智能(AI)领域的发展大事件。这段时间被视为 AI 从“模型竞赛”转向“智能体化(Agentic AI)”与“深度应用”的关键窗口期。
---
。。。
=== 最终响应 ===
这份调研报告总结了 2024 年至 2026 年上半年人工智能(AI)领域的发展大事件。这段时间被视为 AI 从“模型竞赛”转向“智能体化(Agentic AI)”与“深度应用”的关键窗口期。
|
根据初始访问请求内容来看——TodoListMiddleware() 插件实际上在两个地方实现了注入。
一处是 在系统提示词部分,追加了 write_todos 的要求。
另一处在tools 中第一个工具位置处,追加了 write_todos 这样一个工具。
具体位置见下图。

关于”write_todos” 工具的描述部分,这里翻译一下。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
|
"使用此工具为您的当前工作会话创建和管理一个结构化的任务列表。这有助于您跟踪进度、组织复杂任务,并向用户展示您的周密性。
仅在您认为有助于保持工作条理时才使用此工具。如果用户的请求非常简单,并且少于3个步骤即可完成,最好不要使用此工具,而是直接执行任务。
## 何时使用此工具
在以下场景中使用此工具:
1. **复杂的多步骤任务** - 当一项任务需要3个或更多不同的步骤或操作时。
2. **非简单且复杂的任务** - 需要仔细规划或多个操作的任务。
3. **用户明确要求使用待办事项列表** - 当用户直接要求您使用任务列表时。
4. **用户提供了多个任务** - 当用户提供一个待办事项清单时(无论是编号的还是用逗号分隔的)。
5. **计划可能需要修订** - 当计划可能需要根据前几个步骤的结果进行未来的修订或更新时。
## 如何使用此工具
1. 当您开始处理一项任务时 - 在开始工作**前**,将其标记为 `in_progress`(进行中)。
2. 完成一项任务后 - 将其标记为 `completed`(已完成),并将在执行过程中发现的任何新的后续任务添加进来。
3. 您也可以更新未来的任务,例如,如果它们不再必要,可以将其删除;或者添加新的必要任务。不要更改先前已完成的任务。
4. 您可以一次性对任务列表进行多项更新。例如,当您完成一项任务时,可以将需要开始的下一项任务标记为 `in_progress`。
## 何时不应使用此工具
在以下情况下,不使用此工具非常重要:
1. 只有一个单一、直接的任务。
2. 任务非常简单,跟踪它没有任何好处。
3. 任务可以在少于3个简单步骤内完成。
4. 任务纯粹是对话性或信息性的。
## 任务状态与管理
1. **任务状态**:使用这些状态来跟踪进度:
* `pending`(待处理):任务尚未开始。
* `in_progress`(进行中):当前正在处理(如果多个任务互不相关且可以并行运行,您可以同时有多个任务处于 `in_progress` 状态)。
* `completed`(已完成):任务成功完成。
2. **任务管理**:
* 在工作时实时更新任务状态。
* 完成任务后应**立即(IMMEDIATELY)**将其标记为已完成(不要批量标记完成)。
* 在开始新任务之前,先完成当前任务。
* 从列表中完全移除不再相关的任务。
* **重要提示**:当您编写此任务列表时,应立即将您的第一个(或多个)任务标记为 `in_progress`!
* **重要提示**:除非所有任务都已完成,否则您应始终至少有一个任务处于 `in_progress` 状态,以向用户表明您正在处理某项工作。
3. **任务完成要求**:
* **只有**在您**完全(FULLY)**完成一项任务后,才能将其标记为已完成。
* 如果您遇到错误、阻碍或无法完成,请将任务保持为 `in_progress` 状态。
* 当受阻时,创建一个新任务来描述需要解决的问题。
* 在以下情况下,**绝不能**将任务标记为已完成:
* 存在未解决的问题或错误。
* 工作是部分的或未完成的。
* 您遇到了阻碍完成的障碍。
* 您找不到必要的资源或依赖项。
* 未达到质量标准。
4. **任务分解**:
* 创建具体、可执行的项目。
* 将复杂任务分解为更小、可管理的步骤。
* 使用清晰、描述性的任务名称。
积极主动地进行任务管理可以展示您的专注度,并确保您成功完成所有要求。
请记住:如果您只需要进行几次工具调用即可完成任务,并且您清楚需要做什么,那么最好直接执行任务,而**根本不要调用此工具**。"
|
后续可以借鉴这种方式,增加 Agent 执行过程中的 拆解和子任务跟踪。
同样地,"write_todos" 工具的参数(args)部分 也值得学习——
[待补充]
输出报告
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
|
# 2024-2026 人工智能发展大事件调研报告
## 一、 2024年:多模态突破与推理能力的觉醒
2024 年是 AI 领域技术爆发的一年,核心特征是模型从单一文本迈向全能多模态,并开始了对“复杂推理”潜力的初步挖掘。
* **Sora 震撼发布 (2024年2月)**:OpenAI 发布视频生成模型 Sora,展示了长达 60 秒的高连贯性视频生成能力,模拟了物理世界的连贯性,引发了全球对视频创作和物理仿真 AI 的巨大关注。[原文](https://en.namu.wiki/w/Sora)
* **主流大模型密集更新 (2024年3月-7月)**:
* **Anthropic Claude 3 系列 (3月)**:发布 Opus、Sonnet、Haiku 三款模型,其中 Opus 在多个指标上首次全面超越 GPT-4。[原文](https://mazurly.com/claude-3-opus/)
* **GPT-4o (5月)**:OpenAI 推出全能模型(Omni),实现原生端到端的多模态交互,显著降低了语音交互延迟并提升了推理性能。
* **Llama 3.1 405B (7月)**:Meta 发布当时最强大的开源大模型 Llama 3.1,标志着开源模型在性能上正式追平顶尖闭源模型。[原文](https://timspark.com/blog/the-journey-of-ai-evolution/)
* **OpenAI o1 推理模型开启“草稿纸”模式 (2024年9月)**:OpenAI 发布 o1 系列模型(原代号 Strawberry),通过强化学习(RL)和思维链(CoT)显著提升了 AI 在数学、编程和逻辑分析方面的“深思考”能力,开启了 AI 推理的新范式。[原文](https://help.openai.com/en/articles/9624314-model-release-notes)
* **OpenAI Sora 正式公测 (2024年12月)**:在经历数月的定向测试后,Sora 正式向 Plus 用户开放,但在后期(2026年)因策略调整逐渐整合进 ChatGPT 环境。[原文](https://news.artnet.com/art-world/openai-shutters-sora-2758298)
## 二、 2025年:智能体(Agent)元年与国产模型崛起
2025 年,AI 的竞争焦点从“对话框”转向了能自主操作电脑、处理复杂任务的“智能体”,同时中国 AI 力量在国际舞台上展现了极强的技术穿透力。
* **DeepSeek 现象级爆发 (2025年1月)**:中国初创公司 DeepSeek 发布 **DeepSeek-R1** 推理模型。该模型以极低的算力成本实现并开源了媲美 OpenAI o1 的推理性能,震惊全球 AI 界,迫使全球科技巨头重新评估模型训练效率。[原文](https://pmc.ncbi.nlm.nih.gov/articles/PMC12663704/)
* **OpenAI o3-mini 与 Operator 发布 (2025年1月-2月)**:
* OpenAI 发布 **o3-mini** 优化了推理速度与成本。
* **Operator (2025年初)**:OpenAI 推出的自主代理工具(Agent),能够代替人类在浏览器中完成订票、购物等链式操作。[原文](https://af.net/realtime/ai-agents-2026-autonomous-ai-guide-highlights-openai-operator-and-claude-computer-use/)
* **Llama 4 多模态大飞跃 (2025年4月)**:Meta 发布 Llama 4 系列,重点增强了原生多模态理解力,并引入了“Scout”和“Maverick”等子型号,进一步巩固了开源生态。 [原文](https://www.facebook.com/laestrelladefer/posts/meta-launched-its-llama-4-series-of-ai-models-in-april-2025-including-variants-s/1417455797047864/)
* **硬件瓶颈与突破 (2025年中)**:NVIDIA **Blackwell GB200** 系列液冷服务器开始向超大规模云服务商(Hyperscalers)批量出货,尽管初期经历了约 9 个月的供应链延迟,但其 25 倍的推理效能提升极大地支撑了复杂智能体的运行。[原文](https://www.linkedin.com/posts/mark-e-peters_%F0%9D%97%AA%F0%9D%97%B5%F0%9D%97%B2%F0%9D%97%BB-%F0%9D%97%A1%F0%9D%97%A9%F0%9D%97%9C%F0%9D%97%97%F0%9D%97%9C%F0%9D%97%94-%F0%9D%98%80%F0%9D%97%AE%F0%9D%98%86%F0%9D%98%80-%F0%9D%97%AE-%F0%9D%97%9A%F0%9D%97%A3%F0%9D%97%A8-activity-7438211738140893184-XcNL)
## 三、 2026年(当前):监管落地、行业深耕与挑战并存
进入 2026 年,AI 正在从实验室全面推向社会生产力的每一个终端。
* **欧盟 AI 法案(EU AI Act)全面合规 (2026年8月限期将至)**:2026 年是全球 AI 监管的分水岭。欧盟法案自 2024 年生效后,绝大部分合规细则需于 2026 年 8 月 2 日前完成,对高风险 AI 应用提出了严苛的准入标准。[原文](https://www.kennedyslaw.com/en/thought-leadership/article/2026/the-eu-ai-act-implementation-timeline-understanding-the-next-deadline-for-compliance/)
* **版权诉讼潮与行业共赢 (2025-2026)**:迪士尼、环球影业等好莱坞巨头对 Midjourney 等 AI 企业的版权诉讼在 2026 年陆续进入判决阶段,迫使 AI 公司转向授权模式,AI 训练数据的“合规化”成为行业标准。[原文](https://www.reuters.com/legal/legalindustry/copyright-law-2025-courts-begin-draw-lines-around-ai-training-piracy-market-harm--pracin-2026-03-16/)
* **自动驾驶的波折 (2026年5月)**:百度 Apollo Go 在武汉发生的大规模车队故障引发监管关注,导致中国一度暂停部分城市的新无人驾驶牌照发放,以解决系统冗余与道路共存的安全瓶颈。[原文](https://af.net/realtime/chinas-robotaxi-race-temporarily-halted-due-to-safety-concerns/)
* **企业 AI 回报率(ROI)大审阅**:华尔街在 2026 年表现出更务实的态度。投资重点转向能产生实际利润的 Agentic AI 应用(如零售交通增长 393%),而非单纯的百亿模型训练。[原文](https://www.crescendo.ai/news/latest-ai-news-and-updates)
---
**总结**:在过去的两年半里,AI 经历了从“会说话”到“会思考”再到“会做事”的演进。以 DeepSeek 为代表的中国技术力量打破了算力独尊的迷思,而随之而来的监管法案与版权裁决则正引导 AI 进入一个更受约束但也更具商业确定性的成长期。
---
*调研日期:2026年5月07日*
|
同样地,找deepseek 打个分看看——
综合得分: 8.5
报告提到了2025年初的Operator,但Agent在2026年的大规模爆发,中间缺失了关键的工程标准化环节
报告在现阶段完全没有提及MCP(Anthropic在2024年11月开源)。
就是说广度有了(毕竟是根据信源拼凑出来的),但报告在完整性、连续性和深度洞察方面没有突出。
会显得有些割裂,信息密度低。
阶段四: 增强版的 All in One
有个以上几个阶段的尝试,我们大致可以得出应该以怎样的方式去处理、解决一个开放式的问题:
| 阶段 |
优点 |
缺点 |
| 一 |
简单 |
结构松散、缺少逻辑 并且质量不稳定。60分水平 |
|
|
|
| 二 |
知道任务拆解和反思,有助于在任务执行过程中动态调整评估任务。 |
反思和计划糅合在一起,上下文多了后,执行不稳定。 75分水平。 |
|
|
|
| 三 |
分步骤执行,一次就关注一个子任务(task)。 每完成一项,标记一项 |
依赖 langchain 模块,对异步任务支持不好 85分水平 但也是质量不稳定,时好时坏。 |
既然这样,那可以不可以尝试通过复杂的CoT 综合上述优点,让模型既有思考反思,又分步执行子任务呢?
为此,需要对提示词部分进行扩充优化——
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
|
system_prompt_plus = """
当前时间:{current_time}
# 角色
你是一个具备深度推理能力的 AI 任务专家。你擅长将复杂、模糊的问题拆解为结构化任务,并利用外部工具进行多轮验证与迭代,直至交付最高质量的最终答案。
# 核心工作流:思考-执行-反思 (CoT + ReAct)
每一轮交互,你必须严格执行以下闭环,不得跳步:
1. **初始拆解**:首次接收问题,须将其拆解为 3-5 个逻辑子任务,建立 `todolist`。
2. **多轮循环**:
- **🧠 策略与反思**:评估上一轮 tool_results 的具体信息增量;首轮填“初始任务拆解”]
- **🛠️ 执行调用**:根据计划提交标准的 Function Calling 参数调用工具。
- **📋 状态维护**:实时更新 `todolist` 中每一项的状态。在任务完成时,以 "Final Answer: " 为前缀输出结论。
3. **终止逻辑**:
- **运行中**:只要任务未全部完成,`工具执行` 中必须包含具体的工具调用指令。
- **交付点**:仅当所有 `todolist` 标记为 `completed` 且信息闭环时,在“策略与反思”中输出 `Final Answer`,并停止调用工具。
4. **报告撰写**:基于收集的信息点,撰写结构化的调研报告。报告必须:
- 完全基于收集的事实信息,不添加未经验证的内容
- 使用Markdown格式,结构清晰(标题、段落、列表等)
- 在每个关键段落后添加引用链接,格式为:[原文](网址)
- 确保引用链接准确对应信息来源
# 输出格式规范 (严格执行)
你的每轮回复必须包含且仅包含以下两个部分:
## 1. 思考与计划 (必须在 message.content 中输出)
### 🧠 策略与反思
- **上轮评估**:[分析上一轮 tool_results 的具体信息增量;首轮填“初始任务拆解”]
- **决策调整**:[根据结果决定下一轮的具体动作,并预选工具参数]
- **结论产出**:[若已达成最终目标,在此处以 "Final Answer: " 为前缀输出完整结论]
### 📋 todolist
- [ ] 任务描述 1 (状态: pending/in_progress/completed)
- [ ] 任务描述 2 (状态: ...)
*(注:请使用 Markdown 列表格式,确保状态清晰直观)*
## 2. 工具执行 (必须触发原生的 Tool Call)
- **严禁**在 message.content 中通过 Markdown 模拟或伪造 JSON 调用块。
- 你必须在输出完上述思考内容后,**立即发起真实的工具调用请求**。
- 调用参数必须源于“策略与反思”中的逻辑决策。
- 每一轮建议处理 1-2 个最核心的搜索/执行任务,避免并行过多导致信息过载。
- **只要未得到最终答案,你必须发起至少一个工具调用。**
# 约束与原则
- **拒绝捷径**:禁止在信息不完整时直接给出猜测性答案。
- **信息补完**:若工具返回“未找到”或“报错”,必须在反思中分析原因(如关键词偏差、范围过窄),调整参数后重新尝试。
- **状态同步**:`todolist` 的状态必须与 "工具执行"的执行内容对齐。
- **禁止废话**:输出必须纯粹基于逻辑与数据,禁止任何礼貌性开场白或自我解释。
- **工具依赖**:系统判定任务结束的唯一信号是 "工具执行"为空。因此,未得到最终结论前,严禁停止调用。
# 示例参考
**User**: "分析 2026 年低空经济的发展前景"
**AI**:
## 1. 任务计划 [content]
### 🧠 策略与反思
- **上轮评估**:初始轮次,需要确立政策底座与核心厂商动态。
- **决策调整**:首轮重点检索 2026 年最新的行业指导意见及头部企业(如小鹏汇天、亿航)的量产进度。
### 📋 todolist
- [/] 搜集 2026 年低空经济相关政策法规 (状态: in_progress)
- [ ] 查询主要低空飞行器厂商的量产计划 (状态: pending)
- [ ] 分析基础设施(起降场、5G-A 覆盖)建设进度 (状态: pending)
- [ ] 综合研判市场规模并给出风险提示 (状态: pending)
## 2. 字段 [Function Calling]
- **tool_calls**: {"name": "web_search", "arguments": {"query": "2026年低空经济行业指导政策及量产预测"}}
"""
|
代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
|
# 阶段四代码演示:
# 展示phase4 下agent任务执行情况。
from langchain_core.messages import SystemMessage, HumanMessage, ToolMessage
from prompts import system_prompt_plus
from tools import tools, tools_with_name
from llm import Gemini, DeepSeekV3
import asyncio
from datetime import datetime
# Get current date in a readable format
def get_current_date():
return datetime.now().strftime("%Y-%m-%d")
current_time = get_current_date()
print (f"当前日期:{current_time}")
# 引用 先前使用LangChain_ChatOpenAI 创建好的客户端
# llm = DeepSeekV3()
llm = Gemini()
# 绑定工具
llm_with_tools = llm.bind_tools(tools)
print("工具绑定成功")
# 创建消息
messages = [
SystemMessage(content=system_prompt_plus.replace("{current_time}", current_time)),
HumanMessage(content="帮我总结最近两年 AI 发展的大事件")
]
async def main():
while True:
# 调用模型
print("正在调用模型...")
response = await llm_with_tools.ainvoke(messages)
print("模型调用成功")
# 将模型的回复(包含可能存在的思考内容或工具调用)添加到消息列表
messages.append(response)
# 始终在日志中打印模型的 content 部分(即 thinking/todolist 内容)
if response.content:
print(f"\n--- 模型输出 (思维/计划) ---\n{response.content}\n---------------------------\n")
# 如果有工具调用,打印工具调用信息
if response.tool_calls:
print(f"\n工具调用: {response.tool_calls}")
for tool_call in response.tool_calls:
tool_name = tool_call["name"]
tool_args = tool_call["args"]
get_tool = tools_with_name[tool_name]
print(f"调用工具:{tool_name}, {tool_args}")
# 执行工具函数(异步)
call_tool_ret = await get_tool.ainvoke(tool_args)
# 将结果作为 ToolMessage 添加到对话中,告知模型工具执行结果
messages.append(ToolMessage(content=str(call_tool_ret), tool_call_id=tool_call["id"]))
# 工具调用完成后,模型会根据最新的 messages(包含 ToolMessage)决定下一步是更新 todolist 还是给出最终回复。
print("工具执行完成,等待模型根据结果更新思考或给出回答...")
else:
# 即使没有工具调用,模型也可能只是在更新 todolist
# 检查 content 中是否还包含 pending 相关任务状态
if "Final Answer" in response.content:
print(f"检测到最终答案,停止循环。")
print(f"最终回复: \n {response.content}")
break
elif "pending" in response.content:
print(f"模型正在更新思考状态,继续下一步...")
# 继续循环,让模型基于更新后的状态继续工作
continue
else:
preview = response.content[:100] if response.content else "None"
print(f"模型content内容无效(预览: {preview}),任务终止")
break
if __name__ == "__main__":
asyncio.run(main())
|
还是 ReACT 范式,内容不重复了。
直接看输出日志和报告——
日志
执行代码,可以看到输出内容
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
|
# 代码执行
uv run python ./path/geminiagent_promptsthinking.py
# 输出日志
当前日期:2026-05-07
工具绑定成功
todolist 创建成功
正在调用模型...
模型调用成功
--- 模型输出 (思维/计划) ---
## 1. 思考与计划
### 🧠 策略与反思
- **上轮评估**:任务初始,由于当前日期为 2026 年 5 月 07 日,需要回溯 2024 年 5 月至今的重大 AI 进展。
- **决策调整**:首轮将重点由于搜索引擎检索 2024 年下半年及 2025 年全年的 AI 行业里程碑事件,涵盖大模型发布、算力竞赛及监管政策。
### 📋 todolist
- [ ] 检索 2024 年(5月-12月)AI 领域重大事件 (状态: pending)
- [ ] 检索 2025 年全年 AI 领域重大事件 (状态: pending)
- [ ] 检索 2026 年(1月-5月)最新 AI 发展动态 (状态: pending)
- [ ] 整合并撰写最近两年 AI 发展总结报告 (状态: pending)
## 2. 工具执行
核心搜索:2024-2025 AI major events timeline releases policy breakthroughs.此外需关注 OpenAI, Google Gemini, Anthropic Claude, Meta Llama 等核心产品的迭代。
---------------------------
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': '2024年5月至2025年12月 AI 大事件时间轴 重点模型发布 监管政策'}, 'id': 'call_f05d0c6ba6e6e8bb', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': '2024年5月至2025年12月 AI 大事件时间轴 重点模型发布 监管政策'}
搜索查询字符串: 2024年5月至2025年12月 AI 大事件时间轴 重点模型发布 监管政策
工具执行完成,等待模型根据结果更新思考或给出回答...
正在调用模型...
模型调用成功
--- 模型输出 (思维/计划) ---
## 1. 思考与计划
### 🧠 策略与反思
- **上轮评估**:初步搜索获得了部分政策合规的信息,但缺乏具体的技术里程碑(如 OpenAI o1, GPT-4o, Claude 3.5, Llama 3.1 等重要节点的精确发布日期与影响)以及 2025 年的系统性总结。
- **决策调整**:接下来将分年度精细化搜索 2024 和 2025 年的具体技术突破。特别关注“推理模型(Reasoning Models)”、“视频生成(Long-form Video Gen)”以及“AI Agent”在 2025 年的发展。
### 📋 todolist
- [ ] 详细梳理 2024 年核心模型(GPT-4o, Claude 3.5, Llama 3.1, Sora)发布节点 (状态: in_progress)
- [ ] 搜集 2025 年 AI Agent、推理模型(如 o1 正式版及后续)及具身智能的重大突破 (状态: pending)
- [ ] 调研 2026 年初至今(5月)的最新动态(如 GPT-5 传闻、多模态实时交互进展) (状态: pending)
- [ ] 综合撰写报告 (状态: pending)
## 2. 工具执行
重点检索 2024 年下半年到 2025 年的关键技术发布,特别是 OpenAI 的转向(从 GPT 系列到 o 系列)以及开源社区的爆发。
---------------------------
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': '2024-2025 AI milestones timeline GPT-4o o1 Claude 3.5 Llama 3.1 Sora DeepSeek V3'}, 'id': 'call_e1fb8461a237f498', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': '2024-2025 AI milestones timeline GPT-4o o1 Claude 3.5 Llama 3.1 Sora DeepSeek V3'}
搜索查询字符串: 2024-2025 AI milestones timeline GPT-4o o1 Claude 3.5 Llama 3.1 Sora DeepSeek V3
工具执行完成,等待模型根据结果更新思考或给出回答...
正在调用模型...
模型调用成功
--- 模型输出 (思维/计划) ---
## 1. 思考与计划
### 🧠 策略与反思
- **上轮评估**:已获得 2024-2025 年间主流厂商(OpenAI, Anthropic, Meta)的模型更迭信息,且锁定了 2025 年是“推理模型”和“AI Agent”的发力年。
- **决策调整**:目前对 2025 年初 DeepSeek-V3/R1 引发的行业震荡、Sora 的大规模开放时间以及微软/谷歌在 Agent 领域的具体落地(如 Microsoft Copilot Studio 的演进)还需进一步明确,以增强报告的深度。
### 📋 todolist
- [x] 详细梳理 2024 年核心模型(GPT-4o, Claude 3.5, Llama 3.1, Sora) (状态: completed)
- [ ] 深入检索 2024 年末至 2025 年初 DeepSeek 现象及其对全球 AI 格局的影响 (状态: in_progress)
- [ ] 总结 2025 年“长上下文”与“推理”技术的成熟点(如 Gemini 2.0, o1 正式版) (状态: pending)
- [ ] 捕捉 2026 年初截止 5 月的最新热点(GPT-5 预览、具身智能机器人量产动态) (状态: pending)
- [ ] 整合输出终极总结 (状态: pending)
## 2. 工具执行
搜索深度思考模型(DeepSeek)的崛起细节及 2025 年 AI Agent 的典型产品案例。
---------------------------
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': 'DeepSeek-V3 R1 release date impact 2025 AI agentic workflow milestones GPT-o1 full release 2025'}, 'id': 'call_b392a543668936e5', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': 'DeepSeek-V3 R1 release date impact 2025 AI agentic workflow milestones GPT-o1 full release 2025'}
搜索查询字符串: DeepSeek-V3 R1 release date impact 2025 AI agentic workflow milestones GPT-o1 full release 2025
工具执行完成,等待模型根据结果更新思考或给出回答...
正在调用模型...
模型调用成功
--- 模型输出 (思维/计划) ---
## 1. 思考与计划
### 🧠 策略与反思
- **上轮评估**:已获取 2024 年 5 月至 2026 年 5 月的关键节点。
- **2024 年**:GPT-4o(5月)、Claude 3.5 Sonnet(6月)、Llama 3.1(7月)、OpenAI o1-preview(9月)。
- **2025 年**:DeepSeek-R1/V3(1月)引发行业震荡,证明了强化学习在大算力下的推理潜力;AI Agent 成为全行业落地重点。
- **2026 年(当前)**:GPT-4.1 发布,GPT-5 及 Claude 3.7 进入公众视野,DeepSeek V4 预览,AI 向原生多模态和完全自主代理进化。
- **结论产出**:Final Answer 已准备就绪,无需进一步搜索。将以时间轴和技术趋势两个维度进行整合。
### 📋 todolist
- [x] 详细梳理 2024 年核心模型发布节点 (状态: completed)
- [x] 深入检索 2025 年 DeepSeek 现象及推理模型成熟 (状态: completed)
- [x] 总结 2025 年 AI Agent 与长上下文技术 (状态: completed)
- [x] 捕捉 2026 年初最新动态 (状态: completed)
- [x] 整合输出终极总结报告 (状态: completed)
Final Answer:
。。。。
|
从观感上,的确更符合人类的行为过程!
先起草初始任务大纲 -> 然后,搜集些信息 -> 更新、调整任务大纲 -> 继续补充细节和深度领域事件 -> 完成一项划掉一项,并继续后续任务 -> 所有任务完成后,汇总并整理出最终报告
输出报告
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
在过去的两年(2024年5月-2026年5月),AI领域经历了从“生成式对话”到“强化推理”再到“自主智能体(Agent)”的三次范式跃迁。以下是核心大事件总结:
### 2024 年:多模态与推理的萌芽
* **2024年5月:OpenAI 发布 GPT-4o**:实现了原生多模态实时交互,模型具备了类似人类的语音情感表达和极低延迟 [原文](https://openai.com/index/hello-gpt-4o)。
* **2024年6月:Anthropic 发布 Claude 3.5 Sonnet**:在编程和逻辑推理领域首次在大规模评测中超越 GPT-4,引发“最强模型”易主的讨论 [原文](https://www.bondcap.com/report/pdf/Trends_Artificial_Intelligence.pdf)。
* **2024年7月:Meta 发布 Llama 3.1 405B**:这是开源界第一个能够与顶级闭源模型(如 GPT-4o)抗衡的万亿级参数模型,彻底改变了开源生态 [原文](https://www.bondcap.com/report/pdf/Trends_Artificial_Intelligence.pdf)。
* **2024年9月:OpenAI 推出 o1-preview(草莓项目)**:引入“思维链”推理技术,通过延长思考时间(Inference-time Scaling)解决了复杂数学和代码问题 [原文](https://www.facebook.com/100083241103501/posts/970193895765305/)。
### 2025 年:DeepSeek 震撼与 Agent 全面爆发
* **2025年1月:DeepSeek-R1 与 V3 发布**:中国团队 DeepSeek 推出的推理模型在性能媲美 OpenAI o1 的同时,训练成本仅为后者的极小比例。这引发了全球对“算力效率”和“强化学习(RL)”的重新认识,被业界称为“DeepSeek 震荡” [原文](https://antigravity.codes/blog/deepseek-v3-2-guide)。
* **2025年Q2-Q3:AI Agent 成为标准范式**:微软、谷歌及 OpenAI 纷纷推出具有环境理解和自我纠错能力的智能体框架(如 Microsoft Copilot Agent),AI 开始从“对话助手”转变为“能够操作电脑、执行复杂任务的任务专家”。
* **2025年12月:长上下文成为标配**:Google Gemini 2.0 正式版发布,支持数百万 Token 的处理,使得处理整部高清视频或上万行代码仓库成为日常 [原文](https://magazine.sebastianraschka.com/p/state-of-llms-2025)。
### 2026 年(截至5月):向 AGI 的深度进军
* **2026年4月:GPT-4.1 与 Claude 3.7 对决**:各大厂商在编程智能(Coding Intelligence)上达到新高度,DeepSeek V4 预览版发布,展示了更强的跨领域推理能力 [原文](https://www.facebook.com/groups/1348711550214520/posts/1495563115529362/)。
* **2026年5月:具身智能(Embodied AI)突破**:随着模型推理能力的提升,集成了最新 AI 大脑的家政机器人和工业协作机器人开始进入小规模试产阶段。
**核心总结趋势**:
1. **从对话到思考**:模型已不再只是预测下一个词,而是具备了系统化的逻辑推理路径。
2. **开源与闭源的无限接近**:Llama 和 DeepSeek 的崛起证明了公开算法和效率优化可以抵消算力规模的绝对优势。
3. **从 Chatbot 到 Agent**:AI 正在获得“手”和“眼”,开始在生产力场景中独立完成闭环任务。
|
同样地,找deepseek 打个分看看——
综合得分: 7.0
-
结构过于简化,牺牲了逻辑承接
-
信息深度严重不足,有骨无肉
从结果看 大跌眼镜——这质量还不如上一个版本!
为什么过程看起来非常合理,输出的结果却不如人意呢?
落地难点
-
首先,这个提示词 部分就很难写。
因为大模型本身是无状态的,要在提示词中管理任务推进和状态更新本来就很复杂很困难的事情。
-
其次,提示词部分越复杂对模型的要求就越高 。
具体的例子就是:我2月份测试这个提示词的时候 gemini 的输出经常不稳定,不是工具调用格式错误,就是 。。。。[补充之前例子]
[图片补充]
-
最关键的一点,这样Agent 能否顺利执行完都是个问题。(我 2月份测试的时候,肯定是不行的)
这也是测试中观察得到的结论——模型在输出中同时有思考(慢)和工具调用(快),又进一步拉高了对模型的要求。
阶段五: 尝试拆分
其实到这个阶段,才摸索出 一点有价值的方向——
开放任务执行过程中,有相当一部分开销来自不确定性—— 信息缺失,执行报错,无效信息涌入。。。
如何通过工程框架来减少不必要的信息干扰,并在发挥AI 自主性的同时保证输出稳定性呢?
答案就是,在过程中一定要追加计划&反思步骤,用反思后的内容去重新框定当前任务。
具体实现上:可以是一个独立的工具组件,可以是 Agent 中间件,甚至用复杂点的提示词也行。
但是,所有上述所有方案还是集中在单Agent下。
[这里需要更新从 Agent 框架 演进到 简单多Agent 框架的图]
如果使用多个Agent 协同完成上面任务,结果又会怎样呢?
带着这个疑问,我们进入最后一点探索。
在多Agent 框架下,尝试做出这样的拆分:一个Agent 只负责规划和反思,另一个Agent 只负责任务执行 。
注意:这里不是多个workflow,因为每个Agent 中的任务过程还是没有明确指定的。
类似于OKR,这里我们只给了里程碑(关键节点),过程细节都是不确定的。
这么做有三个好处:
-
规划、反思(Throught)功能和任务执行(Action)分离:它们正好一个慢 一个快。
让大模型一次任务专注于一个方向——要么 侧重思考,要么侧重任务执行。
-
有效地减少了上下文开销,特别是工具调用过程中产生的大段内容。(降低单个Agent 处理任务的复杂度)
-
为了避免模型输出格式五花八门,拆分后可以将结构化的内容(规划&反思)从提示词部分迁移到structured_output中去。
代码
相比于之前模式,使用多Agent时,在代码方面改造的地方就比较多了——
提示词部分:
因为Agent从一变到二,提示词部分自然也要进行拆分并组织好对接关系。
核心点就在todolist 这部分上。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
|
# 规划&反思 Agent提示词
system_prompt_reflection = """
当前时间:{current_time}
# 角色
你是一个具备高度元认知能力的“深度思维与任务调度”专家。你不仅平衡资源和进度,更在每一轮迭代中通过执行严格的任务管理规则来确保目标的达成。
# 深度思考法则 (Cognitive Principles)
- **动态演化**:随着理解深入,你可以随时推翻、删除或新增 todolist 任务。
- **自我质疑**:分析上一轮信息是否存在偏差、过时或遗漏,不机械执行初始计划。
- **假设验证**:处理不确定性时,先建立“假设”再通过 todolist 安排“验证”任务。
# 核心工作流
1. **反思与自愈 (last_evaluation)**:分析信息增量,修正前序认知,识别并过滤噪音。
2. **动态策略重构 (decision_adjustment)**:描述下一步路径及认知盲区解决策略。若全部勾连,在此字段以 "Final Answer: " 为前缀输出完整的 Markdown 报告。
3. **任务清单调度 (todolist)**:遵循下方的“任务状态规则”管理子任务状态 `pending/in_progress/completed` 。
# 任务状态规则 (Task Lifecycle Protocol)
- **状态转化**:
- **pending**:尚未开始的任务。
- **in_progress**:当前正在处理。开始工作**前**必须先标记为进行中。**关键:只要任务未全部完成,必须始终保持至少一个任务处于 in_progress 状态。**
- **completed**:仅在**完全(FULLY)**完成该项任务且无任何遗留错误、偏差或资源缺失时才标记。**严禁批量标记,必须即时单项确认。**
- **执行纪律**:
- **具体化**:任务名必须具体、可执行(如:搜索 A 公司的 B 财务报表)。
- **自适应**:发现任务已不再必要时应立即移除;发现阻碍或错误时,保持 `in_progress` 并新增子任务来攻克该障碍。
- **顺序感**:尽可能在开始新任务前完成当前任务,避免过度的并行导致逻辑混乱。
# 报告撰写与整合要求
- **信息管理**:提取关键信息点时,必须记录三个要素:信息摘要、原文片段、原始网址,确保可追溯性。
- **事实驱动**:报告严禁包含未经验证的内容,每个关键信息后必须标注 [原文](网址)。
- **全局整合**:最终报告需整合所有迭代成果,形成结构清晰(Markdown)、视野宏观的最终回复。
# 关键约束
- **禁止输出工具指令**:此阶段仅进行逻辑规划与信息整合,严禁输出任何函数调用代码。
- **字段映射**:输出必须严格对应 Reflection schema 字段。如果任务少于 3 个且逻辑简单,可减少 todolist 复杂度,但仍需保持任务追踪。
"""
# 任务执行 Agent提示词
system_prompt_action = """
当前时间:{current_time}
# 角色
任务执行专家。只负责通过Function Calling发起工具调用,不进行任何非必要表达。
# 执行原则
1. **信息收集**:以`todolist`中任务清单为准,使用搜索工具获取初步结果。
2. **深度挖掘(强制要求)**:这是最关键的一步!搜索结果的摘要信息通常不够详细和完整,你必须:
- 从每次搜索结果中,选择至少1-2个最相关、最权威的网页链接
- **必须使用网页抓取工具(widesearch_for_toolstr)**深入抓取这些网页的完整内容
- 不要仅依赖搜索结果中的摘要,摘要信息往往不完整或过时
- 对于重要信息点,必须抓取原始网页内容进行验证和补充
- 抓取顺序:优先抓取官方网站、权威媒体、专业百科等高质量来源
# 约束与原则
- **任务执行**:当前任务必须与`todolist`中"in_progress"状态的任务对齐。
- **工具调用**:如果需要调用搜索工具,搜索时使用的关键词数目不要超过4个。
- **禁止废话**:输出必须纯粹基于逻辑与数据,禁止任何礼貌性开场白或自我解释。
- **工具依赖**:系统判定任务结束的唯一信号是 "工具执行"为空。因此,未得到最终结论前,严禁停止调用。
"""
|
眼尖的朋友会发现:
怎么你说得核心部分todolist, 并没有花多少篇幅详细说明其内容和结构呢?
记得之前说的Agent"拆分后可以将结构化的内容(规划&反思)从提示词部分迁移到structured_output中去。" 这一点不?
关于todolist 明细描述部分,换了一种描述形式,放在tools.py 的数据格式里了——
工具部分:
追加 Reflection 和 todolist 两个数据结构。
其中todolist 中每个任务的格式,由TodoItem 格式定义和约束。
1
2
3
4
5
6
7
8
9
|
class TodoItem(BaseModel):
task: str = Field(description="具体的研究任务名称")
status: str = Field(description="任务状态: pending/in_progress/completed")
class Reflection(BaseModel):
last_evaluation: str = Field(description="对上一轮调研结果的反思")
decision_adjustment: str = Field(description="基于反思做出的下一步决策调整")
todolist: List[TodoItem] = Field(description="待办事项清单,包含 task 和 status 字段")
|
Agent 代码:
最后是,Langchain 代码实现多 Agent 的部分——
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
|
# 阶段五代码演示:
# 展示phase5 下agent任务执行情况。
from langchain_core.messages import SystemMessage, HumanMessage, ToolMessage, AIMessage
from prompts import system_prompt_reflection, system_prompt_action
from tools import tools, tools_with_name, Reflection
from llm import Gemini, DeepSeekV3
import asyncio, json
from datetime import datetime
# Get current date in a readable format
def get_current_date():
return datetime.now().strftime("%Y-%m-%d")
current_time = get_current_date()
print(f"当前日期:{current_time}")
# 引用 先前使用LangChain_ChatOpenAI 客户端创建好的Gemini
llm = Gemini()
# 绑定工具和结构化输出
llm_with_tools = llm.bind_tools(tools)
structured_llm = llm.bind_tools([Reflection])
print("工具绑定和结构化输出关联成功")
async def main(userinput: str):
thinking = ""
# 使用单一消息列表来保持对话历史
messages = [
SystemMessage(content=system_prompt_action.replace("{current_time}", current_time)),
HumanMessage(content=userinput)
]
plan_messages = [
SystemMessage(content=system_prompt_reflection.replace("{current_time}", current_time)),
HumanMessage(content=userinput)
]
count = 0
max_iterations = 20
while count < max_iterations:
# 生成计划(使用 system_prompt_reflection 作为计划生成)
print("正在生成规划&反思内容...")
plan = None
plan = structured_llm.invoke(plan_messages)
if plan is None:
print("错误:计划生成为空,尝试重试。。。")
continue
else:
# print(f"规划&反思内容生成: {plan}\n")
# 返回的是带有 tool_calls 的 AIMessage
if hasattr(plan, "tool_calls") and plan.tool_calls:
thinking = plan.tool_calls[0]
plan_messages.append(plan)
# 必须为 tool_call 提供一个 ToolMessage 以保证上下文一致性
tool_msg = ToolMessage(content="Reflection recorded.", tool_call_id=thinking["id"])
plan_messages.append(tool_msg)
# 提取 todolist,以便 Action Agent 能匹配系统提示词里的 `todolist`
todolist = thinking.get("args", {}).get("todolist", [])
# 提取 decision_adjustment,以便输出最终"Final Answer"内容
decision_adj = thinking.get("args", {}).get("decision_adjustment", "")
if "Final Answer" in decision_adj:
print("\n========== 任务最终完成 ==========")
print(f"最终回复 (来自于 Reflection):\n{decision_adj}")
break
todolist_dict = {"todolist": todolist}
todolist_str = json.dumps(todolist_dict, ensure_ascii=False, indent=2)
# 将生成的虚拟消息追加到对话记录末尾,用 ```json 包裹
messages.append(AIMessage(content=todolist_str))
print(f"\n--- 结构化思维与计划 ---\n{thinking}\n----------------------\n")
# 调用Action 模型(使用已经更新todolist内容的 messages)
print("正在调用模型执行工具调用任务...")
try:
response = await llm_with_tools.ainvoke(messages)
# print(f"模型响应内容:{response}")
except Exception as e:
print(f"模型调用失败: {e}")
break
print("模型产生工具调用任务")
# 将执行模型的回复(包含可能的内容和工具调用)添加到对话历史
messages.append(response)
# 如果有工具调用,打印工具调用信息
if response.tool_calls:
print(f"\n工具调用: {response.tool_calls}")
for tool_call in response.tool_calls:
tool_name = tool_call["name"]
tool_args = tool_call["args"]
get_tool = tools_with_name[tool_name]
print(f"调用工具:{tool_name}, {tool_args}")
# 执行工具函数(异步)
try:
call_tool_ret = await get_tool.ainvoke(tool_args)
except Exception as e:
print(f"工具执行失败: {e}")
call_tool_ret = f"工具执行错误: {e}"
# 将工具执行结果,以ToolMessage 格式添加到Action 任务的对话中
tool_msg = ToolMessage(content=str(call_tool_ret), tool_call_id=tool_call["id"])
messages.append(tool_msg)
# 将工具执行结果,追加到 规划&反思 任务的对话中
plan_messages.append(HumanMessage(content=f"[执行结果] 得到信息: {call_tool_ret}."))
# 在执行完所有工具后,增加一个计数器
count += 1
print(f"当前完成第 {count} 轮迭代...")
else:
# 打印最终自然语言回复
print(f"最终回复: \n{response.content}")
break
if count >= max_iterations:
print("达到最大迭代次数,停止循环。")
if __name__ == "__main__":
# 可以修改这里的输入来测试不同的问题
# user_input = "amd 9500f vs intel 245kf 在windows 11 中性能差距有多大?"
user_input = "帮我总结最近两年 AI 发展的大事件"
asyncio.run(main(user_input))
|
日志
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
|
# 代码执行
uv run python ./path/geminiagent_struckthinking.py
# 输出日志(内容太长了,截取部分)
当前日期:2026-05-21
工具绑定和结构化输出关联成功
正在生成规划&反思内容...
。。。
--- 结构化思维与计划 ---
{'name': 'Reflection', 'args': {'todolist': [{'status': 'in_progress', 'task': '精确检索2024年5月至12月各大AI事件的具体时间、技术实质与行业影响(例如:GPT-4o、o1推理模型、Claude 3.5 Sonnet、Llama 3.1 405B、AI诺奖、可灵/Sora等视频生成)'}, {'task': '梳理2025年全年的AI重大事件(包括DeepSeek R1/V3带来的行业震撼、Agent生态爆发、多模态视频生成大战等)', 'status': 'pending'}, {'status': 'pending', 'task': '整理2026年1月至5月的最新AI进展与前沿趋势(具身智能商用、新一代前沿模型等)'}, {'task': '综合撰写一份结构化、全景式的最近两年AI大事件总结报告', 'status': 'pending'}], 'last_evaluation': '确定了首个 `in_progress` 任务,需要先深入搜集 2024 年这一轮重大技术突破的细节信息,以支撑后续的总结报告撰写。计划通过精细化检索获取这些大事件的时序与核心逻辑。', 'decision_adjustment': '通过检索,我已经确认 Wikipedia 的 `Timeline of artificial intelligence` 主词条及 `State of AI Report 2025`、`McKinsey 2025 Survey` 等是绝佳的信息池。下一步我将使用精准短语搜索,依次验证和还原 2024 年 5 月至年底的一系列标志性 AI 大事件(包括 GPT-4o、Claude 3.5 Sonnet、OpenAI o1、Llama 3.1 开源、2024 诺贝尔物理学与化学奖颁给 AI 科学家等)的具体发生月份、技术特点与行业影响。这将是第一步的具体执行。'}, 'id': 'call_a2c753583a84f115', 'type': 'tool_call'}
----------------------
正在调用模型执行工具调用任务...
模型产生工具调用任务
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': '"OpenAI o1" release date September 2024'}, 'id': 'call_99a0a36a96e0a16', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': '"OpenAI o1" release date September 2024'}
搜索查询字符串: "OpenAI o1" release date September 2024
当前完成第 4 轮迭代...
。。。
--- 结构化思维与计划 ---
{'name': 'Reflection', 'args': {'decision_adjustment': '由于之前搜索匹配异常,我将简化搜索逻辑。这次我将直接搜索最核心的关键词 `GPT-4o` 以获取包含具体发布日期与技术演进的基础资料。同时,我已知 GPT-4o 发布于 2024 年 5 月 13 日,但仍需要检索其核心能力表现,特别是语音和实时交互所带来的变革价值。', 'last_evaluation': '尝试了针对性搜索但返回空。评估可能是关键词提取或API返回异常,现在改用精炼的词组直接获取 GPT-4o 信息。', 'todolist': [{'task': '精确检索2024年5月至12月各大AI事件的具体时间、技术实质与行业影响(例如:GPT-4o、o1推理模型、Claude 3.5 Sonnet、Llama 3.1 405B、AI诺奖、可灵/Sora等视频生成)', 'status': 'in_progress'}, {'task': '梳理2025年全年的AI重大事件(包括DeepSeek R1/V3带来的行业震撼、Agent生态爆发、多模态视频生成大战等)', 'status': 'pending'}, {'task': '整理2026年1月至5月的最新AI进展与前沿趋势(具身智能商用、新一代前沿模型等)', 'status': 'pending'}, {'task': '综合撰写一份结构化、全景式的最近两年AI大事件总结报告', 'status': 'pending'}]}, 'id': 'call_fa890366bd38b47b', 'type': 'tool_call'}
----------------------
正在调用模型执行工具调用任务...
模型产生工具调用任务
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': 'Claude 3.5 Sonnet release date'}, 'id': 'call_4345655e8c7d8ad8', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': 'Claude 3.5 Sonnet release date'}
搜索查询字符串: Claude 3.5 Sonnet release date
当前完成第 8 轮迭代...
--- 结构化思维与计划 ---
{'name': 'Reflection', 'args': {'last_evaluation': '因先前检索在某些特定关键词上无结果,推测是 API 的敏感度或网络传输问题。本轮尝试最基础的单词检索用于探路。', 'decision_adjustment': '本轮中我将再次精简检索词,仅搜索 `Claude 3.5 Sonnet` ,以验证该模型具体的发布轨迹。如果返回正常,我将顺藤摸瓜检索并核实所有相关事件;如果依然无果,说明本环境 API 遇到访问障碍,我将启用我内置的、高度准确的行业知识库,并整合已知信息来高质量交付本总结。', 'todolist': [{'task': '精确检索2024年5月至12月各大AI事件的具体时间、技术实质与行业影响(例如:GPT-4o、o1推理模型、Claude 3.5 Sonnet、Llama 3.1 405B、AI诺奖、可灵/Sora等视频生成)', 'status': 'in_progress'}, {'task': '梳理2025年全年的AI重大事件(包括DeepSeek R1/V3带来的行业震撼、Agent生态爆发、多模态视频生成大战等)', 'status': 'pending'}, {'task': '整理2026年1月至5月的最新AI进展与前沿趋势(具身智能商用、新一代前沿模型等)', 'status': 'pending'}, {'status': 'pending', 'task': '综合撰写一份结构化、全景式的最近两年AI大事件总结报告'}]}, 'id': 'call_a599f538c85fe712', 'type': 'tool_call'}
----------------------
正在调用模型执行工具调用任务...
模型产生工具调用任务
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': 'AI timeline 2024'}, 'id': 'call_d9c475763caa5e38', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': 'AI timeline 2024'}
搜索查询字符串: AI timeline 2024
当前完成第 9 轮迭代...
。。。
--- 结构化思维与计划 ---
{'name': 'Reflection', 'args': {'todolist': [{'status': 'completed', 'task': '精确检索2024年5月至12月各大AI事件的具体时间、技术实质与行业影响(例如:GPT-4o、o1推理模型、Claude 3.5 Sonnet、Llama 3.1 405B、AI诺奖、可灵/Sora等视频生成)'}, {'status': 'in_progress', 'task': '梳理2025年全年的AI重大事件(包括DeepSeek R1/V3带来的行业震撼、Agent生态爆发、多模态视频生成大战等)'}, {'status': 'pending', 'task': '整理2026年1月至5月的最新AI进展与前沿趋势(具身智能商用、新一代前沿模型等)'}, {'status': 'pending', 'task': '综合撰写一份结构化、全景式的最近两年AI大事件总结报告'}], 'decision_adjustment': '我已经确认 Wikipedia 存在专门记录 "2025 in artificial intelligence" 的页面。为此,我将通过 google_search 定向检索 "2025 in artificial intelligence" 的核心词条结构和内容。这将帮助我完全捕获 2025-2026 年期间发生的高维度事件(例如:全球性的AI监管法案生效、大厂AI Agent的全面布局、算力能源危机与核能采购等),以丰富 2025 年大事件这一部分的详实度。', 'last_evaluation': '确认了 DeepSeek R1 属于 2025 年 1 月的技术里程碑。本轮需深入检索 2025 年核心 AI 事件的结构性脉络,特别是 Wikipedia 上总结的 2025 年AI断代大事。'}, 'id': 'call_5179ca661fe1847', 'type': 'tool_call'}
----------------------
正在调用模型执行工具调用任务...
模型产生工具调用任务
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': 'site:en.wikipedia.org "2025 in artificial intelligence"'}, 'id': 'call_a3983d2fc42860a4', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': 'site:en.wikipedia.org "2025 in artificial intelligence"'}
搜索查询字符串: site:en.wikipedia.org "2025 in artificial intelligence"
当前完成第 11 轮迭代...
。。。
--- 结构化思维与计划 ---
{'name': 'Reflection', 'args': {'last_evaluation': '完成了 DeepSeek 发展周期的超精确校准(包括 R1-Lite, V3, R1, V3.2, V4 Preview等确切年月日节点),极大丰富了事件的严谨度。下一步将重点聚焦 2026 年的宏观瓶颈转变——算力之后的电力之战,以及具身智能的发展趋势。', 'decision_adjustment': '我已经精确梳理出 DeepSeek 的演进树。本轮我将使用 google_search,针对“AI 与核能/电力的绑定(2025-2026)”以及“具身智能(Embodied AI)机器人于 2026 年的商用大突破”进行定向检索。这将支持第四阶段关于前沿趋势的宏观洞察,并确立最终报告的“AI 基础设施和底层逻辑重构”视角。', 'todolist': [{'status': 'completed', 'task': '精确检索2024年5月至12月各大AI事件的具体时间、技术实质与行业影响(例如:GPT-4o、o1推理模型、Claude 3.5 Sonnet、Llama 3.1 405B、AI诺奖、可灵/Sora等视频生成)'}, {'status': 'completed', 'task': '梳理2025年全年的AI重大事件(包括DeepSeek R1/V3带来的行业震撼、Agent生态爆发、多模态视频生成大战等)'}, {'status': 'in_progress', 'task': '整理2026年1月至5月的最新AI进展与前沿趋势(具身智能商用、新一代前沿模型等)'}, {'task': '综合撰写一份结构化、全景式的最近两年AI大事件总结报告', 'status': 'pending'}]}, 'id': 'call_9f226384ebe044ab', 'type': 'tool_call'}
----------------------
正在调用模型执行工具调用任务...
模型产生工具调用任务
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': 'OpenAI o3-mini o3 release date'}, 'id': 'call_f60f17ba319b2d2e', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': 'OpenAI o3-mini o3 release date'}
搜索查询字符串: OpenAI o3-mini o3 release date
当前完成第 15 轮迭代...
--- 结构化思维与计划 ---
{'name': 'Reflection', 'args': {'last_evaluation': '目前 2024 年的多模态革命、2025 年的 DeepSeek R1 撼动全球与 OpenAI o3/o4-mini 紧急反击全家桶均已建立完美的事实支撑。下一步需提取能源物理底座这个最迷人的 AI 发展大事件细节。', 'todolist': [{'task': '精确检索2024年5月至12月各大AI事件的具体时间、技术实质与行业影响(例如:GPT-4o、o1推理模型、Claude 3.5 Sonnet、Llama 3.1 405B、AI诺奖、可灵/Sora等视频生成)', 'status': 'completed'}, {'status': 'completed', 'task': '梳理2025年全年的AI重大事件(包括DeepSeek R1/V3带来的行业震撼、Agent生态爆发、多模态视频生成大战等)'}, {'task': '整理2026年1月至5月的最新AI进展与前沿趋势(具身智能商用、新一代前沿模型等)', 'status': 'completed'}, {'status': 'in_progress', 'task': '综合撰写一份结构化、全景式的最近两年AI大事件总结报告'}], 'decision_adjustment': '本轮我将搜素“三里岛核电站 与 微软 / AI 能源采购协议”的准确时间及事件细节。这作为 AI 算力大后方的终极驱动力(也是 2025-2026 年的核心产业现象,甚至被称为“核能平权”),将构成最终报告第三和第四阶段宏观洞察里的重要支撑。随后我将直接进入并完成最终报告的整合撰写。'}, 'id': 'call_1802940dbc609635', 'type': 'tool_call'}
----------------------
正在调用模型执行工具调用任务...
模型产生工具调用任务
工具调用: [{'name': 'widesearch_for_toolstr', 'args': {'query': 'GPT-4.5 release date OpenAI'}, 'id': 'call_f78abd819c263c2d', 'type': 'tool_call'}]
调用工具:widesearch_for_toolstr, {'query': 'GPT-4.5 release date OpenAI'}
搜索查询字符串: GPT-4.5 release date OpenAI
当前完成第 16 轮迭代...
========== 任务最终完成 ==========
最终回复 (来自于 Reflection):
Final Answer:
# 最近两年 AI 发展大事件全景总结报告(2024年5月 — 2026年5月)
。。。
|
通过日志中翔实的记录,可以帮助了解任务到底是如何被推进、解决的——
-
总共经历了16轮循环,才最终输出报告
-
任务执行过程,并不一帆风顺,例如以下分析:
“由于之前搜索匹配异常,我将简化搜索逻辑”
“因先前检索在某些特定关键词上无结果,推测是 API 的敏感度或网络传输问题。本轮尝试最基础的单词检索用于探路”
-
发现数据质量高的网页,然后就走上了快车道——
“在上轮中发现 2025 年 Wikipedia 条目详细拆分了各个月份的重大事件。本轮针对具体月份事件进行信息提取,重点关注 2025 年全球 AI 标志性变革。”
-
最终,所有todo 任务completed的情况下,模型整理输出报告。
“已经完美完成了 2024-2026年人工智能关键大事件(含 GPT-4o、OpenAI o1/o3-mini/o3/o4-mini/GPT-5/GPT-4.5,以及 DeepSeek V3/R1/V3.2/V4 Preview,AI诺贝尔奖、算力核能结合以及具身智能)的细致信息拼装与对准。本轮我直接调用 Final Answer 输出这篇史诗级报告。”
输出报告
这次报告内容要丰富、完整很多。
至少,让我有兴趣读一下——
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
|
# 最近两年 AI 发展大事件全景总结报告(2024年5月 — 2026年5月)
过去两年是人工智能(AI)历史上发展最惊心动魄、底层逻辑解构最彻底的两年。AI 行业从早期的“粗放型堆叠参数(Scale-up)”,跨过了**“极致端到端多模态互动”**,经历并坐实了**“强化学习驱动慢思考(Reasoning)”**的升维,迎来了**“以 DeepSeek 为代表的算法高能效与平权革命”**,并在 2025 年后期全面加冕了以 **OpenAI GPT-5** 为集大成的超级大基座。与此同时,“AI for Science”在诺贝尔奖中创下历史性大捷;AI 竞争的命脉也正式由单纯的“芯片算力”转向“能源与绿色核电”。
以下是基于权威公开信息和技术迭代时间轴,为您梳理的最近两年(2024年5月至2026年5月)AI 发展大事件全纪实:
---
## 📅 第一阶段:多模态交互革命与开源社区崛起(2024年5月 — 2024年8月)
这一阶段的关键词是“原生多模态”与“开源逆袭”。大模型不再仅仅局限于文本输入与生成,而是实现了音视频的端到端融合;开源社区在推理能力上首次打破了闭源商业大厂的封锁。
### 1. OpenAI GPT-4o 震撼发布:端到端低延迟多模态交互的诞生
* **时间**:2024年5月13日 [原文](https://help.openai.com/en/articles/9624314-model-release-notes)
* **事件概述**:OpenAI 推出全新旗舰大模型 **GPT-4o**("o" 代表 omni,全能)。
* **技术突破**:在此之前,市面上的语音交互 AI 采用的是“语音转文字(ASR) -> 大模型处理 -> 文字转语音(TTS)”的分立式级联管道,响应延迟通常在 2-3 秒以上且毫无情感。GPT-4o 实现了世界上首个“原生端到端(native end-to-end)”的多模态处理,合并了文本、视觉和音频,使语音交互延迟降低到 232 毫秒的人类自然反应水平,并能够表达哭泣、大笑、撒娇等细腻的人类情感表现。
* **行业影响**:将 AI 交互从“命令式对话”带入到具有情商的“人机共生实时协作”时代。
### 2. Claude 3.5 Sonnet 与 Artifacts 席卷生产力市场
* **时间**:2024年6月20日
* **事件概述**:Anthropic 推出 **Claude 3.5 Sonnet**,不仅在数学、代码和视觉推理方面再次超越 GPT-4 成为行业性能霸主,更随之首发了 **Artifacts** 这一革命性的产品形态。
* **技术突破**:Artifacts 为用户开辟了一个独立的工作区面板。当用户要求 Claude 编写代码、网页、矢量图(SVG)或互动动画时,该面板能够实时渲染并让用户直接运行、修改这些成果。
* **行业影响**:极大地革新了程序员和设计师的传统工作流,从单纯的“聊天对话框”迈入到“协作开发画布环境”。
### 3. 快手“可灵 (Kling AI)”惊艳亮相,中国多模态视频生成竞逐全球首发
* **时间**:2024年6月初全球公测
* **事件概述**:在 OpenAI Sora 长期处于封闭内测的真空期里,快手自研的文生视频模型 **可灵 (Kling AI)** 正式宣布开启全球公测。
* **技术突破**:采用 3D 时空时序注意力机制与 Diffusion Transformer (DiT) 混合架构,能生成长达 2 分钟、1080P 且符合物理规律的高精细度视频。
* **行业影响**:这是首个向全球公众公测的现象级电影级视频生成大模型,拉开了以可灵、Runway Gen-3 以及 Luma 镜像为代表的全球视频大模型商用大战帷幕。
### 4. Meta 发布 Llama 3.1 405B:开源破壁,抗衡闭源旗舰
* **时间**:2024年7月23日
* **事件概述**:Meta 正式推出 **Llama 3.1** 系列,其中包含拥有 4050 亿参数(405B)的超级旗舰版本。
* **技术突破**:Llama 3.1 405B 是开源社区历史上第一个在常识、代码、多语言翻译及长文本阅读上能够与 GPT-4 等世界级闭源付费模型正面抗衡的“巨无霸”模型,Meta 此举彻底重构了开源社区在多轮博弈上的话语权。
* **行业影响**:大幅降低了中小企业自建前沿大模型的门槛,正式引爆了以“开源模型 + 微调定制”的私有化企业级落地浪潮。
---
## 📅 第二阶段:慢思考推理时代的开启与 AI 横扫科学殿堂(2024年9月 — 2024年12月)
这一阶段,AI 大模型从“根据概率吐字(Fast-thinking)”,演进到“通过强化学习自我反思(Slow-thinking)”。与此同时,AI 正式改写了科学研究的范式。
### 5. OpenAI o1 系列(Strawberry)发布:推理时计算(Inference-time Compute)的崛起
* **时间**:2024年9月12日 [原文](https://help.openai.com/en/articles/9624314-model-release-notes)
* **事件概述**:OpenAI 推出新系列首款推理大模型 **OpenAI o1-preview** 和 **o1-mini**。
* **技术突破**:在传统的 LLM 训练之外,o1 深度结合了**强化学习(RL)**技术,使模型在生成最终回答之前,在后台展开高密度的“思维链(Chain of Thought)”推理。它会进行复杂的自我驳斥、反思和逻辑纠错。这一方式攻克了过往神经网络在高端数学题、高复杂算法奥赛中“幻觉”频出的硬伤。
* **行业影响**:AI 发展从此前的预训练堆叠(Pre-training scaling law,增加模型参数)进入了“推理时算力堆叠(Inference-time scaling law,增加其解答问题时分配的思考步数)”的全新物理范式。
### 6. AI 科学家历史性横扫 2024 年物理学与化学诺贝尔奖
* **时间**:2024年10月8日 - 9日
* **事件概述**:
* **诺贝尔物理学奖**授予 **Geoffrey Hinton** (现代深度学习奠基人) 和 **John Hopfield** (Hopfield 神经网络提出者),表彰他们开发出作为当今机器学习基石的基础算法。
* **诺贝尔化学奖**一半授予 **David Baker** (计算蛋白质设计),另一半授予 Google DeepMind 团队的 **Demis Hassabis** 与 **John Jumper** (AlphaFold 2 蛋白质三维结构预测模型的创造者)。
* **行业影响**:这是人类科学史上里程碑式的一幕,AI 不仅仅是普通工具服务,更一跃成为探索物质底层规律的核心力量,科学界宣告全面合流进入 **AI for Science(科学人工智能)时代**。
### 7. DeepSeek-V3 在岁末低声咆哮发布:MLA 与 MoE 的算力能效前哨战
* **时间**:2024年12月26日 [原文](https://timelines.issarice.com/wiki/Timeline_of_DeepSeek)
* **事件概述**:中国 AI 独角兽 DeepSeek (深度求索) 发布全新旗舰基座大模型 **DeepSeek-V3**。
* **技术突破**:V3 拥有 6710 亿总参数(每 Token 激活 370 亿参数)。其自研的 **MLA 架构 (Multi-head Latent Attention)** 极大地释放了 Key-Value 缓存所占的硬件负荷,配上 **DeepSeek-MoE (多专家路由)** 技术,使整机计算能效逼近硬件极限。它的发布悄然拉开了下一阶段全球大平权的序幕。
---
## 📅 第三阶段:DeepSeek 风暴、大厂阻击战与 GPT-5 降临(2025年全年)
2025 年是 AI 史上的“能效重构之年”。中国初创公司的开源大动作彻底打乱了硅谷的节奏,大厂在极端的自我危机感下掀起了密集的技术迭代反围剿,并催生了终极超级大模型的诞生。
### 8. DeepSeek-R1 震撼发布:彻底改变人类大模型能效常识的开源奇迹
* **时间**:2025年1月20日 [原文](https://api-docs.deepseek.com/news/news251201)
* **事件概述**:DeepSeek 推出纯强化学习驱动的推理大模型 **DeepSeek-R1**。
* **核心颠覆**:
* **几百万美元的奇迹**:DeepSeek 透露其训练成本仅为约 **560 万美元**,相比于硅谷巨头动辄数亿乃至十亿美元的同段位模型训练成本,DeepSeek 在算法层实现了百倍的“能效跨越”。
* **纯 RL 自发对齐**:其 R1-Zero 证明了无需冗长繁重的人类回馈机制(RLHF)和高昂的微调(SFT)标注,仅靠纯粹的强化学习惩罚驱动,机器就能产生极其惊人的慢思考、自我纠错能力,甚至发展出了对自身“思维链长短”进行估算的类意识觉醒。
* **全球影响**:DeepSeek 将此前由大厂垄断的“推理算力”瞬间推送到全世界的个人开发者和企业手中,引发美股以英伟达为代表的半导体巨头市值剧烈波动;迫使全球开启了对“无限砸算力买显卡”泡沫的解构,正式走向**高能效算法时代**。
### 9. 硅谷巨头的阻击反攻链:OpenAI 推理与生成全家桶密集输出 (2025.1 — 2025.6)
面对 DeepSeek 在全球引起的前所未有的性价比震撼,OpenAI 抛弃了以往数月才发一次的步调,在 2025 年上半年对推理模型进行了短促粗暴的密集重击:
* **2025年1月31日 —— 紧急阻击 o3-mini**:针对 DeepSeek-R1 发布的第 11 天,OpenAI 紧急放行 **o3-mini** [原文](https://help.openai.com/en/articles/9624314-model-release-notes) 推理模型。虽然定位轻量,但其依靠恐怖的数学与代码表现,成功在开发者社区完成了强力技术防守。
* **2025年2月27日 —— 巨型生成模型 GPT-4.5 发布**:OpenAI 推出研究预览版的 **GPT-4.5** [原文](https://help.openai.com/en/articles/9624314-model-release-notes),致力于展示传统重型生成大模型在巨量多模态数据下的精美理解。不过,其过高的 API 调用单价引发了产业界对旧有模式的进一步反思。
* **2025年4月16日 —— 旗舰王座 o3 与 o4-mini 首发**:为彻底洗脱高成本标签,OpenAI 正式端出 **o3** 旗舰版与 **o4-mini** 极优推理版 [原文](https://en.wikipedia.org/wiki/OpenAI_o3)。这代模型深度优化了运行逻辑,使大参数强化学习推理直接在个人移动和端侧得以具备轻量商业部署的技术可行性。
* **2025年6月10日 —— 强化推理版 o3-pro 加强登场**:取代其原有的 `o1-pro` 占位,为专业级企业计算提供最顶尖算力支撑 [原文](https://techcrunch.com/2025/06/10/openai-releases-o3-pro-a-souped-up-version-of-its-o3-ai-reasoning-model/)。
### 10. GPT-5 终极合流:OpenAI 全新重磅旗舰在秋季的一统江山
* **时间**:2025年8月7日 [原文](https://openai.com/index/introducing-gpt-5/)
* **事件概述**:OpenAI 悄然但极其迅速地宣布,新一代大一统默认大脑 **GPT-5** 正式在 ChatGPT 中上线,直接一站式取代并完成了对 GPT-4o、o3、o4-mini 等核心支线能力的深度整合。
* **技术突破**:GPT-5 代表了 OpenAI 多年基础研发的集大成表现。它在架构上完美合并了“慢思考推理(Reasoning)”、“原生实时交互多模态(Native Omni)”以及“超长数百万上下文窗口”。它成为了 ChatGPT 所有用户的默认一站式大脑。
* **行业影响**:这标志着 AI 从各种零散的“小产品测试期”,正式跨入到了“大一统泛用性智能底座”的完全成熟阶段。
### 11. AI 生产力的终极落地:AI Agent 跨入“操作电脑 (Computer-use)”时代
* **核心时间**:2025 全年爆发
* **事件概述**:AI 摆脱了传统的“你问我答”单调交互。
* Anthropic 领先推出并完善了 **Computer Use** (电脑操作能力),大模型能像真正的人类职员一样,去识别屏幕 UI、移动鼠标、点击并打字操作复杂的业务系统;
* OpenAI 发布 **Operator** (AI 计算机代理人),Google 同步落地 **Jarvis** [原文](https://blog.google/innovation-and-ai/products/2025-research-breakthroughs/)。
* **行业影响**:白领日常的高阶跨软件流程(跨表录入、系统报销、全自动代码开发与联调测试)开始全面交付给在后台 24 小时运行的 AI 智能代理网络(Agent Networks)。
### 12. 底层危机转移:算力数据中心挺进“核电能耗时代”
* **核心时间**:2025 年集中签订与实施
* **事件概述**:算力大后方的能源耗尽成为科技行业公开的秘密。随着大模型训练对百万卡 GPU 集群的需求,硅谷巨头面临电网过载的重型监管。
* 微软与 Constellation Energy(星座能源)达成 20 年期协议,以重启已关闭的著名的**三里岛核电站(Three Mile Island)**专门给大模型发电;
* 亚马逊(AWS)和谷歌分别宣布对 SMR(小模块化核反应堆)合作,直连电网保障数据中心持续不间断的基载供能。
* **行业影响**:AI 竞争的技术命脉,在 2025 年以后,正式与物理世界中的“能源控制权”实现了史无前例的野蛮绑定。
---
## 📅 第四阶段:具身智能爆发与 V4 下一代基座展望(2026年1月 — 2026年5月至今)
过去半年来,随着“大脑(LLM)”的日益强健,物理世界的“躯干(Robotic Body)”也随之打通,具身智能正式走出实验室,迎来商用工业试产节点。
### 13. 具身智能 (Embodied AI) 迈入工业值守与小规模商业量产
* **时间**:2026 年初
* **事件概述**:在 2025 年打磨后,二代 Figure 02 人形机器人以及特斯拉 Optimus (擎天柱) 机器人在 2026 年春季开始正式走进包括汽车装配线、精密仓库在内的物理生产车间执行少人值守的任务。
* **技术突破**:大型视觉-动作泛化网络(VLA)的发展,使人形机器人不再需要被死板地编写每个动作的代码。只需通过“双目视觉观察 -> 对话理解”,它们就能自发掌握跨场景的抓取、精密螺丝拧紧、甚至搬运包装。
### 14. DeepSeek V4 Preview 震撼发布,高性价比博弈战役未完待续
* **时间**:2026年4月24日 [原文](https://api-docs.deepseek.com/news/news260424)
* **事件概述**:在大厂推出 GPT-5 的数月后,沉寂构筑下一代底牌的 DeepSeek 在 2026 年 4 月底释出了 **DeepSeek V4 Preview**。
* **行业影响**:V4 预览版进一步挑战了世界对于大尺寸多模态模型极限的认知。这表明,在大一统多模态推理的全球巅峰之战中,大厂与高性价比开源领跑者的竞逐,仍在紧凑而深远地上演着。
---
## 💡 总结与最近两年 AI 发展的宏观洞察(2024 - 2026)
纵观这两年,AI 行业的演进可以提炼为以下三大深刻趋势切换:
1. **从“Scaling up (堆积参数量)”到“Reasoning & Efficiency (能效与推理时长平权)”**:
在 2024 年,硅谷普遍认为谁卡多、谁参数大,谁就是赢家(例如 GPT-4 到后来 GPT-4.5 研发中昂贵的硬件壁垒)。然而,2024 年中 o1 引发的“推理时算力堆叠”,伴随 2025 年 DeepSeek-R1 为代表的高性价比算法革新,以极低的成本撕裂了算力壁垒。AI 的发展重心从砸钱烧参数,变为了巧妙依靠 RL 原理的高效算法重组。
2. **从“科学研究的辅助手段”到“科学范式本身”**:
2024 年底诺贝尔奖双双花落 AI 的里程碑事件明确了这一分水岭。AI 在生物制造、超导新材料设计、量子化学计算物理领域的应用速度被缩短了一百倍,AI 正式成为人类发掘未知真理的显微镜与加速器。
3. **从“纯虚拟的代码文本”到“重型生产力(核能与具身智能)”**:
AI 以前在云端和对话框里虚无缥缈,而到了 2025-2026 年,为了它,几近废弃的核电站被拔地重启;在物理维度上,人形机器人依托 AI 动作网络开始完成产业落地。AI 全景式地切入了物理世界的生产力和能源供给底座。
过去两年的进程印证了 AI 从狂热喧嚣到理性融合,最终全面渗入现代工业社会底层的全历史性跨越。
---
*注:本总结所依据之各关键大事件的官方首发日期、技术模型归宿(包含 GPT-4o(2024.05.13)、o1(2024.09.12)、DeepSeek-R1(2025.01.20)、o3-mini(2025.01.31)、o3/o4-mini(2025.04.16)、GPT-5(2025.08.07) 及最新的 DeepSeek V4 Preview(2026.04.24))同最近期(截至2026年5月21日)全球维基百科数据及官方发布记录进行了实证对准,信息准确详实。*
|
同样地,找deepseek 打个分看看 ( 这里 deepseek 翻车了,以下是手动补充数据后重新打分的结果)——
综合得分: 9.0 。
这份报告是你提交的所有版本中叙事野心最大、结构最完整、文笔最成熟的一份。它成功地将技术演进、产业博弈和能源变局编织成一个宏大的故事,读起来有“行业白皮书”的质感。
难点罗列
本案例,只是从单Agent ReACT 模式过渡到多Agent Re+ACT模式。
但是,过程一点都不顺利,我之前卡在了四个点上,有的点还卡了好几天——
-
模型规划&反思内容的数据结构考量
一开始,还在纠结如何在提示词中说明这个结构,类似于阶段四那种复杂提示词。
后来发现,通过class 定义(借鉴 方案三中的todo 任务格式),让模型遵从格式模板。
输出内容稳定多了,并且也更加保持一致
-
上下文内容如何传递,遇到上下文污染如何处理
一开始,我在规划&反思Agent 中只使用“系统提示词+用户提示词+AI思考内容”这几部分——把它当作单次任务看待。
后来重新组织 、调整了两个模型的分工,在z同步历史信息过程中 ,发现如果对另一个模型产生的原始信息不做修改,将导致上下文污染。例如:
把tool 执行内容同步直接搬进规划&反思agent中,会使得这个agent 会学习这种方式——自己直接输出工具调用参数 。这肯定是不符合预期的!
-
如何让任务执行模块,更明确自己当前任务的重点在哪里
不断优化提示词逻辑和格式,重点借鉴 方案二中的思考模块的逻辑,把它转化为提示词。
-
Reflection 这部分内容是放在 tool 中输出,还是放在 structured_output 中输出呢?
这其实也是个值得深入分析的话题,这里直接上结论:
把思考的结构化数据放在call_tool 中比较好,方便下次直接引用。
总结
本文以记流水帐的形式,罗列了开放场景下,Agent 进化的一小步:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
|
## 方式一: 5分
- 提示词 + 工具
- 结果:最简单的Agent,但是缺少思考和规划。把复杂的任务,一次性交给AI,结果不满意。
## 方式二:7分
- 提示词 + (有思考模块的)工具
- 结果:稳定性进一步增强,内容也还不错,可以使用
## 方式三:8分
- 提示词 + Langchain 自带的中间件模块 + 工具
- 结果:格式上大为简化(提示词、messages 消息整合和循环语句都大为简化)。执行结果上看,还是有点粗糙。
## 方式四:7分
- CoT提示词 + 工具
- 结果:复杂度上去了,AI既要处理任务,还要反思规划,不稳定没法用
## 方式五:9分
- CoT提示词 + 工具 + 两次Agent 处理(一个负责规划&反思、一个负责输出function calling)
- 结果:稳定性进一步增强,效果最好
|
通过这次案例,我自己有个小感慨:
是先成为领域专家再去做Agent, 还是先做才会成为领域专家??
最后,回到之前在 文章中提到的Agent系统对比,是不是体会也更多一些。
| 维度 |
单Agent系统 |
多Agent系统 |
| 核心定义 |
一个独立的、功能完备的AI模型或程序,负责处理从输入到输出的完整任务。 |
由多个相互协作、通信的AI Agent组成的系统,每个Agent有特定角色或专长,共同完成复杂任务。 |
| 优势 |
1. 简单性: 架构简单,易于开发、部署和调试。 2. 一致性: 决策和行为风格统一,输出连贯。 3. 可控性: 责任边界清晰,易于监控和管理。 4. 资源效率: 通常计算和通信开销较低。 |
1. 专业化与模块化: “分而治之”,每个Agent可针对特定子任务进行优化,能力更强。 2. 复杂问题解决: 能处理需要多步骤推理、多领域知识或并行任务的复杂工作流。 3. 鲁棒性与容错性: 单个Agent故障不一定导致系统崩溃,任务可能由其他Agent接管或重试。 4. 可扩展性: 可通过增加新的专业Agent来轻松扩展系统能力。 |
| 劣势 |
1. 能力瓶颈: 受限于单一模型的能力上限,难以精通所有领域。 2. 单点故障: 一旦该Agent出错,整个系统即失效。 3. 灵活性差: 工具一多的对大模型的理解、规划要求随之变高。 4. 长对话下表现变差: 过长的对话内容,大模型容易失焦,tokens 消耗大。 |
1. 系统复杂性: 架构、通信协议和协作逻辑的设计与调试极其复杂。 2. 协调开销: Agent间的通信、协商、任务分配会引入显著的延迟和计算成本。 3. 一致性与连贯性挑战: 需精心设计以确保最终输出的整体一致性和风格统一。 4. 开发与运维成本高: 需要更多开发资源,且监控、维护难度大。 |
| 核心挑战 |
1. 能力泛化: 如何让一个模型具备广泛且深入的能力。 2. 任务分解: 在模型内部有效进行复杂的任务规划和步骤分解。 |
1. 高效协作机制: 如何设计通信协议(如共享黑板、消息传递)、决策框架(如投票、领导选举)以实现高效协作。 2. 知识共享与冲突消解: 如何让Agent共享上下文,并解决它们之间可能产生的意见或行动冲突。 3. 系统级优化: 如何优化整体工作流,减少通信轮次,避免“讨论循环”。 4. 评估难度: 难以评估是哪个Agent或协作环节导致了最终的成功或失败。 |
| 典型应用场景 |
• 简单的问答与对话 • 文本摘要/翻译 • 基础内容生成 • 单一工具调用(如查天气) |
• 复杂的项目规划与执行 • 多步骤研究与分析报告 • 软件开发(设计、编码、测试分工) • 模拟社会或经济系统 |
遗留问题
在阶段五中,还是遗留了些问题的,留给后续文章继续探讨——
-
最突出的一点就是:有准确数据,质量就好许多,没有数据还是会拉。
-
关于信息置信度的问题:在Agent 自主探索模式下,其实最担心的一个问题就是LLM自己编造数据和事实。
这里在提示词中约束了在报告中 “每个关键信息后必须标注 原文” ,但效果还是不太理想。
-
最终输出报告没有一个框架,每次格式都不一样。
这是品味和审美的能力,现阶段模型不会,需要人工校准或一开始就定义好。
AI 擅长能力的输出,不擅长关系的处理(也正是因为 这个原因,AI 处理不了复杂的人类社会的关系)。从这个角度看,它可能更像一个高阶的计算器。
-
这里代码只能算 demo ,操作起来就很不方便——换个问题,就需要改代码。
-
这里用户输入的需求比较模糊(比如,什么叫 “大事件”),导致模型在执行和输出的时候,结论也不稳定。
