随笔 ×

2025年3月26日

行动与身份：AI代理的未来形态

4.7K words

23'38" read

0 views

我们期待看到的是这样一个世界：人类因AI的助力而更加自由，更有创造力，也更能从容地享受生命中的每一刻。

2025年被不少人称作“AI Agent元年”。中国AI创业公司接连推出了两款引人瞩目的前沿产品：一款是号称全球首个通用AI Agent的 Manus，另一款则是开源的AI身份模型 Second Me。

前者被视为人工智能从“思考者”进化为“行动者”的里程碑，能够自主规划并执行任务；后者则致力于打造每个人专属的数字分身，让AI真正对齐个人，实现“AI版的你自己”。

两者代表了AI应用的两个方向：Manus主攻自动化执行，Second Me聚焦个性化身份。

💡

自主智能体：AI具备自主决策、规划和执行能力，能够独立完成复杂任务。
个性化智能体：AI能够深度理解用户个性化需求，提供高度定制化的服务。

Manus：从思考到行动的通用 AI Agent

Manus 是一款具有完全自主执行能力的通用人工智能代理，被誉为AI领域从“语言理解”跨越到“自主行动”的突破。其团队宣称其为全球首款实现全流程自动化执行的AI智能体。

Manus名字源自拉丁文，意为“手”——寓意AI不再只是“大脑”出谋划策，更能像“灵巧的双手”一样亲自把想法付诸实践。这正是Manus相较传统聊天机器人（Chatbot）的本质跃升：不仅提供答案，更直接交付成果。

核心概念与功能定位：Manus致力于充当人类意图与可执行结果之间的桥梁，它不仅会“想”更会“做”。不同于仅给出建议的对话式AI助手，Manus可以在理解用户任务的基础上自动规划步骤并逐一完成。

概括来说，Manus具备以下突出能力：

独立思考与执行： 接收到复杂请求时，Manus会自主决策如何完成，而非只给出中间回复。例如用户让它“编写一份市场分析报告”，Manus可以直接产出完整报告成品。
任务拆解与多步骤操作： Manus采用了多Agent架构，会将复杂任务拆分成一系列子任务，由不同子代理协同完成。它通过“行动链”技术将语言指令转化为具体操作序列。比如在人力资源场景，给它一批简历，Manus会依次解压文件、提取信息、智能筛选和排序，最终输出候选人名单。
工具调用与跨领域能力： Manus内置强大的工具链，能调用浏览器执行网页浏览、使用Python代码做数据分析、操作文件系统等。在股票分析场景，它能获取实时市场数据，运行代码生成图表，用可视化方式呈现结果。这种多模态、多工具协同使Manus可以胜任金融、教育、商务等各领域任务。
用户偏好记忆与自我优化： Manus拥有数字大脑，可以学习用户反馈和历史偏好，不断优化策略。它会记住用户以往的选择，在后续类似任务中自动调整输出格式和风格。这一点提升了人机交互体验的个性化程度。

原理

Manus之所以能够“化言为行”，背后有几项关键技术创新支撑。

首先是引入了LAM（大行为模型）的架构理念，通过强化学习训练AI如何在环境中采取行动。简单说，LAM让LLM（大语言模型）不仅能输出文本，还学会了输出可执行的操作指令。

其次，Manus采用规划-执行-验证的闭环任务流程，动态调整每一步骤，确保最终结果精准可靠。并且多代理并行架构和云端异步执行模式让Manus可将任务拆分后并发处理，用户甚至可以在离线状态下让Manus后台工作，完成后再通知用户。这种设计大大提高了效率和用户的时间利用率。

实测

Manus横空出世即引发业内震动，被媒体称为AI Agent领域的“GPT 时刻”。在GAIA通用智能体基准测试中，Manus取得了新的SOTA成绩，在所有难度级别上全面领先同类模型，包括超过OpenAI的产品表现。

在发布当晚，大批技术爱好者涌入其官网和社区，争相索取内测邀请码，“一夜之间火爆全网”。据报道，甚至有黄牛将Manus邀请码炒到数万元。可见用户对这种自动帮忙干活的AI代理充满期待。

有体验者分享，用一句话让Manus完成简历筛选、写文章、做PPT甚至敲代码都不在话下，“效率高到令人怀疑人生”。

但其实我自己测试了一下，让它帮我写一个信息聚合的网站，帮我去收集每天的一些科技资讯，为我的选题提供一些素材。但是最终的效果是这个网页可以正常运行。

其实并不像外界传言的说一定能百分百帮你完成什么事情。它对于某一些任务可能确实能够做得特别好，但是稳定性可能是由于目前还在内测阶段，服务器不是很稳定，或者是还不是很成熟，所以也没有达到特别理想中的期望。

Manus目前采取邀请制限制了普及范围，社区也迅速出现了开源复刻项目如OpenManus，仅用3小时就模仿了Manus的核心功能。这从侧面说明了其架构思路的先进和受关注程度。

Second Me：

如果说Manus解决的是“如何让AI替我们把事情做完”，那么 Second Me 要回答的是“如何让AI变成我的另一个自己”。

Second Me 是由 Mindverse 提出的AI本地化记忆管理系统，利用大语言模型（LLM）实现用户个人信息的存储、组织、检索和动态使用。Second Me不仅仅是静态存储信息，而是能够理解上下文、动态适应用户需求，自动化地提供个性化的知识支持，显著降低用户的认知负担。

它的核心理念是让每个人都能训练一个与自己高度吻合的AI分身，“不对齐全人类，只对齐你一人”。换句话说，Second Me想打造的是“AI版的你自己”——赋予AI你的记忆、偏好、价值观，使其成为你的延伸。

原理

上图为 Second Me 的混合架构图，L0 层是原始数据层，它收集了所有原始数据，包括文档、音频以及图片等各类格式的信息。相当于系统的一个感官输入，然后在这里会对原始数据进行清洗和预处理，通过数据挖掘的技术去提取提示和关联信息，比如说你关心的人，然后一些概念和兴趣等等。

L1 是自然语言层，这里会将关键信息转化为自然语言形式的摘要，包括用户见解、重要句子/短语和偏好标签。L2 是 AI 原生记忆层，也是系统最核心的部分，通过模型参数存储和组织用户特定知识，实现对用户的神经网络表征。

这里面可以看到有一个inner loop，也就是它的内循环机制。它是将L2、L0和L1连接，然后Context模块从L0和L1检索相关的信息，处理这些信息后传递给L2。L2又可以通过内循环继续从L0和L1获得补充信息。

L2 的角色是一个协调者的角色，就是他可以从外部专家模型那里获取复杂的用户需求，转变成一个智能协调者。他会根据自己掌握的信息来管理用户的上下文，可以去调取外部的一些工具来丰富他的上下文。就是工具在图片中的右半部分，有一个外循环系统，使得LLM可以和互联网的资源在SecondMe的指导下都去确保响应精确，然后也可以在用户的个人机系统和外部支持员之间建立一个桥梁。

运行流程：

用户通过设备（手机或电脑）提出查询。
查询进入Second ME系统，Context模块从L0和L1层检索相关信息。
L2层处理上下文信息，决定是否调用外部资源。
若任务复杂，L2层调用外部Agent Model、Reasoning Model或Human Experts。
外部资源处理任务后返回结果给Second ME。
Second ME将结果个性化处理后，返回给用户设备。

Figure2 这张图展示的是如何从任务的原始数据出发，去自动化地训练出个性化的 Second ME 模型。

用户原始数据（User Raw Data）：用户上传的原始数据（文档、图片、音频等）。
数据清洗与预处理（Data cleaning & preprocessing）：对原始数据进行清洗和预处理，得到干净的数据（Cleaned Data）。
数据挖掘（Data Mining）：从干净数据中挖掘出实体（Entities）、主题（Topics）和全局个人简介（Global Biography）等半结构化数据（Semi-Structured Data）。
数据合成（Synthetic Data）：使用大语言模型（如GPT模型、Deepseek模型）基于半结构化数据生成合成数据。合成数据包括：记忆相关问答（Memory Related QA）、上下文相关问答（Context Related QA）。
数据过滤（Data Filtering）：使用LLM作为评判者（LLM as a Judge），对合成数据进行质量过滤，得到高质量的过滤数据（Filtered Data）。
监督微调模型（SFT Model）：使用参数高效微调（PEFT）技术，基于过滤数据训练监督微调模型。
偏好数据生成（Paired Preference Data）：从SFT模型中抽样生成偏好数据对（Sampling & Comparing），用于后续的偏好优化。
直接偏好优化模型（DPO Model）：使用偏好数据对进行直接偏好优化（DPO），进一步提升模型的个性化表现。
模型评估（Evaluating）：使用LLM作为评判者对DPO模型进行评估，确保模型达到预期的质量标准。
服务部署（Service）：最终将训练好的个性化模型部署到服务中，供用户使用。

Second Me 在中间使用了一个叫做DPO（直接偏好优化）模型，用于精细化调整语言模型的技术，其核心思想是“你的语言模型本身其实就是一个隐含的奖励模型（reward model）”。

通俗一点来讲，假设你是一个老师，想培养一个能帮你改作文的 AI 助手，传统方法大概是：

步骤1：你教这个AI一些基础知识（监督学习，SFT），比如语法、结构、写作标准等。

步骤2：你还要训练一个单独的“评分AI”（奖励模型，Reward Model），专门负责给AI助手改作文的效果打分。

步骤3：再用强化学习（RL）让AI助手不断尝试改作文，每次改好作文后，都要用“评分AI”来打分，根据这些分数不断调整AI助手的能力。

简单来说，传统方式需要两个：一个做事的 AI（帮你改作文），一个评分的 AI（判断改作文效果好不好）。这样做有明显的缺陷是需要单独训练一个评分 AI，很费时费力，评分 AI 可能也会出错，导致训练效果受限。

DPO的创新之处在于：不额外训练评分AI了，直接用做事AI本身来当评分AI。也就是说，AI本身就具备一定的理解能力和判断能力，可以自己判断哪些作文修改更受用户喜欢。

比如说你做了一道菜，还要再专门请一个美食家评价菜好不好吃，然后再根据他的评价去改进。DPO方法就是，你自己学会了品尝和判断菜的好坏，做完菜后可以自己品尝一下，根据自己的标准来改进味道。这样一来，就不再需要额外的美食家了，你自己就能快速判断和改进菜品。

意义

每个人在日常生活中总是会重复提供相同的信息，比如登录网站填写个人信息等场景，Second Me 能够自动记住这些信息，给他配备各种工具比如和 Manus 结合一下，可以大幅减少不必要的重复劳动，让用户把精力集中在真正重要的事情上。

对于一些重要的事情，他也能提供更加智能、个性化的决策支持，因为 Second Me 能够系统学习并且理解你的兴趣、需求、偏好以及历史决策。在你在职业发展方面犹豫不决的时候，它能根据你的历史经验和个性偏好，提供更加个性化的建议。

Second ME不仅仅是一个知识助手，更是一个能帮助你管理情绪和认知状态的伙伴。它可以基于你过去的情绪和认知模式，主动提供理性建议或情绪支持。当你因工作压力过大感到焦虑时，它可以回忆你过去的经历，提醒你曾经如何成功应对类似情况，并鼓励你有效应对当前挑战。

在 Figure 1 中我们看到，Second Me 可以连接外部专家、其他 AI ，甚至未来当越来越多的人都有了“Second Me”，他们还能进行搞笑互动，这让你在数字生态系统更加有效地沟通、协作、共享知识等。

Second ME 提出了AI-native的记忆管理方式（L2层）。利用大语言模型（LLM）参数化用户记忆，实现了动态的记忆组织、上下文推理与智能检索。记忆不再是静态数据，而是能够动态学习和适应用户需求的“智能记忆”。

Second Me所代表的是一种以个人为中心的AI范式：让AI拥有人格化属性，为单一具体的人服务，而非面向所有人的通用机器人。它试图守护个体意志在AI时代的不被淹没，让每个人的独特性都能通过一个AI接口得以延续和放大。

未来个人智能体方向展望

Manus是万能高效的执行代理，Second Me是忠诚懂你的个性分身。我认为人机交互范式将因为AI Agent 和个人身份模型的崛起而发生深刻变化。

可以预见，一个“AI代理无处不在、人人都有数字分身”的时代正在到来。

我始终认为AI助理未来肯定会成为标配，但是人类始终是导演。也许每天每个人都会和自己的AI助手互动，像每个人都离不开手机一样。但同样的，AI和手机都是工具和协助者，而不是决策者或者主宰者。

Mindverse提出了去中心化个人AI的愿景，正是希望每个人都拥有自己可掌控的AI，去打造一个"我的AI我做主"的生态。在未来，每个人的AI助手是私人定制的，掌握在本人手里，它只对你负责，不会去服务广告商或者第三方利益。就有点像你的私人律师或医生，只为你的利益行动。这样的话，每个人就多了一个忠实的代理，可以更无顾虑地授权他去处理事务。

未来人与AI助手共事将如影随形，这要求人们掌握新的协作方式。从教育开始，就应该培养下一代如何有效地指导AI、检查AI结果，以及与AI共同创造。

就像今天的办公要求懂电脑软件一样，明天可能要求懂Prompt编写、Agent流程设计等。善用AI者将如虎添翼，而不懂AI者可能难以适应职场。这不是要人人成为程序员，而是要学会与智能体打交道的艺术。

但是我认为，真正的AI助手是不需要我们去懂得如何编写prompt的，因为真正的AI助手就像真正的人一样，我们跟他说什么，他会在脑子里自动编排你的需求，去提取你的需求，或者去跟你互动，帮你完善你的需求。

并且这个过程也是无感的，不像我们如今的手机助手，比如说Siri，我还得喊一下"Hey Siri"他才能回应我。未来的话，可能就是先把你的声纹特征录入手机，然后你只要用你去叫他。比如说"Jarvis，帮我查看一下我今天的行程，然后帮我去订一下车票"，或者说"Jarvis，帮我填写一下刚刚发过来的表格"。因为我们日常生活中会有很多那种无意义的重复的工作，就像我们刚刚提的填那种信息表格，这种往往无意义重复的工作就是可以让我们的个人小助手来做。

AI助手会像你身边贴心的管家、秘书或朋友，默默记住你的需求、喜好、习惯，自动帮助你处理那些繁琐但必要的事务。我们不再需要用特别的指令去唤醒它，也无需懂得任何技术细节——你需要做的仅仅是自然地表达你的需求，而它自然而然地为你提供帮助。

Second Me并不是真正的Second Me，因为它缺少了 Manus 的行动。Manus 也不能真正成为一个个人助手，它是一个通用的Agent。但是如果它加上Second Me，它就可以变成你的个人Agent。

最终，我们期待看到的是这样一个世界：人类因AI的助力而更加自由，更有创造力，也更能从容地享受生命中的每一刻。不过，值得思考的是，在AI变得高度个性化和深刻理解我们内心世界的时候，我们又该怎么去定义人和AI的一个界限呢？

All Articles

2025年3月21日

停止无意义的努力：精力管理与知识应用才是王道

2025年3月28日

认知陷阱与AI助手：《金钱心理学》如何重塑我的理财思维

金钱的问题表面上是数字，实际却是心理：贪婪与恐惧、满足与焦虑、短视与长远，都在左右我们的财务决策。