2025年被不少人称作“AI Agent元年”。中国AI创业公司接连推出了两款引人瞩目的前沿产品:一款是号称全球首个通用AI Agent的 Manus,另一款则是开源的AI身份模型 Second Me。
前者被视为人工智能从“思考者”进化为“行动者”的里程碑,能够自主规划并执行任务;后者则致力于打造每个人专属的数字分身,让AI真正对齐个人,实现“AI版的你自己”。
两者代表了AI应用的两个方向:Manus主攻自动化执行,Second Me聚焦个性化身份。
自主智能体:AI具备自主决策、规划和执行能力,能够独立完成复杂任务。
个性化智能体:AI能够深度理解用户个性化需求,提供高度定制化的服务。
Manus 是一款具有完全自主执行能力的通用人工智能代理,被誉为AI领域从“语言理解”跨越到“自主行动”的突破。其团队宣称其为全球首款实现全流程自动化执行的AI智能体。
Manus名字源自拉丁文,意为“手”——寓意AI不再只是“大脑”出谋划策,更能像“灵巧的双手”一样亲自把想法付诸实践。这正是Manus相较传统聊天机器人(Chatbot)的本质跃升:不仅提供答案,更直接交付成果。
核心概念与功能定位:Manus致力于充当人类意图与可执行结果之间的桥梁,它不仅会“想”更会“做”。不同于仅给出建议的对话式AI助手,Manus可以在理解用户任务的基础上自动规划步骤并逐一完成。
概括来说,Manus具备以下突出能力:
独立思考与执行: 接收到复杂请求时,Manus会自主决策如何完成,而非只给出中间回复。例如用户让它“编写一份市场分析报告”,Manus可以直接产出完整报告成品。
任务拆解与多步骤操作: Manus采用了多Agent架构,会将复杂任务拆分成一系列子任务,由不同子代理协同完成。它通过“行动链”技术将语言指令转化为具体操作序列。比如在人力资源场景,给它一批简历,Manus会依次解压文件、提取信息、智能筛选和排序,最终输出候选人名单。
工具调用与跨领域能力: Manus内置强大的工具链,能调用浏览器执行网页浏览、使用Python代码做数据分析、操作文件系统等。在股票分析场景,它能获取实时市场数据,运行代码生成图表,用可视化方式呈现结果。这种多模态、多工具协同使Manus可以胜任金融、教育、商务等各领域任务。
用户偏好记忆与自我优化: Manus拥有数字大脑,可以学习用户反馈和历史偏好,不断优化策略。它会记住用户以往的选择,在后续类似任务中自动调整输出格式和风格。这一点提升了人机交互体验的个性化程度。
Manus之所以能够“化言为行”,背后有几项关键技术创新支撑。
首先是引入了LAM(大行为模型)的架构理念,通过强化学习训练AI如何在环境中采取行动。简单说,LAM让LLM(大语言模型)不仅能输出文本,还学会了输出可执行的操作指令。
其次,Manus采用规划-执行-验证的闭环任务流程,动态调整每一步骤,确保最终结果精准可靠。并且多代理并行架构和云端异步执行模式让Manus可将任务拆分后并发处理,用户甚至可以在离线状态下让Manus后台工作,完成后再通知用户。这种设计大大提高了效率和用户的时间利用率。
Manus横空出世即引发业内震动,被媒体称为AI Agent领域的“GPT 时刻”。在GAIA通用智能体基准测试中,Manus取得了新的SOTA成绩,在所有难度级别上全面领先同类模型,包括超过OpenAI的产品表现。
在发布当晚,大批技术爱好者涌入其官网和社区,争相索取内测邀请码,“一夜之间火爆全网”。据报道,甚至有黄牛将Manus邀请码炒到数万元。可见用户对这种自动帮忙干活的AI代理充满期待。
有体验者分享,用一句话让Manus完成简历筛选、写文章、做PPT甚至敲代码都不在话下,“效率高到令人怀疑人生”。
但其实我自己测试了一下,让它帮我写一个信息聚合的网站,帮我去收集每天的一些科技资讯,为我的选题提供一些素材。但是最终的效果是这个网页可以正常运行。
其实并不像外界传言的说一定能百分百帮你完成什么事情。它对于某一些任务可能确实能够做得特别好,但是稳定性可能是由于目前还在内测阶段,服务器不是很稳定,或者是还不是很成熟,所以也没有达到特别理想中的期望。
Manus目前采取邀请制限制了普及范围,社区也迅速出现了开源复刻项目如OpenManus,仅用3小时就模仿了Manus的核心功能。这从侧面说明了其架构思路的先进和受关注程度。
如果说Manus解决的是“如何让AI替我们把事情做完”,那么 Second Me 要回答的是“如何让AI变成我的另一个自己”。
Second Me 是由 Mindverse 提出的AI本地化记忆管理系统,利用大语言模型(LLM)实现用户个人信息的存储、组织、检索和动态使用。Second Me不仅仅是静态存储信息,而是能够理解上下文、动态适应用户需求,自动化地提供个性化的知识支持,显著降低用户的认知负担。
它的核心理念是让每个人都能训练一个与自己高度吻合的AI分身,“不对齐全人类,只对齐你一人”。换句话说,Second Me想打造的是“AI版的你自己”——赋予AI你的记忆、偏好、价值观,使其成为你的延伸。
上图为 Second Me 的混合架构图,L0 层是原始数据层,它收集了所有原始数据,包括文档、音频以及图片等各类格式的信息。相当于系统的一个感官输入,然后在这里会对原始数据进行清洗和预处理,通过数据挖掘的技术去提取提示和关联信息,比如说你关心的人,然后一些概念和兴趣等等。
L1 是自然语言层,这里会将关键信息转化为自然语言形式的摘要,包括用户见解、重要句子/短语和偏好标签。L2 是 AI 原生记忆层,也是系统最核心的部分,通过模型参数存储和组织用户特定知识,实现对用户的神经网络表征。
这里面可以看到有一个inner loop,也就是它的内循环机制。它是将L2、L0和L1连接,然后Context模块从L0和L1检索相关的信息,处理这些信息后传递给L2。L2又可以通过内循环继续从L0和L1获得补充信息。
L2 的角色是一个协调者的角色,就是他可以从外部专家模型那里获取复杂的用户需求,转变成一个智能协调者。他会根据自己掌握的信息来管理用户的上下文,可以去调取外部的一些工具来丰富他的上下文。就是工具在图片中的右半部分,有一个外循环系统,使得LLM可以和互联网的资源在SecondMe的指导下都去确保响应精确,然后也可以在用户的个人机系统和外部支持员之间建立一个桥梁。
运行流程:
用户通过设备(手机或电脑)提出查询。
查询进入Second ME系统,Context模块从L0和L1层检索相关信息。
L2层处理上下文信息,决定是否调用外部资源。
若任务复杂,L2层调用外部Agent Model、Reasoning Model或Human Experts。
外部资源处理任务后返回结果给Second ME。
Second ME将结果个性化处理后,返回给用户设备。
Figure2 这张图展示的是如何从任务的原始数据出发,去自动化地训练出个性化的 Second ME 模型。
用户原始数据(User Raw Data):用户上传的原始数据(文档、图片、音频等)。
数据清洗与预处理(Data cleaning & preprocessing):对原始数据进行清洗和预处理,得到干净的数据(Cleaned Data)。
数据挖掘(Data Mining):从干净数据中挖掘出实体(Entities)、主题(Topics)和全局个人简介(Global Biography)等半结构化数据(Semi-Structured Data)。
数据合成(Synthetic Data):使用大语言模型(如GPT模型、Deepseek模型)基于半结构化数据生成合成数据。合成数据包括:记忆相关问答(Memory Related QA)、上下文相关问答(Context Related QA)。
数据过滤(Data Filtering):使用LLM作为评判者(LLM as a Judge),对合成数据进行质量过滤,得到高质量的过滤数据(Filtered Data)。
监督微调模型(SFT Model):使用参数高效微调(PEFT)技术,基于过滤数据训练监督微调模型。
偏好数据生成(Paired Preference Data):从SFT模型中抽样生成偏好数据对(Sampling & Comparing),用于后续的偏好优化。
直接偏好优化模型(DPO Model):使用偏好数据对进行直接偏好优化(DPO),进一步提升模型的个性化表现。
模型评估(Evaluating):使用LLM作为评判者对DPO模型进行评估,确保模型达到预期的质量标准。
服务部署(Service):最终将训练好的个性化模型部署到服务中,供用户使用。
Second Me 在中间使用了一个叫做DPO(直接偏好优化)模型,用于精细化调整语言模型的技术,其核心思想是“你的语言模型本身其实就是一个隐含的奖励模型(reward model)”。
通俗一点来讲,假设你是一个老师,想培养一个能帮你改作文的 AI 助手,传统方法大概是:
步骤1:你教这个AI一些基础知识(监督学习,SFT),比如语法、结构、写作标准等。
步骤2:你还要训练一个单独的“评分AI”(奖励模型,Reward Model),专门负责给AI助手改作文的效果打分。
步骤3:再用强化学习(RL)让AI助手不断尝试改作文,每次改好作文后,都要用“评分AI”来打分,根据这些分数不断调整AI助手的能力。
简单来说,传统方式需要两个:一个做事的 AI(帮你改作文),一个评分的 AI(判断改作文效果好不好)。这样做有明显的缺陷是需要单独训练一个评分 AI,很费时费力,评分 AI 可能也会出错,导致训练效果受限。
DPO的创新之处在于:不额外训练评分AI了,直接用做事AI本身来当评分AI。也就是说,AI本身就具备一定的理解能力和判断能力,可以自己判断哪些作文修改更受用户喜欢。
比如说你做了一道菜,还要再专门请一个美食家评价菜好不好吃,然后再根据他的评价去改进。DPO方法就是,你自己学会了品尝和判断菜的好坏,做完菜后可以自己品尝一下,根据自己的标准来改进味道。这样一来,就不再需要额外的美食家了,你自己就能快速判断和改进菜品。
每个人在日常生活中总是会重复提供相同的信息,比如登录网站填写个人信息等场景,Second Me 能够自动记住这些信息,给他配备各种工具比如和 Manus 结合一下,可以大幅减少不必要的重复劳动,让用户把精力集中在真正重要的事情上。
对于一些重要的事情,他也能提供更加智能、个性化的决策支持,因为 Second Me 能够系统学习并且理解你的兴趣、需求、偏好以及历史决策。在你在职业发展方面犹豫不决的时候,它能根据你的历史经验和个性偏好,提供更加个性化的建议。
Second ME不仅仅是一个知识助手,更是一个能帮助你管理情绪和认知状态的伙伴。它可以基于你过去的情绪和认知模式,主动提供理性建议或情绪支持。当你因工作压力过大感到焦虑时,它可以回忆你过去的经历,提醒你曾经如何成功应对类似情况,并鼓励你有效应对当前挑战。
在 Figure 1 中我们看到,Second Me 可以连接外部专家、其他 AI ,甚至未来当越来越多的人都有了“Second Me”,他们还能进行搞笑互动,这让你在数字生态系统更加有效地沟通、协作、共享知识等。
Second ME 提出了AI-native的记忆管理方式(L2层)。利用大语言模型(LLM)参数化用户记忆,实现了动态的记忆组织、上下文推理与智能检索。记忆不再是静态数据,而是能够动态学习和适应用户需求的“智能记忆”。
Second Me所代表的是一种以个人为中心的AI范式:让AI拥有人格化属性,为单一具体的人服务,而非面向所有人的通用机器人。它试图守护个体意志在AI时代的不被淹没,让每个人的独特性都能通过一个AI接口得以延续和放大。
Manus是万能高效的执行代理,Second Me是忠诚懂你的个性分身。我认为人机交互范式将因为AI Agent 和个人身份模型的崛起而发生深刻变化。
可以预见,一个“AI代理无处不在、人人都有数字分身”的时代正在到来。
我始终认为AI助理未来肯定会成为标配,但是人类始终是导演。也许每天每个人都会和自己的AI助手互动,像每个人都离不开手机一样。但同样的,AI和手机都是工具和协助者,而不是决策者或者主宰者。
Mindverse提出了去中心化个人AI的愿景,正是希望每个人都拥有自己可掌控的AI,去打造一个"我的AI我做主"的生态。在未来,每个人的AI助手是私人定制的,掌握在本人手里,它只对你负责,不会去服务广告商或者第三方利益。就有点像你的私人律师或医生,只为你的利益行动。这样的话,每个人就多了一个忠实的代理,可以更无顾虑地授权他去处理事务。
未来人与AI助手共事将如影随形,这要求人们掌握新的协作方式。从教育开始,就应该培养下一代如何有效地指导AI、检查AI结果,以及与AI共同创造。
就像今天的办公要求懂电脑软件一样,明天可能要求懂Prompt编写、Agent流程设计等。善用AI者将如虎添翼,而不懂AI者可能难以适应职场。这不是要人人成为程序员,而是要学会与智能体打交道的艺术。
但是我认为,真正的AI助手是不需要我们去懂得如何编写prompt的,因为真正的AI助手就像真正的人一样,我们跟他说什么,他会在脑子里自动编排你的需求,去提取你的需求,或者去跟你互动,帮你完善你的需求。
并且这个过程也是无感的,不像我们如今的手机助手,比如说Siri,我还得喊一下"Hey Siri"他才能回应我。未来的话,可能就是先把你的声纹特征录入手机,然后你只要用你去叫他。比如说"Jarvis,帮我查看一下我今天的行程,然后帮我去订一下车票",或者说"Jarvis,帮我填写一下刚刚发过来的表格"。因为我们日常生活中会有很多那种无意义的重复的工作,就像我们刚刚提的填那种信息表格,这种往往无意义重复的工作就是可以让我们的个人小助手来做。
AI助手会像你身边贴心的管家、秘书或朋友,默默记住你的需求、喜好、习惯,自动帮助你处理那些繁琐但必要的事务。我们不再需要用特别的指令去唤醒它,也无需懂得任何技术细节——你需要做的仅仅是自然地表达你的需求,而它自然而然地为你提供帮助。
Second Me并不是真正的Second Me,因为它缺少了 Manus 的行动。Manus 也不能真正成为一个个人助手,它是一个通用的Agent。但是如果它加上Second Me,它就可以变成你的个人Agent。
最终,我们期待看到的是这样一个世界:人类因AI的助力而更加自由,更有创造力,也更能从容地享受生命中的每一刻。不过,值得思考的是,在AI变得高度个性化和深刻理解我们内心世界的时候,我们又该怎么去定义人和AI的一个界限呢?