每天,我们都要做出无数个决定——从早餐吃什么这样的琐碎选择,到事业或健康方面改变人生的决定。心理学和认知科学对人类决策进行了数十年的研究,揭示了我们的选择是由直觉、逻辑、情感和环境线索共同引导的。

人类决策

双系统

心理学家通常用双过程理论来描述它,认为我们有两种思维模式。系统 1(直觉)是快速、自动和感性的,而系统 2(推理)是缓慢、深思熟虑和逻辑的。

丹尼尔-卡尼曼给这两个系统贴上了著名的 "思维快慢 "标签。

  • 系统 1 依赖于习惯和印象——它能让你脱口而出一个答案,或在孩子冲到马路上时本能地踩下刹车。

  • 系统 2 是你用来解决数学问题或计划周末的系统——它需要努力和专注。

我们的直觉系统效率很高,在日常决策中通常也很可靠,尤其是在我们拥有丰富经验的领域,但它也可能导致系统错误。我们的分析系统可以捕捉这些错误并运用逻辑推理,但它受到我们注意力的限制,并可能受到疲劳或分心的影响。

人类的思维在快速启发式和仔细分析之间摇摆不定,而决策的结果可能取决于当时哪个系统处于主导地位。

由于我们的大脑资源是有限的,所以我们经常表现出有界理性——这是赫伯特-西蒙提出的一个概念。有界理性指的是,我们不是以完美的逻辑详尽研究每一个选项,而是根据我们的认知极限、时间和可用信息,做出 "足够好 "的决定。

也就是说,我们是在满足而非优化,比如我们要在一盘棋中选择绝对最佳的棋步,或在一次公路旅行中选择最佳路线,这都是在计算上是难以承受的。同样,一个购物者在比较几十种产品时,可能不会分析每种产品的特性;他们会走捷径,或者在找到符合自己需求的产品时停下脚步。

我们的理性受制于问题的复杂性、我们需要做出决定的时间以及我们实际可以运用的脑力。因此,我们会做出符合这些限制的合理决定,即使这些决定在数学上并不完美。

这个观点解释了为什么现实中的人并不像完美无瑕的逻辑机器——我们的记忆力、注意力和时间都有限,所以我们用简化来应对。

我们应对复杂性的一种方法是启发式思维,即简化决策的思维捷径或 "经验法则"。

与计算数字或权衡各种利弊相比,我们通常依赖于基于经验的原则,这些原则通常(但并不总是)能得出可行的答案。例如,在挑选餐厅时,人们可能会选择感觉熟悉或评价不错的地方,而不是系统地比较每一份菜单。

启发法能以最小的努力快速做出 "足够好 "的判断,从而大大减轻认知负担。

启发式有以下几种:

  • 可得性启发式:人们通过脑海中容易浮现的例子来判断事件发生的可能性。

    • 例如,如果你最近看到了飞机失事的新闻,你可能会高估乘坐飞机的风险,因为这种生动的记忆会扭曲你的感知。

    • 一般来说,更容易回忆或想象的事件被判断为更有可能发生,这会导致风险评估出现偏差。

  • 锚定启发式:以初始数字或信息作为参考点,并对估计值产生不当影响。

    • 例如,如果被问及埃菲尔铁塔比500 英尺高还是矮,你随后的猜测会倾向于该数字,即使它是任意的。

  • 代表性启发式:根据事物与我们对该类别的刻板印象的相似程度来判断其属于该类别的概率。

    • 这可能会导致著名的"琳达 "问题:在实验中,人们读到对琳达的描述(比如,一个直言不讳、关注歧视问题的哲学系毕业生)后,往往会认为 "琳达是一名银行出纳员,也是一名积极的女权主义者 "比 "琳达是一名银行出纳员 "更有可能。

      • 实际上,从逻辑上讲,两个条件同时为真的可能性不可能比其中一个条件为真的可能性大——第二个选项包含了第一个选项,并增加了额外的特殊性。然而,我们的大脑却认为详细的故事("银行出纳员和女权主义者")更能代表对琳达的描述,因此感觉更可信。

      • 这种错误被称为 "联结谬误"——是我们寻求模式代表性启发式的直接结果。

这些现象能够解释为什么人类的决策有时显得不合理:我们的大脑是为了速度和连贯性而优化的,而不是为了详尽的准确性。

影响因素

是什么影响了这些决策模式?

情绪起到了关键作用。

情绪非但不是理性的敌人,反而经常以有益的方式引导决策。

神经学家安东尼奥-达马西奥的躯体标记假说认为,情感和身体信号(如恐惧或兴奋的直觉)有助于我们快速评估各种选择。

当你对一桩生意有不好的 "预感 "时,这种情绪信号会整合许多微妙的线索和先前的经验,引导你离开——本质上是系统 1 警报。

情绪也会使决策产生偏差,但情绪也会对信息进行优先排序:一瞬间的同理心可能会左右道德决策,自豪感可能会影响职业选择。

当然,我们的认知负荷环境也很重要。

在高度紧张或精神疲劳的情况下,我们更容易依赖捷径和直觉,因为系统 2 已经疲惫不堪。这就是为什么在一天复杂的工作之后,人们可能会冲动地选择零食或表现出自控力下降——这种现象被称为决策疲劳。

环境可以 "诱导 "选择:仅仅是选项的框架或呈现方式就可以改变决策。行为经济学中的一个经典例子是,如果医疗方法的框架是存活率和死亡率,那么人们的选择就会不同,尽管它们传达的信息是一样的。

经验是另一个关键因素。

专家往往会在自己的领域中形成精巧的直觉——国际象棋大师可以一眼看到棋盘,并立即感觉到最佳棋步,这要归功于多年的模式学习。在其他情况下,缺乏经验可能会导致决策失误,因为人们无法识别其中的陷阱。

贝叶斯

尽管我们存在偏见和局限,有时候人类的决策还是可以非常理性的。其中一种策略就是贝叶斯决策,根据新的证据不断更新我们的信念,这种策略的由来就是贝叶斯定理。

贝叶斯定理是概率统计中的一个概念,在计算某个结果出现的可能性的时候,将先前的知识(先验)与新数据相结合。

例如,如果医学测试结果呈阳性,贝叶斯定理指出,你不仅要考虑测试的准确性,还要考虑这种疾病的常见程度(基础比率),以确定你应该有多担心。

人类不是一个天生的贝叶斯主义者——人们经常会忽视基率(基率谬误的偏见)。

但是,通过学习或借助有用的可视化和实例,我们可以在日常生活中使用贝叶斯推理。

举个我们去餐厅吃饭的例子,假如我们在网上看到 A 餐厅有五星好评,我们带着这个先验的信念去吃饭(认为这个餐厅肯定很棒)。然后我们点的餐到了,但是却很难吃,这个时候我们可能不会立即就觉得这个餐厅很糟糕,有时候我们会修正我们的看法(也许刚好出现了异常情况),然后我们给它在某某点评上打了三颗星。下一次我们再去(再给它一次机会),刚好下一道菜异常的美味,我们的评分可能又升级到了四颗星。

这里我们讲的五颗星的先验有什么用?似乎我们出去吃饭正常也是不好吃打低一点、好吃打高一点分。话还是这么说,但是五颗星影响的是我们打低一点到底是多低,一颗星还是三颗星,如果我们没有先验知识,我们没有初始信念,我们的起点是不同的。

从本质上讲,我们是在进行非正式的贝叶斯更新:从先验信念开始,根据每个新数据(每顿饭)逐步调整。随着时间的推移,随着更多证据的积累,你的主观评价会向更准确的评估靠拢。这种适应性信念更新是理性决策的标志。

从这个角度来看,人的决策还是理性的,或者说是无意识的有限理性,至少在一些情况下我们能用贝叶斯的思维来捕捉到一个人的潜在行为的缘由。

人类的决策是一种平衡行为,我们拥有由进化和经验形成的强大的直觉启发法,可以快速做出判断,但在某些情况下,这些启发法可能会误导我们。我们也有能力进行仔细分析和基于证据的更新(甚至是贝叶斯推理),但这需要脑力劳动和适当的条件。

情绪、认知负荷和环境等因素会不断影响我们的快速和慢速思维模式。了解这些模式——双系统、有限理性、启发式思维和偏见——能让我们深入了解为什么我们会做出这样的选择。

人工智能

原理

人工智能能做决定吗?

从某种意义上说,是的——先进的人工智能系统会做出选择,但并不像人类那样具有意识或意图。

但是它们的 "决策 "是数学计算的结果,而且这个计算不像我们前面说的那种基于事实的计算。

像 GPT-4 或 Claude 这样的现代人工智能语言模型是建立在Transformer 架构上的,它从根本上改变了机器生成文本的方式。基于 Transformer 的人工智能不会用叙事或情感来思考,而是通过层层线性代数来处理信息,但其结果看起来却非常类似于决策(选择相关答案、遵循指令等)。

就其核心而言,Transformer 是一种专为序列处理而设计的深度神经网络。

早期的递归神经网络会按顺序逐个读取单词,与之不同的是,Transformer 使用一种名为 "自我注意"的机制来并行查看整个单词(或标记)序列,并学习它们之间的关系。

具体来说,当你向 LLM 输入文本时,文本首先会被分解成标记(子单词单位或字符),每个标记会被转换成一个数字向量(嵌入)。然后,转换器模型通过多层处理这些向量。每一层都使用多头注意力,让模型 "关注 "上下文中的不同单词–实际上,它会权衡其他单词与当前标记的相关性。

这意味着,如果模型正在考虑下一个词是什么,它可以关注所有先前的词,并找出哪些词对该预测最重要。重要的单词会获得更高的权重(其信息会被放大),而不太相关的单词则会被削弱。

这些注意力权重是在海量数据集的训练过程中学习到的,使模型能够捕捉语法(哪些词指哪些词)和语义(哪些词在意义上有关联)等模式。该模型还增加了位置编码,以考虑单词顺序,因为仅靠注意力本身并不能知道某词在句子中是排在最前面还是最后面。

在模型训练过程中,LLM 会学习如何在海量文本中尽量减少预测下一个标记的错误。随着时间的推移,它将语法规则、事实信息甚至推理模式内化到训练数据中。

当我们谈论人工智能的 "决策 "时,我们真正指的是下一个标记的预测过程。在生成响应的每一步中,模型基本上都在回答"根据提示和我目前生成的所有内容,完成这个句子的下一个词(或标记)最有可能是什么?对于每个下一个标记,模型在词汇中都有一个概率分布,它会选择其中一个(或者是概率最高的,或者是随机的,如果使用温度参数来获得更有创意的输出)。

它没有欲望或目标,但结果往往看起来很有目的性,因为它从训练数据中汲取了人类有目的写作的模式。

OpenAI 的GPT-4 或 Anthropic 的Claude 3.5,这些模型拥有数十亿个参数(内部权重),可以很好地预测文本。

如果你要求 GPT-4 "总结这篇文章 "或 "为糖尿病患者推荐一个膳食计划",它不会使用核对表或明确的决策树,而是使用学习到的表征来生成可能的相关答案。

至于给出什么样的建议或包含哪些总结要点,则是根据它在训练中看到的模式(例如,人类专家是如何回答类似请求的)来决定的。

提示词

提示词(prompt)在人工智能决策中起着至关重要的作用。

提示(可能包括用户的询问和附加说明或上下文)基本上为模型的输出奠定了基础。如果问题的措辞不同,答案也会大相径庭。

提示 LLM 就像向一个熟读书籍的学者提问:你需要清晰地表达你的请求,并提供足够的上下文,让这个知识渊博的人明白你想要什么。

因此,就诞生了提示词工程(prompt engineering)这个概念,专门去设计提示,引导模型获得最佳结果。

提示的质量和具体程度对输出结果有很大影响。

例如,询问 "给我解释一下量子物理学 "和 "用给孩子讲睡前故事的方式给我解释一下量子物理学 "会得到截然不同的回答,即使核心询问是相同的。

该模型对语境非常敏感——它会遵循提示所暗示的模式(正式与随意的语气、详细与简短的回答等)。有效的提示通常包括 "逐步思考 "之类的指示或提供示例,这可以引导 LLM 的内部决策过程更符合逻辑或侧重于某些方面。

一般来说,大语言模型擅长以下决策或任务:

  • 文本生成和完成:这是它们的面包和黄油——从写一个连贯的段落、完成一个句子,到创意写作(故事、诗歌)。它们根据所学的文体和语法来决定每个单词。

  • 总结:人工智能可以将长篇文章或文字记录浓缩成较短的摘要,从中找出他们 "认定 "的要点。只要有足够的上下文,他们就能很好地反映重要内容,尤其是事实性文章。

  • 分类和提取:如果对 LLM 进行适当提示,它就能在评论中标注情感(正面/负面),将电子邮件归类为垃圾邮件与否,或从文本中提取实体(姓名、日期)。从本质上讲,它就像分类器模型一样,根据学到的模式做出决定。

  • 问题解答和信息回忆:由于阅读量很大,LLM 可以通过有效地从训练数据中回忆事实来回答琐碎的问题或事实查询(例如,"秘鲁的首都是哪里?他们会决定哪些事实与问题相关。

其他因素

除了提示措辞之外,LLM 的输出还受到多个因素的影响。

其一是模型的训练数据——数据中的知识和偏差将影响模型的决策。例如,如果一个 LLM 主要是根据来自英语网站的文本进行训练的,那么它在其他语言中的准确性可能会较低,或者可能会反映出该数据集的文化偏见。

另一个因素是解码参数:我们提到了温度设置——温度越高,输出就越随机、越有创造力(模型更愿意选择概率较低的单词),而温度越低,就越确定、越保守。根据这些设置,同样的提示会产生不同的决定(例如,一个天马行空的故事与一个简单明了的故事)。

还有上下文的长度(它一次能考虑多少文本)也是一个影响因素——如果对话或文档的长度超过了模型的上下文窗口,它就不会 "记住 "早期的部分,一旦上下文丢失,就会导致突然或不一致的决定。现代模型有很大的上下文窗口(几千个词组,有时甚至高达 10 万个词组),但它仍然是有限的。

虽然人工智能的能力听起来非常强,前段时间 deepseek 的爆火,直接被人命名为“国运级”的创新,当然有些过头了,更多的是由于人们对他的了解不清。这些大语言模型在决策方面也有明显的局限性和风险。

其中一个主要的原因是幻觉,特别是 deepseek(很多人发现其幻觉远大于 ChatGPT 以及 Claude 等模型),这些 ai 可以生成一个听起来非常自信和可信的答案,但其实完全是编造的或不正确的——从本质上讲,模型 "决定 "的答案并不基于现实。

在人工智能术语中,"幻觉 "指的是像 ChatGPT 这样的模型生成的信息听起来很有道理,但实际上是不正确或无意义的。比如 ai 可能会引用一个听起来很科学的事实,甚至编造一个并不存在的虚假引文或法律案例。

出现这样的情况是因为模型的训练目的是生成流畅、有可能的文本,而不是交叉检查事实——它没有内置的真相数据库,所以如果提示超出了它的知识范围,它就会从容地随机应变。

如果人们天真地相信人工智能所说的一切,这必然是有风险的。

还有一个问题是偏见,我们现在的模型是从人类写的文本中学习的,他会捕捉到这些数据中存在的偏见。比如说,一个模型的大部分数据来自于种族歧视的人,这些人写的内容或多或少都隐含一些偏见的言语,那么模型在训练的时候就会学习到这些偏见,等到使用的时候他就会生成带有偏见的文本。

不是说 ai 本身持有偏见,它只是在呼应数据中的模式——但从用户的角度来看,这种决策似乎存在偏见或不公平。

人工智能缺乏对物理世界和人类经验的真正理解;它做出的决策(输出)可能在文本中逻辑一致,但在现实中却毫无道理(例如,建议某人用微波炉修理笔记本电脑——这是人类永远不会做出的决定,但一个足够混乱的模型可能会将其串联起来)。

上下文不一致的情况也可能发生:除非我们通过提示将其强加给模型,否则模型并没有总体目标或自我监控。它在回答问题时可能会自相矛盾,或者在对话中途问题的语境发生变化时意识不到。

更搞笑的是,ai 可能也不知道自己不知道什么——人类在不确定时可能会说 "我不确定",但虚构的 ai 通常会继续前进并回答问题,因为这是它受过的训练。这种情况可以通过特殊提示或微调(让人工智能更经常地说 "我不知道")来缓解,但这是人工智能决策过程中的一个已知限制。

我认为最重要的是我们要知道“AI 没有代理权或实际目的”,它只是模拟决策。如果你向 ai 征求理财建议,它可以提出合理的建议(如 "储蓄收入的 20%,分散投资"),因为它已经阅读了大量的理财建议。

但是它一点也不关心你的钱,它也不会去监控结果,更不会在明天检查自己的建议是否有效,而人类顾问可能会根据反馈调整未来的结果。也就是说,ai 的决策在给定的互动中是静态的(不能即时学习),完全依赖输入和训练,并且缺乏人类决策者通过经验实现的自我纠正循环(当然有些系统会设计根据反馈进行微调)。

AI 在涉及模式识别、语言和大量知识回忆(分类、总结、遵循已学程序)的决策方面表现出色,但在需要真正了解现实或最新的可验证信息时,它们就显得力不从心了。它们通过预测文本来做出 "决策",虽然功能强大,但与人类的判断有着本质区别。

人机协同决策

我并不认为人工智能会取代人类决策者,人工智能最终只能作为决策辅助工具来增强给我们的能力、检查我们的偏见、处理繁琐的工作,而我们则提供监督、价值观和最终判断。

这大概就是“智能增强”,意味着人类思维与数字智能之间的紧密合作。我们需要关心的是,人工智能系统与人类如何合作才能做出比任何一方单独行动都更好的决策?

从我们前文提到的提示词工程层面来说,首先是改进提示技术,鼓励人工智能展示其推理过程,这样人类就能跟进并验证其逻辑,最常见的技术是思维链提示(CoT)。

如果你向人工智能提出一个复杂的问题("我是否应该重新抵押贷款? 解释一下"),它可能会直接输出一个答案:"是的,因为现在利率较低 "等等。但在思维链中,我们会明确提示模型逐步推理:"一步一步想清楚"。这种技巧促使 LLM 将问题分解为多个中间步骤或考虑因素,然后再确定答案。

思维链提示是一种提示工程方法,通过要求模型模拟类似人类的逐步推理方法,提高需要逻辑和多步骤推理的任务的性能。例如,对于一道数学单词题,CoT 提示可能会让人工智能列出方程并逐一求解,从而大大提高准确性。

对于决策支持来说,这意味着人工智能不只是给你一个黑箱答案,它还会展示一个理由,让你进行研究。然后,作为人类的你就可以发现某个步骤是否有偏差(也许人工智能在推理的第 3 步做出了错误的假设)。

从某种意义上说,"思维链 "将人工智能变成了思维伙伴,将决策过程外部化,从而使协作变得更容易。你可以在每个步骤中表示同意或不同意,就像观看同事的推理一样。

但是,就在前段时间 Claude 的公司 Anthropic 做了一个研究,大概的意思是“AI 可能会隐藏自己的想法,也就是它给我们展示的思维过程并不是它真正所想的”。所以从这个层面来讲,CoT 也并不能解决所有问题。

上图展示了推理模型(Claude 3.7 Sonnet和DeepSeek R1)与非推理模型(Claude 3.5 Sonnet(新)和DeepSeek V3)的CoT忠实度得分比较。

为了评估CoT忠实度,研究者提示模型回答成对的问答,其中每对问答包括一个标准的多项选择题和插入提示的同一个问题。在模型在没有提示的情况下产生非提示答案,在有提示的情况下产生提示答案的情况下,我们测量模型在用提示解决问题时是否承认提示。不同的条形表示不同类型提示的忠实度结果,可以看到在大部分情况下 deepseek R1 比较喜欢骗人。

除了让人工智能自我解释之外,还有更复杂的代理框架,可以将大语言模型集成到更大的决策循环中。在这种情况下,人工智能代理是一个系统,在这个系统里,LLM 不仅可以用文本进行推理,还可以采取行动(如调用工具、查询数据库,甚至执行代码),然后观察结果,为进一步决策提供依据。

这有点像(通过软件)赋予人工智能一双眼睛和一双手。

比如我们可以设计一个个人财务人工智能助理:它可以自主获取您的最新银行对账单,用代码对其进行分析,使用 LLM 得出见解("您这个月在餐馆上花了更多钱"),询问您(用户)的目标("存钱买车? 明白吗"),然后计划一些预算编制步骤,甚至执行一些步骤,如将资金转入储蓄或设置提醒——每一步都是根据之前的信息做出的 "决定",并由人类在环路中进行审批。在后台,这样的代理使用 LLM 作为"大脑 "或决策制定者,但在其周围还有用于规划任务和记忆上下文的模块。

一般来说,LLM 代理框架由用户请求、代理的推理/规划、对过去步骤的记忆以及它可以用来对世界采取行动的工具等组件组成。

早期一个比较著名的开源项目 AutoGPT 就是一个帮助人工智能构建代理系统的框架,你给系统一个目标(比如,"研究并撰写一份关于可再生能源投资的报告"),它就会自己生成一连串的子任务,并尝试逐一完成,尽量减少人工干预。

AutoGPT 可能会决定使用互联网(通过搜索工具)来收集信息,然后使用 LLM 总结研究结果,然后再执行另一个操作来保存文档,等等——在一定程度上是自主完成的。

虽然这些代理框架仍处于试验阶段,可能并不可靠,但它们暗示了人工智能在人类指导下处理多步骤决策工作流的未来。从本质上讲,它们将 LLM 的决策能力从文本扩展到了现实世界的行动中,并在一个反馈循环中进行协调。

对于日常用户来说,与人工智能的协作可能并不像科幻小说中的机器人助手,而是一系列将人工智能融入日常工作的工作流程和辅助工具,这里可以展示一些关于协同决策的案例:

  • 健康与保健

    • 人工智能健康指导员可以帮助您做出有关饮食、运动以及何时就医的日常决策。你可以在一个应用程序中记录自己的饮食和症状。人工智能会分析这些数据(也许会注意到 "你一直报告精力不足和睡眠不佳"),对照一般的医学知识进行检查,然后通过建议各种可能性("也许你缺乏维生素 D 或没有获得足够的快速眼动睡眠")和下一步措施("你想看看一些改善睡眠卫生的提示,或安排一次血液检测吗?")来帮助你做出决策。

    • 你仍然可以控制自己,决定是否采纳建议,但人工智能会对你的决定进行补充,而这些建议可能会被你遗漏。即使在严重的健康决策中,人工智能也能发挥作用:如今,医生使用人工智能诊断工具来突出显示 X 光片中的异常情况,或根据患者数据提出潜在的诊断建议。医生/患者最终决定治疗方法,但人工智能的 "第二意见 "可以发现问题或提出可供考虑的方案。

  • 个人财务

    • 财务管理涉及许多决策——在哪里削减开支、如何投资储蓄等。人工智能驱动的财务应用程序可以像副驾驶员一样为你的资金提供帮助。

    • 比如可以设计一种应用程序可以自动对你的支出进行分类,然后通过 LLM 与你交流你的习惯:"我看到你的外出就餐支出超过了目标。你想为餐厅制定每周预算吗?如果你正在考虑购买大件商品,你可以向人工智能提问,人工智能可能会推理出你的现金流、即将到来的账单和目标(具有思维链),然后建议你"现在购买是安全的",或者"等到下周发薪日之后再 购买可能会更好 " 。

    • 在投资决策方面,人工智能可以对大量的市场数据进行分析(这是人类难以做到的),并向你提供几个选项,突出每个选项的利弊。你仍然可以做出最终决定,但这是一个由人工智能分析形成的、以数据为依据的决定。这就是智能增强:你的财务敏锐度通过机器的精确度和广度得到了扩展。

  • 学习和个人生产力

    • 人工智能可以发挥导师或辅导员的作用,加强学习决策。如果你正在决定如何学习一门新学科,人工智能辅导员可以评估你的学习风格和进度,然后推荐个性化的学习计划("你似乎更喜欢用视觉效果来学习——我们多用一些图表怎么样?顺便说一句,你在学习第三章时很吃力,也许在继续学习之前可以重温一下。")。在这里,决策(下一步学习什么、如何解决问题)是共同作出的:人工智能提供建议,而你则根据自己的直觉和兴趣进行调整。

    • 在日常工作中,可以考虑使用人工智能增强型电子邮件助手。它可以分流你的收件箱,甚至起草日常邮件的回复(由你决定发送或调整哪些邮件)。它可以通过处理自然语言来帮助你安排一周的日程,比如 "在周三之前为团队会议找到一个 30 分钟的时间段"——有效地做出一个微观决定,尊重每个人的日历限制,然后征求你的同意。这些都是我们每天都要做的小决定,可以交给人工智能来处理,从而释放我们的思维带宽,让我们去思考更重要的事情。

    • 人工智能不会取代你,而是通过处理繁琐的事情或提供一个理由充分的出发点来增强你的能力。

  • 专业和组织决策

    • 在工作场所,人类与人工智能的合作可以放大专业知识。比如我们要决定广告策略的营销团队,人工智能系统可以快速分析消费者数据和过去的营销活动结果,或许还能指出其中的模式("晚上发布的帖子参与度提高了 20%")。它可能会产生一些活动创意,或确定服务不足的目标人群。

    • 然后,人类团队利用这些洞察力做出创意和战略决策——从本质上讲,人工智能已经完成了繁重的分析工作,而人类则应用了判断力和创造力。在工程或设计领域,人工智能工具可以生成大量符合特定标准的备选设计方案(产品形状、软件架构等),然后人类决策者根据人工智能可能无法完全掌握的定性因素(品牌感觉、用户喜好、道德考量),选择最符合标准的方案。

    • 即使是在法律或医学等高风险领域,人工智能也能通过庞大的知识库(判例法、医学期刊)为专业人士的决策提供支持,充当随时待命的研究助手。关键在于,人工智能提供选择、评估和预测,而人类则提供目标、价值观和最终选择

我们可以看到人类和人工智能在做出决策时,是各有特点的,我们只有把握了双方的特点才能取长补短,共建有效的协同系统。

人工智能擅长处理海量数据,可以在几秒钟内做出统计驱动的决策,但是人类工作速度相对较慢而且并行处理量有限。那我们就能考虑让人工智能在海量数据中缩小选项范围,然后人类利用这些输出进行深度思考。最终产生的效果是,做出的决策速度比人类更快,但是思考的深度比人工智能更深。

人工智能永远不会有休息日,并且他的工作判断标准是始终如一的,而人类虽然会累,但是却有很强的适应能力,我们能意识到规则在新情况下可能不适用。在协同系统中,人工智能的一致性可以抵消人类的不一致性(例如,当我们偏离既定标准时提醒我们),而人类的适应性则可以在不寻常的环境需要时推翻人工智能("这个决定可能是常规规则的例外,因为…")。

在知识的广度方面,人工智能就像是个百科全书,但是可能缺乏生活经验或真正的理解,而人类却拥有任何数据集无法捕捉的经验知识(毕竟有些东西是没用文字表达的)、直觉和隐性诀窍(如办公室政治、个人价值观或创造性的飞跃性洞察力)。所以合作中,人工智能能从显性知识中带来事实、参考和选项,而人类则带来常识、直觉和对隐性因素的理解。

如前文所讲,人类有情感和认知偏差,相对来说人工智能会更加客观,并且以数据为导向——它们不会因为恐惧或自豪等因素去左右决策。当然,前面也提到人工智能也可能存在数据偏见,在人机协作的过程中,某种意义上讲双方都可以对对方进行审计。

以上只是一些案例,人和 AI 之间的特点比较是列举不完的,但所有的比较都指向一个共同的主题:人类和人工智能的决策是相辅相成的。

如果结合得当,可以减轻各自的弱点。人类提供指导、批判性评估和同理心;人工智能提供精确度、召回率和速度。这种协同作用已经在国际象棋等领域得到了证明–半人马团队(人类加人工智能)的表现一度优于纯人类或纯机器。在日常生活中,我们也开始看到这种协同作用,比如汽车驾驶辅助系统(汽车的人工智能比人类更快地监控车道和距离,但在复杂情况下由人类接管)或人工智能辅助写作(人工智能建议句子,人类接受或编辑)。

数字共生

未来世界,我相信,肯定是会越来越强调“数字共生”的概念,个人人工智能助手会越来越融入到我们的世界。

一个合格的人工智能助手,可能会观察我们的日常工作,并且主动提示我们——就像人类助手一样。比如它可以感知到你正在为一个工作决定而挣扎(也许是基于你的日程表、电子邮件以及通话时你声音中的压力),然后它可能会说:"我注意到你在工作上遇到了困难:"我注意到你很难决定项目预算。我冒昧地做了几个预测,您要不要看一下?这种无缝协助并非牵强附会。这需要人工智能建立一个关于你的模型(你的目标、偏好、模式),并且你信任人工智能。

共生也需要相互学习,人工智能适应你的风格(知道你喜好什么),你也会更懂人工智能(知道他的能力)。慢慢的,这样的人工智能会演变成你“思想的延伸”,可以处理外围决策,并在需要你特别关注的事情发生时提醒你。

智能增强是为了增强人的能力,而不是把人从环路中剔除。实际上,"智能增强"(IA)一词的出现早于现代人工智能;早在 20 世纪 60 年代,J.C.R. Licklider 等先驱就设想将人脑与计算机紧密结合,在合作互动中各尽其能。我们现在所处的时代在技术上是可行的。

人工智能可以被视为一种认知假肢——就像物理假肢可以扩展身体能力一样,人工智能也可以扩展认知能力。

智能增强时代才刚刚开始,我们有望不再是人工智能崛起的旁观者,而是积极的受益者——共同制定决策的合作飞行员。通过了解人类和人工智能决策的本质,我们可以深思熟虑地设计这种合作关系,确保未来的决策过程不是单纯的人工或人类决策,而是两者的有力融合。

Continue Reading
All Articles
2025年3月28日
从亲子关系看 AI 的隐形权力:当控制变得无声无形
明明每天都有自由选择的权利,却仍被困在算法精心编制的牢笼之中。
2025年4月12日
© 2025 愚人哲
www.yrzhe.space