人机融合智能的再思考_腾讯新闻

来源｜人机与认知实验室书/追问人工智能作者/刘伟

导语：近年来，随着科学技术的发展，人工智能取得了显著成果，但依然没有突破性进展。人机融合智能是未来人工智能的发展方向。本文阐述了对人机融合智能的几点思考，首先简要介绍人工智能的起源，提出未来人工智能的发展方向是人机融合智能，并对人机融合智能的相关概念进行了阐述；接着分析了现今人机融合智能面临的困难；最后提出了人机融合智能的探索方法，即深度态势感知，并尝试着建立了人机融合智能理论框架。

人工智能的起源与未来发展方向

人工智能（AI）真正起源于欧洲，最初形态是以哲学、数学的形式表现出来的，如古希腊哲学中的“我是谁？”、莱布尼兹数学里的“普遍文字+理性演算”等。1956年的达特茅斯学院暑期论坛根据英国一位数学家的想法提出了人工智能（AI）的概念。此后六十年来人工智能随着机器学习、数据挖掘、深度学习等技术的发展取得了显著的进步。在这期间人工智能产生了三大主流理论思想，分别是以神经网络为代表的联结主义、以增强学习为代表的行为主义和以知识图谱(专家系统)为代表的符号主义。最近，美国国防部先进技术局DARPA基于技术特征对AI技术发展阶段的分析判断，认为AI已经历第一波和第二波浪潮，将迎来第三波浪潮：第一波AI技术浪潮开始于上世纪60年代初，以“手工知识”为特征，通过建立一套逻辑规则来表示特定领域中的知识，针对严密定义的问题进行推理，没有学习能力，处理不确定性的能力很弱。第二波AI技术浪潮开始于上世纪60年代末，以“统计学习”为特征，针对特定的问题域建立统计模型，利用大数据对它们其进行训练，具有很低程度的推理能力，但不具有上下文能力。第三波AI技术浪潮以“适应环境”（上下文自适应）为特征，可持续学习并且可解释，针对真实世界现象建立能够生成解释性模型的系统，机器与人之间可以进行自然的交流，系统在遇到新的任务和情况时能够学习及推理。AI的持续自主学习能力将是第三波AI技术浪潮的核心动力[9]。在此基础上，我们经过思考和分析，认为第四波AI技术浪潮会以“主动适应环境”（更大范围的上下文自适应）为特征，具有可持续学习+不可持续学习并且可解释+不可解释，针对真实+虚拟世界现象能够生成主动适度解释性的模型系统，机器与人之间可以进行自然的深度交流，系统在遇到新的任务和情况时能够实现人机互学习及互推理。人机融合中的主动性互学习互理解互辅助……互助融合能力将是第四波AI技术浪潮的核心动力。

客观地说，人工智能只是人类智能可描述化、可程序化的一部分，而人类的智能是人、机（物）、环境系统相互作用的产物。智能生成的机理，简而言之，就是人物（机属人造物）环境系统相互作用的叠加结果，由人、机器、各种环境的变化状态所叠加衍生出的形势、局势和趋势（简称势）共同构成，三者变化的状态有好有坏、有高有低、有顺有逆，体现智能的生成则是由人、机、环境系统态、势的和谐共振大小程度所决定的，三者之间具有建设性和破坏性干涉效应，或增强或消除，三位一体则智能强，三位多体则智能弱。如何调谐共频则是人机融合智能的关键。当代人工智能由最初的完全人工编译的机器自动化发展到了人工预编译的机器学习，接下来的发展可能是通过人机融合智能的方法来实现机器认知，最终实现机器觉醒。

人机融合智能面临的困难

“智能”这个概念就暗含着个体、有限对整体、对无限的关系。针对智能时代的到来，有人提出，“需要从完全不同的角度来考虑和认识自古以来就存在的行为时空原则”，如传统的人、物、环境关系等。当人们进行一段智能活动时，一般都会根据外部环境的变化进行关键点或关键处修正或调整，通过局部与全局的短、中、长期优化预期，实时分配权重于各种数据信息知识处理，更多的是程序化+非程序化混合流程。而机器智能则很难实现这种随机的混合应变能力，确定性的程序化印记比较突出，像“阿尔法狗”（AlphaGo）/ 元 /star 这样比较优秀的智能系统，主要赢在边界明确的计算速度和精度上，对于相对开放环境下的博弈或对抗则没有在封闭环境下表现得那么好，甚至会很不好。真正的智能不仅仅是适应性，更重要的是不适应性，进而创造出一种新的可能性，智能很可能不是简单的地顺应、适应，更重要的是不顺应、不适应，进而创造出一系列新的可能性：自由、同化、丰富、改变、独立。图灵机的缺点是只有刺激-反应而没有选择，只有顺应而没有同化机制。

世界是由联系构成的还是由属性构成的？这是一个值得思考的问题。应该是由两者共同构成的吧！《道德经》第四十章中说“反者道之动；弱者道之用。天下万物生于有，有生于无”，这一句话正是这种思想的集中体现，这里说到“反者”相对于“正者”，也有“往返” 的意思；而“弱者”是相对于“强者”，有了反者才有正者，这叫作阴阳。反者道之动，在这里用一句非常讲究的话来说明“道”，就是 “一阴一阳之谓道”。弱者，强者都是阴阳。有了阴阳道才能动，才有相互作用。

信息化本质是计算事实，智能化则是认知价值。从数据到信息到知识（结构）是认知计算，从知识到信息到数据（解构）是计算认知。若把智能看成语言，那么人工智能像是语法，人类智能更像是语义、语用。语法基于规则、统计和概率，而语义语用则是基于一种人们之间使用有意义元素组成的约定，潜意识里的约定俗成比语法更为跨界、灵活，而且人们目前对它的规律还未形成有效的规则认知，于是它便成了复杂性事物。符号化是规范性语法的表征，情境化是自然性语义的依据。个境与群境有还原成分，也有新异元素，理解智能的难点之一就是内外一多共存的交织干扰和影响。把任何时间、地点、信息送给任何人转变为在恰当的时间、地点、方式信息送到恰当的人手里就是智能的表现形式之一。在全局，人是机的升维，机是人的降维；在局部，则反之。因为全局涉及的是异构事物、非家族相似性；而则局部相反。对人类的智能系统而言，围棋的作用还仅仅是局部的局部。

人工智能的最底层技术是二极管的0、1 二元逻辑，人类智能的最底层技术是人的多元意向（非逻辑）。人类智能则是艺术，人工智能主要是技术。人工智能就是一个工具，很多人却把它当成了万能的钥匙，更有人把它想象成了无所不能的孙悟空和圣诞老人，而忽略了人的智慧的作用。人类智能是一种涉及感性（尤其是勇敢）更多的智能，在紧急态势迅速变化时，一个人由情感而非思维支配，因而理智需要唤起勇气素质，继而在行动中支撑和维持必要的理智，在人类智能中，我们往往可以看到有序/无序之间的创造性张力，如在很多情境下，你所看到的同一事物（如苹果或1 小时）往往不同，主动看、被动看、半主动看都不一样。人工智能常常容易形成的偏见，从规则的知识图谱中提取出先验和常识，并将之作为约束条件引入生成模型，可能会让智能程序的运行大打折扣，所以，如何把人的模糊感知、识别与机器的精确感知、识别结合将是一个非常值得思考的问题。

人机认知不一致性问题

人机智能难于融合的主要原因就在于时空和认知的不一致性。人处理的信息与知识能够变异，其表征的一个事物、事实既是本身同时又是其他事物、事实，一直具有相对性，而机器处理的数据标识缺乏这种相对变化性。更重要的是人对时间、空间的认知是具有意向性的，是具有主观期望的（should），而机器对时间、空间的认知是偏向形式化的，是客观存在的（being）。二者不在同一维度上，所以具有很强的不一致性。人的认知是侧重于心理层面的，是主观的，而机器的认知是偏向于物理层面的，是客观的。在认知方面，人的学习、推理和判断随机应变，时变法亦变，事变法亦变，而机器的学习、推理和判断机制是特定的设计者为特定的时空任务拟定或选取的，和当前时空任务里的使用者意图常常不完全一致，可变性较差。这种不一致性既包括人的主观预期与机器的客观数据反馈的不一致性，也包括人的主观预期与客观事实的不一致性。

许多事物表面上看是非逻辑的问题，如以弱胜强的许多案例，其实从实质上看是逻辑问题，这些以弱胜强里的弱是相对的，在局部却经常以强胜弱，所以非逻辑里包含着许多逻辑关系。同样，不少逻辑问题里也存在着非逻辑问题，如顺理不成章的一些案例，表面上顺理，实际上这些理是变理，是不完备的道理，是有前提边界条件约束的，当这些诸多前提边界条件约束发生一些微小改变时，自然就成不了章了。由此可见，逻辑与非逻辑共存于事物之中，也是有序与无序的根源，其中的交互与组织就是人机融合智能研究重点，也是人机融合智能的难点。

人机融合的另一个关键问题是公理与非公理混合推理的融合，直觉与理性结合的决策。公理是数学发展史中的理论基础，而在科学研究过程中逻辑推导是最为核心的方法。同样，计算机的运行过程依旧是按照严密的算法语言运行的。但是人类的决策不同于这个过程，人类的联想能力还依赖于类比推理。类比推理为非公理推理的一部分，非公理推理决定了在弱态势情况下的强感知问题。这种学习方法依赖于先验知识，通过利用大数据与概率的方法实现，而实现机器的非公理推理是人与机器的区别之一，更是人的情感在机器上实现的重要途径。通过先验知识人类产生直觉，而理性的分析是直觉的对立面。机器总是在理性地处理数据，而如何让机器产生直觉能力是人机融合的平滑性的关键。公理与非公理推理，直觉与理性的结合决策将是解决人机融合智能输出的重要研究方向[1]。

意向性与形式化问题

英国的计算机科学家、人工智能哲学家玛格丽特博登，她很早就提出了人工智能的核心和瓶颈在于意向性与形式化的有机结合，时至今日仍未有突破，实际上这也是人机融合智能的困难之处。在目前投入应用的人机融合产品中，人与机器分工明确，但并未有机地结合。人类能够在环境信息、资源不完备的情况下对态势的发展作出更好的预测，这是因为人类在后天的学习中可以不断地增强自身的认知能力。机器不具有联想能力，而人类恰恰可以通过联想产生跨领域结合的能力。所以怎样使机器产生联想能力是实现真正智能的关键所在。

意向性是对内在的感知的描述（心理过程、目的、期望），形式化是对外在的感知的描述（物理机理、反馈）。人机融合智能及深度态势感知就是意向性与形式化的综合。形式化更多的是倾向于让人们对事物有一个直观的空间上的认知，而把这种空间上的认知延伸到时间上描述，就是意向性。形式化是态，那么意向性就是势。人机融合就是要形成一个对内在外在、主观客观、认知与行为上的感知的整体描述，形成一个可以描述人的心理过程、目的、期望以及机器的物理机理、反馈的模型。

当前智能领域面临的困难是人的意向性与行为的差异程度，行为可以客观形式化，而意向性是主观隐性化的，一个智能系统想要形成和存在，其内部的构件在本性或运行规律上就必须拥有既相互吸引又相互排斥、既靠拢又闪避、既结合又分离、既统合又脱节的能力。人机融合智能中意向性是联结事实与价值的桥梁，形式化可以某种程度地实现这种意向性。

休谟之问的伦理问题

人机融合智能的最后一个关键问题是伦理问题。人类价值观的起源是伦理学。人类本身拥有很多伦理道德困境，人工智能的出现也带给了人类对待人工智能伦理问题的思考。与此同时，人机融合只能伦理问题的关键之一是人机融合智能的范畴归属。人机融合智能的伦理问题包括人工智能的伦理以及人机融合后的责任归属，这也是人机融合智能在接下来发展的问题之重。

“休谟问题”说的是从事实推不出价值来，可是，这个世界却是一个事实与价值混合的世界，不知从价值能推出事实吗？汉字就是智能的集中体现，有形有意，如日月人，一目了然；西方的文字常常无形无意，逻辑类推。智能的本质就是把意向性与形式化统一起来，所以汉字从象形到会意的过程就是人类自然智能的发展简史……汉字的偏旁部首就是一种类的封装，把强相关的字聚在一起。如果说人类造字是语言表征的封装积累，那么，人类造智则是思想意识的拓扑延展。智能不是百科全书，而是包含不少的虚构和想象，不仅是分类，还要合类，不仅合并同类项，而且要合并异类项，因而，智能产品系统的顶层设计非常重要。人工智能一般是逻辑（家族相似性）关系，人类智慧常常是非逻辑（非家族相似性）的。未来的智能是在特定环境下人的智能与机器智能的融合，即人机融合智能。人机融合智能不是人工智能，更不是机器学习算法。同样，人工智能、机器学习算法也不是人机融合智能，人机融合智能是人机环境的相互融合，是《易经》中的知几（看到苗头）、趣时（抓住时机）、变通（随机应）。人机融合智能是随动，不是既定，其中的“知己知彼”中的“知”不是简单的态势“感知”，更是态势“认知”。认知是从势到态的过程，感知是从态到势的过程。认知侧重认，信息输入处理输出流动过程；感知侧重感，数据信息的输入过滤过程，认知涉及先验和经验等过去的感知，所以态势认知包括了以前的态势感知。人工智能是一把双刃剑，计算越精细准确，危险越大，因为坏人可以隐真示假，进行欺骗，所以人机有机融合的智能更重要。客观而言，当前的人工智能基本上就是自动化+ 统计概率，简单地说，归纳演绎的缺点就是用不完备性解释完备性。

毕加索曾透露：“绘画不是一个美学过程，而是……一种魔法，一种获取权力的方式，它凌驾于我们的恐惧与欲望之上。”看懂了毕加索的作品，就能理解毕加索想要表达的“魔法”，并且把它化用到生活中的其他领域，尤其是智能领域和人机融合智能领域。

需要注意的是，休谟问题至今尚未真正得到解决。正因为“价值”是相对的，因人而异的，所以这一问题也永远不可能真正得到解决，这一点已经在上一节中作出了论述。唯物主义者虽然想把唯物主义贯彻到精神领域，但这是永远也不可能做到的。因为精神和物质，在本质上是完全不同的东西，一个是主观，一个是客观。就如同怀疑论者经常使用的“桶中脑实验”（英国哲学家普南提出，有的版本也翻译为“缸中脑”）描述的那样，我们对于这个世界的认识，其实完全只是一种主观的判断，这种判断和真实的“客观世界”是否一致，我们永远也不可能知道。虽然某些唯物主义者总喜欢用“无数次的实践”来证明主观与客观理论上最终能达到这种一致性，但实际上，“无数次的实践”是不可能做到的。所以说这只是一种空想罢了。

人机融合智能的难点：深度态势感知研究

态势感知的定义不在此做赘述。态势感知（situation awareness）一词最早于第一次世界大战中提出，之后在心理学领域中作为“情境意识“被广泛应用，直到1988年Endsley对态势感知的重新定义，以及其在1995年提出的著名的态势感知三级模型[3]，标志着将态势感知迁移到了工程学领域中，再到2003年Wickens提出的基于注意力的态势感知模型（A-SA模型，Attention-SituationAwareness Model）[4]以及Hooey于2010年将态势元素（Situation Element）[5]引入态势感知研究中，标志着态势感知研究由主观数据驱动到客观数据驱动，由定性分析到定量分析的过渡。近年来，随着人工智能相关技术的迅猛发展，网络态势感知（CyberSituation Awareness）成为了网络安全领域的研究热点。态势感知似乎成为了一种研究方法（method），而不是一个可以指导人们认识世界、改造世界的方法论（Methodology）。当前的态势感知理论技术仍然存在很多不足，主要是未将人的心理活动过程与机器的外在表现形式以及环境中的态势要素有机地结合。鉴于此，本文尝试提出了深度态势感知这个概念，具体说明如下：

深度态势感知的含义是“对态势感知的感知，是一种人机智慧，既包括了人的智慧，也融合了机器的智能（人工智能）”，是能指+所指，既涉及事物的属性（能指、感觉）又关联它们之间的关系（所指、知觉），既能够理解弦外之音，也能够明白言外之意。它是在Endsley以主体态势感知（包括信息输入、处理、输出环节）的基础上，对包括人、机（物）、环境（自然、社会）及其相互关系的整体系统趋势分析，具有“软/硬”两种调节反馈机制；既包括自组织、自适应，也包括他组织、互适应；既包括局部的定量计算预测，也包括全局的定性算计评估，是一种具有自主、自动弥聚效应的信息修正、补偿的期望—选择—预测—控制体系。关于深度态势感知的详细解释请参见一文 [7] 。

在维纳出版的著作《控制论——关于在动物和机器中控制和通讯的科学》中，维纳将控制论看作是对机器、生命以及社会的规律进行研究的科学，是研究个体(可能是生物，也可能是机器)在动态环境中怎样保持稳态的过程的科学，控制论的思想和方法对社会科学与自然科学领域的研究产生了深远的影响[8]。在《控制论》一书中，维纳提出“控制的核心是反馈，反馈是人们的目的性行为”。然而，控制论在揭示机器的自然存在时不仅完全屏蔽了社会巨型机——它本身不过是其中的一个时段和一个成分，而且还完全屏蔽了组织生成性这个关键问题，而生成性则是除人造机之外一切物理、生物和社会机器所固有的禀性。

事实上，把生命体特有的“目的性行为”概念用“反馈”这种概念代替，把按照反馈原理设计成的机器的工作行为看成为目的性行为，并未突破生命体（人）与非生命体（机器）之间的概念隔阂。原因很简单，人的“目的性行为”分为简单显性和复杂隐性两种，简单显性的“目的性行为”可以与非生命体机器的“反馈”近似等价（刺激—反应），但复杂隐性的“目的性行为”——意向性却远远不能用“反馈”近似替代，因为这种意向性可以延时、增减、弥聚，用“反思”定义比较准确，但“反思”概念却很难用非生命体的机器赋予（刺激—选择—反应）。“反思”的目的性可用主观的价值性表征，这将成为人机融合的又一关键之处。价值将由吸引子和动机共同构成。反思是一种非生产性的反馈，或者说是一种有组织性的反馈。自主是有组织的适应性，或被组织的适应性。据此我们将Endsley态势感知三级模型和维纳的“反馈”思想结合，提出了一个基于“反馈”的深度态势感知模型

图1：基于“反馈”的深度态势感知模型

深度态势感知理论模型在不同情境下处理信息的方式会有所区别，并且以往关于态势感知的研究都充分说明了态势感知具有实时性，即态势感知会随时间而不停地更新、迭代。所以我们尝试着对态势感知进行细化，并提出了一个基于循环神经网络（RNN）的深度态势感知理论框架，如下图所示：

图2：基于RNN的深度态势感知理论框架

我们将态势感知中的“态”定义为人机环境系统中的各类表征个体状态的主客观数据，即state；“势”定义为事件的发展趋势，即trend；“感”定义为对系统中“态”的觉察，即sense；“知”定义为对“势”的理解。该理论框架就是为了辅助人们更好地“感态”、“知势”。而为了获取数据必然要引入客观数据，根据之前的研究，我们可以将态形式化为显著性，势形式化为价值性，感为反应时，知为准确率。感态着重于时效性，而知势更倾向于有效性。

“我思故我在”，这是笛卡尔二元认知论的起点，也是终点，即唯一确定的事，就是“我”的体验。根据认知科学的解释，由于在大多数情况下人的认知能力是有限的，所以最优化是无法实现的。参与人还必须了解他的目标方程，这就要求另一个庞大的认知性先决条件，如同参与人发现他们所处的环境一样，系统地描述这一目标方程是极其复杂的。知己知彼不可分，不知彼就不能知己，任何事物本身不能解释自己，只有从其它参照物处才能感知、理解、发现、说明、定义自己（我是谁，我从哪里来，我要去哪），进而可以认为：自我是不存在的，没有环境和参照物，自己解释不了自己，如同“我”的概念定义不能为“我就是我”一样。再进一步，自我意识也可能是不存在的，它也是交互的产物，只不过可以穿越时空逻辑关系罢了。实际上，所有的自主系统都是不由自主，只不过显隐程度不同而已。之后笛卡尔将自己的哲学观点形式化为著名的二元直角坐标系。

鉴于笛卡尔的观点，深度态势感知虚实参照系可分为人机不同的态（事物）参照系、势（事实）参照系、感（显著）参照系、知（价值）参照系，当这些虚实参照系大部分一致，亦或没有本质的矛盾时，才有可能产生正确的觉察和决策行为。

只有在把一物与它物区分开来，才会对该物有了认知。只有把一个人的知识或信仰状态与他人的区分开来，才会对一个人有了解。哲学上最难，也是最重要的任务之一，就是明确世界的两类特征，即那些独立于任何观察者而存在的内在特征和那些相对于观察者或使用者而存在的外在特征。例如一个物体有质量（无论对谁而言）与这个物体是浴缸（也可是水缸、饰缸、粮缸）。所以对深度态势感知系统研究的下一步工作，就是将其具体应用到某一或某些情境中，检验其有效性和可靠性。

也许很多人看过《黑客帝国》这部有关人工智能的科幻电影，其英文名称为“Martrix”，即“矩阵”。的确，现在的人工智能相关技术（大数据、机器学习、深度学习等）是以矩阵论、概率论等数学理论为基础发展而来的，并且为人们生产生活提供了便利，甚至一定程度上带动了社会变革。人工智能所取得的成就得益于自17世纪以来400年间人们对数学的不懈追求，但现今人工智能所忽视的，也可能是帮助人们突破当今人工智能瓶颈的，恰恰是几千年来对人们对世界的认知以及对自我反思的研究。所以如何将自然科学与社会科学有机地结合，是下一代人工智能技术的研究重点。

人造的机器有存在但没有自我。自我诞生于对自身存在的经常性的交互、组织和产生。产生不出主动性的交互和组织，就不是自主，就没有自我，没有自我，就不可能出现感己与感彼、知己与知彼，感性就联系不上理性，客观就不能形成主观，事实就不能衍生出价值。智能，尽管是一种复杂系统问题，涉及面极广，本质上仍就是主观与客观、感性与理性、意向性与形式化的对立统一（人机环境）系统而已。其核心价值依旧离不开基础理论的突破，而不是数据、算法、算力和实验。人机融合，不仅仅是造出更高级的机器、设计出更好的算法、获得多么大的数据，而是人自身知性的改造，即思维逻辑的改造、重塑与变革。

在浩瀚的宇宙中，人类渺小得不过沧海一粟，就像巨大矩阵中的一个元素。人工智能未来的极限在哪里，人机融合智能是否能让机器突破自我认知这一瓶颈，一切都无从知晓。“It’s too early to tell”，下结论为时尚早。

来源：人机与认知实验室

关于腾讯AI加速器

腾讯AI加速器是腾讯产业加速器的重要组成部分。其背靠腾讯产业生态投资，依托腾讯AI实验室矩阵的核心技术，腾讯云的平台、计算能力以及合作伙伴丰富的应用场景，为入选项目提供课程、技术、资本、生态、品牌等层面的扶持；并与入选项目共同打造行业解决方案，推动AI技术在产业中的应用落地。

在前两期AI加速器中，从全球2000+项目中甄选出的65个项目，整体估值662亿+，融资总额高达70亿+，70%的项目完成新一轮融资；其中腾讯投资乐聚机器人、工匠社机器人、Versa马卡龙玩图，并形成行业解决方案50+。

2019年8月16日，腾讯AI加速器三期名单出炉。TOP30项目从1500个报名者中脱颖而出，录取率仅2%，三期项目总估值超200亿。项目聚焦于金融、教育、安全、工业、机器人、IoT、云计算、5G等。入选腾讯AI加速器三期，意味着正式成为腾讯智慧产业生态的合作伙伴，将与腾讯各智慧产业业务深度结合。

人工智能

为你推荐

科沃斯引领行业智能进化京东超品日掀家用机器人消费热潮

Unity助力创作者制作百万级播放量神作_腾讯新闻

神州泰岳创新新技术，实现产业全覆盖_腾讯新闻

新一代人工智能计算平台发布：当算力成为一种新生意_腾讯

百度输入法不仅让你打字如飞，还让你风趣浪漫会聊天_腾讯

张院士，开讲了！_腾讯新闻

没有车企愿意只作华为的“肉体”_腾讯新闻

5 张图带你了解 Pulsar 的存储引擎 BookKeeper_腾讯新闻

世界首座金属3D打印桥梁成功在阿姆斯特丹安装_腾讯新闻

4层楼的距离拾音：腾讯会议发布天籁语音模组方案_腾讯新闻

热门文章

猜你喜欢