真实对话AI开发笔记——零

0. 前言

初版ChatGPT向人们展示了GenAI具有高度智能的潜力，使其在许多实际问题中表现卓越并被广泛应用。我曾尝试与ChatGPT直接对话，试图让我们的交流更像是两个人类间的互动，但我仍觉得与我期望的情景相距甚远：AI无法自发地表达情感，它们在对话中仅仅勉强回应我的观点，而且这种一问一答的形式也不同于人类的反应（人类能在适当的时机主动发起对话）。但我与此同时又被AI的智能能力所感到吃惊。我并不认为现阶段AI的智能水平不足以模拟出一个有情感且生动形象的人类，经过思索，我想借以这个project来尽我所能使用GPT等GenAI大模型作为内核来模拟一个真实的人类。即使最终没有完成，我也想分享一下我对如何实现这类AI的一点思考。

1.0 描绘人类思维

为了模拟出一个真实的人类，我觉得我应该首先尝试理解我们自己，包括我们自己的情感，记忆以及思考方式等等。我承认这是一个宏大的主题，很多哲学家心理学家们前仆后继地去研究可能也没有得到一个确切的结论，但我还是想尽我所能地解构和理解这些我认为人类在进行对话之时所拥有的特质以及表现：

1.1 情绪水平

在我们听到一句辱骂自己的话之后，无论我们的外在表象会变成什么样子，我们在内心中都会产生愤怒的感觉，这些愤怒的感觉之后递减或是递增，但无论如何他会影响到我们的表现。在一些场合我们便会直接用语言指责他，而在另外一些场合我们的愤怒只能留在心里，在回家后和家人发泄一通才会减少。
在很多时候，是这些情绪水平跨越了一定时间的尺度影响了我们现时和之后某个时间的表现。如果我们忽略了这个重要的因素，那么这个AI可能在被辱骂了“你真是个低贱的机器人”还会回复“哈哈，我不同意您的观点”，而不是像一个正常人一样回复一些脏话。

为了实现这个能力，我们需要一个情绪状态表，标注了“愤怒，开心/幸福，满足，伤心，不满，害怕，发情(???)”等情绪维度以及相应的数值，这些数值会综合的影响AI的发言以及其他表现。这其中甚至还包含一些具体的情绪，例如“想吃好吃的东西”，这些内容和数值会根据实际经历的事情以及时间流逝来进行增减。

在写下这些有关情绪的内容后，我也曾想，如果我们不把情绪数值化标定给AI，而是让AI通过直接输出的方式来自己决定自己的情绪和态度，会是怎么样。我们这样强行标定数值的行为是不是不太符合自然？我原先对我这个假设还颇有兴趣，但是到后来我联想到人类在大脑里也有着诸多的激素，这些激素水平无时不刻影响着我们的情绪，并且不受我们的直接控制，与方才说到的数值化标定本质上并无差异。我们人类有时会被愤怒和冲动冲昏头脑去做出一些过激的事情，但我们也会在无比悲伤和绝望的时候尽力抓住一丝理智来尝试变得乐观起来，在厌烦和胆怯的时候鼓起勇气去完成不得不做的事情。我想，一个具有一定智能的AI或许也会这样吧，在需要的时候。*

1.2 思考过程

如果我们需要思考一个复杂的问题，我们便会注意到我们大部分时候在使用语言在脑海中思考。例如‘人类接触高压电会怎么样’，我们会使用语言默默地想：“高压电加在人体两端会让人体通过巨大的电流，这些电流会对人体的一些部位造成极大伤害”。但是对于GenAI来说，我不清楚他们在进行思考的过程是怎么样的，鉴于让AI去模拟这些真实的思维过程有些许复杂，只有当最终的表现欠佳的时候，我才会尝试去让他们进行这些思维的模拟。

1.3 记忆

我们的记忆内容会很大程度的影响自己在不同情景下的表现，这是毫无疑问的。但是对于原生的GenAI，我不认为单纯依赖其上下文的记忆可以很好的模拟人类的这个过程。当我们讨论到游乐场这个话题的时候，我们都会想起之前有没有去过，去了哪里，什么时候，和谁等等这些基本信息。对这些细节的概括和存储也可能会让整个模型的表现更加像一个人类。

2.0 对外界刺激的反应

与这些GenAI相类比，我们人类在很大一部分领域上与之并无明显的差别，都是对外界刺激所产生的反应的集合体。例如，对于ChatGPT（人类），我们提供一些提示词/Prompt（看到听到一些信息），然后AI会基于这些Prompt（听到或看到的信息）以及上下文（记忆）来产生反应和回复（说话思考或行动）。于是我想基于我担任人类很久以来的经验来根据这个接受Prompt——综合记忆和状态或思考——产生回应的思路来设计这个程序。

2.1 注意力

我们走在路上，路边种植着树木，我们脚踩在触感坚硬的水泥地上，路边的人正在刷手机…… 这些树木，水泥地和手机们都是各种各样的Prompt，这些Prompt就放在那里，虽然这些东西合在一起会给我们带来一种或多或少的情绪影响，但我们不会依次给他们每个东西都做出特定的针对性的反应，是因为我们的注意力不在那里。我们要么会被对自己刺激性强的事情吸引（比如突然窜出来一辆车差点撞到我把我吓一跳，或者自己耳机里正在播放的劲暴舞曲），要么会被最近感兴趣或在意的事情所吸引（比如我们会经常观察喜欢的人是否往这里看）。在同一个场景下，拥有不同状态和记忆的人的注意力是不同的。

引入注意力机制是十分合理的，并且此举可以简化AI所思考的内容，专注于对于此时更重要的外界因素（就像我们平时一样）。外界的因素不应当是先筛选，而是应该由AI根据自身的状态和偏好数据，主动的选择后作为Prompt来产生回应。

2.2 活跃，走神与睡眠

有时候，我们会在感兴趣的课堂上积极的回应书上，PPT上以及老师所讲述的内容，但我们也会在很烦人的数学课上偶尔走神。这些都是由于我们内源性的偏好等因素所对外界信息造成的注意力强化或缺失。同时，我们也可能会因为非常困而进入睡眠，这时候除了非常强烈的外部刺激，我们很难继续观测外界环境，以至于别人跟我说话也会被忽略。甚至，比如当我们在挤地铁的时候，手机在裤子里根本拿不出来的时候，对于手机那边一直在催我们上学/上班的老师/老板来说，我们这时候就像早上没起来在睡眠一样（哈哈哈哈）。但实际上对于我们自己来说，我们可以接收并处理一切看到听到的外界信息（例如地铁报站），除了手机里面的信息，在这里我们可以把这个现象叫定向睡眠。

我认为在这里我们可以很好的处理注意力了。注意力具有着方向以及强度。在一定场景下，AI便可以在繁杂的外界信息的海洋中，使用注意力这个工具来提取自己需要做出反应的Prompt。

2.3 自定外界信息的来源范围

根据我们想要让这个AI完成什么任务或是表现出什么效果，我们可以选取适合的信息来源来喂给AI。比如，我想让这个AI完成一个国际象棋解说，那我们可以给AI实时提供两方选手实时的下棋动向（比如，在哪一格子的后前进多少格子吃掉了对方的哪个棋子）以及别的评论员给出的实时评价（如果你想让演播室里更加热闹的话）。或是你想拥有一个看小说的时候陪你一起聊剧情的朋友，那么你可以提供给你看到的小说内容（如果你想让他更加关注剧情的走向和剧中人物的反应，你可以让AI的注意力更加关注这些，或是让AI更关注作者的文风等等来作出一些赏析性评价和探讨）。

除了把AI的信息来源限制在特定任务所需的范围内之外，如果我们给他们提供足够多的外界信息，甚至于可能的视觉听觉等信息，他们会变得像一个人类吗？我希望如此。

3. 信念，灵魂与To-Do List

最开始我是没有想到与本章标题所述相关的事情的，直到我写完了第2章后回头补充了1.1中的最后一段（标有星号的）。我突然发觉，如果真的像我之前所说的那样，我们和AI只是仅仅接受各种prompt而后产生对应的反馈的话，那么我们怎么可能会反抗激素或数值给我们设定的情绪呢？我突然意识到，或许有着不同于外源的刺激，也不同于一般的陈述性记忆等，而是一种内源的，更加长期的，有着强烈主动意愿的诸如“一定要达到的事情”/“一定要遵守的信条”这般的情感。

除了这般强烈和长期的意愿，我们日常还伴随着许多比较小的“要完成的事情”，无论强烈与否，也都时刻影响着我们对各种事情的反应和态度。比如“我要完成数学作业”，当时间距离deadline还很远的时候，这个意愿的强度就很小，被问起的时候我们的反应可能是很轻浮的“啊有时间再写嘛”。但如果距离截至只有不足1小时的时候，这条意愿就会非常强烈，当再被邀请“啊待会晚上去唱卡拉OK叭”，我们很可能回复“别打扰我了我作业马上就截止了”。相比于长期的信念，这些很小的to-do list也切实驱动和影响着我们，我认为在真实对话AI中也应当作为一种状态参数来予以标注，并且相比于长期信念要更加频繁的自动调整内容和强度。

而对于信念和灵魂的描述内容，他们相比之下更加稳定，只有少数情况在重大变故的时候会予以发生变化。在绝大部分想要的真实AI对话场景中并不需要变化，所以我认为把一些可以作为人格基底和背景色彩风格类似的内容写进一个单独的文件里，可以被方便的载入到不同的情境中。如果可以浪漫一些的话，我会想把这类文件的后缀名命名为.soul文件。

4. 小结

我想这应该就是第一篇笔记的所有内容了。这篇文章虽然内容不多，但也融入了我的一些思考。在写这篇文章之前，我本以为使用现成的AI内核设计这样一个AI应当是相对比较简单的。但是在想要让这个AI变得更加真实，更像一个活生生的有血有肉的人着实不是一件容易的事情。做这件事的时候，反而我更是自认为我像是一个黑魔法师在法阵里设计一个人工灵魂，与此同时我也好像是在吹开所谓“自由意识”的迷雾后，一点点解构和分析我们人类自己。作为一个科幻迷，我曾读过很多有关人类和AI的故事，其中大多在探讨AI有没有人类一样真正的情感和意识。但在真正尝试在对比之下构思一个这样的AI之后，我愈发认为人类所引以为傲的自由意志和情感只不过是一场伟大的幻觉，我们只是一个由神经元而不是晶体管构成的特殊一点的计算机罢了。

嘶不能再接着写了，感觉要上头了，越写越魔怔（）

那就先这样——？

2023年5月24日
于图书馆北京