Blue Flower
Blue Flower
Blue Flower

智能体的基本原理

智能体的基本原理

2024年2月26日

我们认为,AI原生应用的产品终极形态是智能体。一个智能体的最小单元包含:感知、思考、行动和记忆。

智能体遵循“感知-思考-行动-记忆”的循环工作流程,每个工作流程本身可以视为一个智能体,可以由AI独立执行,也可以由AI与人共同执行。所有智能体的总和构成了AI模拟人类智能的集合,如果应用于企业环境,便形成了企业综合智能体。

下面让我们深入探讨感知、思考、行动和记忆在物理世界和数字世界中的对应关系。

感知:我们人类是通过视觉、听觉、嗅觉、味觉、触觉和意识去感知这个世界的。

在数字世界中,感知是对多模态信息的解析过程,模拟人类的视听能力。我们可以使用语音识别、OCR、多模态图像识别等技术,对文字、图像、音频、视频等信息进行解析,并存储在向量数据库中形成短期记忆。这些信息可以通过语义检索的方式被调用。

决策:人类大脑皮层承担思考决策的职责,基于输入的感知信息进行推理和决策。

在数字世界中,大语言模型在一定程度上模拟了大脑皮层的角色,可以基于外界环境和记忆进行联想、推理和决策。这决定了其行动方式。但是,由于大语言模型是基于自然语言的推理模型,它不能完全取代大脑皮层的功能。因此,未来可能会出现更多模型来更完全地模拟人类大脑皮层的功能。

行动:行动就是人类的行为模式下的输出,最直接的形式是写作和说话。

在数字世界中,信息可以通过电子邮件、微信等通讯工具进行传递,可以是异步的,也可以是实时的。还可以配上虚拟人,进行声音复刻、人像定制、口型模拟等操作。如果需要在多种软件之间进行交互和连接,可以使用无代码工作流工具如Zapier。这些都属于“行动”的范畴。

记忆:人类有长期记忆和短期记忆,记忆的内容包括人、事、物、时间、空间等。

记忆的内容被联想的次数越多,记忆就越深刻,形成长期记忆。短期记忆是临时存储的信息,如果长时间不回忆,就会被遗忘。

在数字世界中,我们可以使用向量数据库存储大量信息,被调用次数越多,权重越高,对企业越重要。那些不被调用或过期的知识权重相对较低,甚至可以定时清理。因此,知识库对于企业的重要性不言而喻。存储的信息不仅应包含内容,还应包含工作流的人、事、物、时间、空间等维度。随着时间的推移,我们将形成一个清晰的知识地图,看到知识流动的轨迹。

理论参考:The Rise and Potential of Large Language Model Based Agents: A Survey


我们认为,AI原生应用的产品终极形态是智能体。一个智能体的最小单元包含:感知、思考、行动和记忆。

智能体遵循“感知-思考-行动-记忆”的循环工作流程,每个工作流程本身可以视为一个智能体,可以由AI独立执行,也可以由AI与人共同执行。所有智能体的总和构成了AI模拟人类智能的集合,如果应用于企业环境,便形成了企业综合智能体。

下面让我们深入探讨感知、思考、行动和记忆在物理世界和数字世界中的对应关系。

感知:我们人类是通过视觉、听觉、嗅觉、味觉、触觉和意识去感知这个世界的。

在数字世界中,感知是对多模态信息的解析过程,模拟人类的视听能力。我们可以使用语音识别、OCR、多模态图像识别等技术,对文字、图像、音频、视频等信息进行解析,并存储在向量数据库中形成短期记忆。这些信息可以通过语义检索的方式被调用。

决策:人类大脑皮层承担思考决策的职责,基于输入的感知信息进行推理和决策。

在数字世界中,大语言模型在一定程度上模拟了大脑皮层的角色,可以基于外界环境和记忆进行联想、推理和决策。这决定了其行动方式。但是,由于大语言模型是基于自然语言的推理模型,它不能完全取代大脑皮层的功能。因此,未来可能会出现更多模型来更完全地模拟人类大脑皮层的功能。

行动:行动就是人类的行为模式下的输出,最直接的形式是写作和说话。

在数字世界中,信息可以通过电子邮件、微信等通讯工具进行传递,可以是异步的,也可以是实时的。还可以配上虚拟人,进行声音复刻、人像定制、口型模拟等操作。如果需要在多种软件之间进行交互和连接,可以使用无代码工作流工具如Zapier。这些都属于“行动”的范畴。

记忆:人类有长期记忆和短期记忆,记忆的内容包括人、事、物、时间、空间等。

记忆的内容被联想的次数越多,记忆就越深刻,形成长期记忆。短期记忆是临时存储的信息,如果长时间不回忆,就会被遗忘。

在数字世界中,我们可以使用向量数据库存储大量信息,被调用次数越多,权重越高,对企业越重要。那些不被调用或过期的知识权重相对较低,甚至可以定时清理。因此,知识库对于企业的重要性不言而喻。存储的信息不仅应包含内容,还应包含工作流的人、事、物、时间、空间等维度。随着时间的推移,我们将形成一个清晰的知识地图,看到知识流动的轨迹。

理论参考:The Rise and Potential of Large Language Model Based Agents: A Survey


我们认为,AI原生应用的产品终极形态是智能体。一个智能体的最小单元包含:感知、思考、行动和记忆。

智能体遵循“感知-思考-行动-记忆”的循环工作流程,每个工作流程本身可以视为一个智能体,可以由AI独立执行,也可以由AI与人共同执行。所有智能体的总和构成了AI模拟人类智能的集合,如果应用于企业环境,便形成了企业综合智能体。

下面让我们深入探讨感知、思考、行动和记忆在物理世界和数字世界中的对应关系。

感知:我们人类是通过视觉、听觉、嗅觉、味觉、触觉和意识去感知这个世界的。

在数字世界中,感知是对多模态信息的解析过程,模拟人类的视听能力。我们可以使用语音识别、OCR、多模态图像识别等技术,对文字、图像、音频、视频等信息进行解析,并存储在向量数据库中形成短期记忆。这些信息可以通过语义检索的方式被调用。

决策:人类大脑皮层承担思考决策的职责,基于输入的感知信息进行推理和决策。

在数字世界中,大语言模型在一定程度上模拟了大脑皮层的角色,可以基于外界环境和记忆进行联想、推理和决策。这决定了其行动方式。但是,由于大语言模型是基于自然语言的推理模型,它不能完全取代大脑皮层的功能。因此,未来可能会出现更多模型来更完全地模拟人类大脑皮层的功能。

行动:行动就是人类的行为模式下的输出,最直接的形式是写作和说话。

在数字世界中,信息可以通过电子邮件、微信等通讯工具进行传递,可以是异步的,也可以是实时的。还可以配上虚拟人,进行声音复刻、人像定制、口型模拟等操作。如果需要在多种软件之间进行交互和连接,可以使用无代码工作流工具如Zapier。这些都属于“行动”的范畴。

记忆:人类有长期记忆和短期记忆,记忆的内容包括人、事、物、时间、空间等。

记忆的内容被联想的次数越多,记忆就越深刻,形成长期记忆。短期记忆是临时存储的信息,如果长时间不回忆,就会被遗忘。

在数字世界中,我们可以使用向量数据库存储大量信息,被调用次数越多,权重越高,对企业越重要。那些不被调用或过期的知识权重相对较低,甚至可以定时清理。因此,知识库对于企业的重要性不言而喻。存储的信息不仅应包含内容,还应包含工作流的人、事、物、时间、空间等维度。随着时间的推移,我们将形成一个清晰的知识地图,看到知识流动的轨迹。

理论参考:The Rise and Potential of Large Language Model Based Agents: A Survey