AI Agent Harness Engineering 创业公司的护城河:数据壁垒、场景深度还是模型微调?
AI Agent Harness Engineering 创业公司的护城河数据壁垒、场景深度还是模型微调引言 (Introduction)钩子 (The Hook)你有没有发现一个很有意思的现象2024年之后OpenAI DevDay、Anthropic Claude 3、Google Gemini 1.5 Pro 接连发布通用大模型General Large Language Model, G-LLM的“天花板”似乎在不断往上顶——文本理解能精准到逐行读论文公式、生成代码能直接跑通全栈MVP、多模态能力连医疗影像的早期病变筛查都能超过90%的普通放射科医生。但就在G-LLM“封神”的同时创业公司圈里却掀起了一股“去G-LLM神话”的创业潮美国的Scale AI偷偷摸摸拆分出了Agentic Layers专门做Agent的“任务编排工具链适配”估值半年涨了3倍国内的字节跳动火山引擎悄悄把“火山引擎 Agent 构建平台”从内部孵化项目推到了前台连淘宝直播、京东物流的内部Agent都在用它更夸张的是硅谷一家叫“Gatherly AI”的创业公司只做了一个针对线下学术会议在线远程参会的混合场景AI社交Agent——没有自己的大模型用的全是GPT-4 Turbo和Claude 3 Opus的API也没有所谓的“千万级核心数据”核心数据只有几千份学术会议的议程模板和参会者的隐私脱敏行为数据甚至连模型微调都没做过几次——但就这样一家公司上线18个月就拿到了红杉资本领投的1.2亿美金B轮融资估值直接破了10亿美金独角兽门槛这让很多传统做AI大模型微调、或者砸钱攒数据的创业公司老板们彻底懵了明明通用大模型已经这么强了为什么还需要专门的“Agent Harness Engineering中文可以翻译为‘AI Agent 工程化封装与适配层构建’”明明数据壁垒、模型微调、通用大模型的先发优势才是之前科技媒体吹爆的“AI创业三大护城河”为什么这家“三无”公司能成独角兽定义问题/阐述背景 (The “Why”)要回答这个问题我们首先得搞清楚三个核心概念的边界——通用大模型、AI Agent、AI Agent Harness Engineering以下简称AHE以及这三者之间的关系到底发生了什么变化。第一个边界通用大模型 ≠ AI应用很多人之前误以为“有了GPT-4我就能立刻做出一个能颠覆所有行业的AI应用”。但如果你真的尝试过用OpenAI的API做过一个哪怕最简单的“自动订机票”的应用你就会发现这中间的**“鸿沟”简直比马里亚纳海沟还深**GPT-4能听懂你说的“帮我订一张下周三从北京到上海虹桥上午10点到下午2点之间出发经济舱国航或者东航价格不超过1000块钱的机票”但它不知道怎么调用携程、去哪儿、飞猪的API——因为这些API的接口文档格式、参数要求、返回值结构都不一样就算你把所有API的接口文档用Prompt Engineering喂给GPT-4它偶尔还是会犯“调用参数顺序错了”、“把价格过滤条件写成了出发时间”、“API调用失败了不知道重试或者换另一个平台”这类低级错误更麻烦的是它根本不会“规划复杂的任务链”——比如如果帮你订机票的同时还要帮你订同时间段的高铁备选怕航班延误、订离虹桥机场最近的全季酒店怕赶第二天的早会、甚至给你的助理发一条日历提醒GPT-4 Turbo虽然有“Chain of Thought思维链”和“Function Calling函数调用”能力但它的任务规划能力往往是“线性的”、“不可控的”——万一哪一步订酒店失败了它可能会直接放弃整个任务链而不是“优先完成机票和高铁备选再用其他时间去订酒店”最后它还完全没有“记忆管理”和“状态同步”的能力——比如你今天上午用这个应用订了机票下午想改签到周四它可能会问你“你之前订的是哪张机票”因为它根本不会把你的历史会话、历史订单状态存储在一个持久化的数据库里更别说你在手机上用了一半的应用切换到电脑上之后要重新输入一遍所有信息了。这些问题通用大模型厂商OpenAI、Anthropic、Google等根本不会帮你解决——因为它们的核心定位是“提供通用的‘大脑’能力”而不是“为每个垂直场景做‘手脚’、‘眼睛’、‘耳朵’甚至‘大脑和手脚之间的神经连接’”。第二个边界AI Agent ≠ 大模型工具链记忆库那什么是AI Agent呢目前业界比较通用的定义是来自Stanford HAIHuman-Centered AI Institute的AI Agent是一个能够感知环境包括用户输入、外部API返回、传感器数据等、基于自己的目标和知识库进行推理规划、通过调用工具或者直接输出动作来改变环境、并且能够根据环境反馈不断学习优化的自主智能体。从这个定义来看AI Agent的核心组成部分至少有五个感知模块Perception Module、推理规划模块Reasoning Planning Module、工具调用模块Tool Use Module、记忆管理模块Memory Management Module、学习优化模块Learning Optimization Module。但很多早期的AI Agent创业公司只是把这五个模块“简单地拼接”在了一起——比如用OpenAI的Embedding API做感知模块的“文本理解”用GPT-4的思维链和函数调用做推理规划和工具调用用Redis做短期记忆用PostgreSQL做长期记忆用LangChain做简单的任务链编排。但这样“拼接”出来的AI Agent在实际的商业场景中根本用不了——比如你用它做一个“电商客服Agent”它可能会因为推理规划模块的“思维链发散”明明用户只是问“这件衣服有没有L码的红色”它却扯到了“这件衣服的设计师是谁”、“这件衣服的面料有什么特点”甚至“这件衣服搭配什么裤子好看”因为工具调用模块的“不可靠性”调用电商后台的“库存查询API”失败了10次却还是不知道换一种查询方式比如先查整个仓库的库存再查红色L码的子库存因为记忆管理模块的“信息过载”把用户1年前的购物记录、2年前的浏览记录、甚至3年前的客服投诉记录都喂给了推理规划模块导致GPT-4的推理速度变慢了10倍而且还经常“张冠李戴”因为学习优化模块的“缺失”不管用户给它打多少差评它下次遇到同样的问题还是会犯同样的错误——因为它根本不会把用户的差评转化为“结构化的反馈数据”更不会用这些数据去优化自己的推理规划、工具调用或者记忆管理策略。第三个边界AHE ≠ LangChain/LlamaIndex这类工具库那什么是AHE呢到目前为止业界还没有一个完全统一的定义但我可以结合Gatherly AI、Agentic Layers、火山引擎 Agent 构建平台这些公司的产品给它下一个更具体、更有商业价值的定义AI Agent Harness EngineeringAHE是一套针对垂直商业场景的‘AI Agent 工程化封装与适配层构建方法论工具链最佳实践库’——它的核心目标不是‘创造一个新的AI技术’而是‘把通用大模型的“黑盒能力”转化为垂直商业场景中“可解释、可控制、可扩展、可落地、可盈利”的白盒AI应用能力’。从这个定义来看AHE和LangChain/LlamaIndex这类“通用Agent构建工具库”的最大区别是LangChain/LlamaIndex是“通用的锤子”而AHE是“针对垂直商业场景定制的螺丝刀、扳手、电钻套装”——比如你用LangChain可以快速搭建一个“通用的电商客服Agent”但你用Gatherly AI的AHE工具链可以快速搭建一个“针对线下学术会议在线远程参会的混合场景AI社交Agent”而且这个Agent已经解决了“混合场景的参会者感知比如用摄像头识别线下参会者的胸牌用麦克风识别远程参会者的声音”、“学术社交场景的任务规划比如帮参会者找到‘研究方向最匹配的3个同领域专家’、‘安排一个双方都有空的30分钟一对一会议’、‘把会议的录音自动整理成结构化的学术笔记’”、“学术社交场景的工具链适配比如对接Zoom、Teams、腾讯会议的API对接ResearchGate、Google Scholar、CNKI的API对接学术会议的注册系统API”、“学术社交场景的记忆管理比如只存储参会者最近3个月的研究论文、最近1个月的学术会议发言、最近1周的一对一会议请求而且所有数据都是隐私脱敏的”、“学术社交场景的学习优化比如把参会者对一对一会议的‘满意/不满意’评分转化为‘专家匹配算法的训练数据’把参会者对学术笔记的‘修改建议’转化为‘笔记整理策略的优化数据’”这五个核心问题——而且这些问题的解决方案都是Gatherly AI团队通过和几百个学术会议主办方、几千个参会者反复沟通、迭代了几十版产品之后总结出来的“最佳实践”。好了现在我们搞清楚了三个核心概念的边界接下来就要回到文章开头的那个问题了对于AHE创业公司来说到底什么才是它们真正的“护城河”是数据壁垒、场景深度还是模型微调亮明观点/文章目标 (The “What” “How”)在接下来的内容里我会用**“逻辑推演实战案例分析数据对比最佳实践总结”**的方式一步步带你拆解这个问题首先我会用第二章“基础知识/背景铺垫”帮你更深入地理解AHE的核心概念、核心组成部分、以及它和G-LLM、LangChain/LlamaIndex、传统垂直AI应用的关系然后我会用第三章“核心内容/实战演练”分别拆解“数据壁垒”、“场景深度”、“模型微调”这三个之前被认为是“AI创业三大护城河”的东西看看它们在AHE创业公司里到底是不是真正的护城河——我会用Gatherly AI、Agentic Layers、字节跳动火山引擎 Agent 构建平台、Scale AI的Agentic Layers这四个不同类型、不同规模、不同发展阶段的AHE创业公司/内部项目作为实战案例接着我会用第四章“进阶探讨/最佳实践”提出我认为的AHE创业公司真正的“护城河体系”——它不是单一的某一个东西而是“场景深度的‘护城河壁垒’垂直场景结构化数据的‘护城河原料’垂直场景AHE工具链的‘护城河载体’垂直场景AHE最佳实践库的‘护城河灵魂’”这四个东西的组合体之后我会用第五章“结论”总结文章的核心要点展望AHE行业的未来发展趋势并且给想进入AHE领域创业的朋友一些“行动号召”最后为了满足一些技术极客的需求我还会在“附录”里分享一个用PythonFastAPIOpenAI APIRedisPostgreSQLGatherly AI简化版最佳实践库搭建一个“迷你版混合场景AI社交Agent”的核心实现源代码。好了废话不多说我们马上进入第二章的内容——基础知识/背景铺垫。二、 基础知识/背景铺垫 (Foundational Concepts)2.1 核心概念定义在第一章的引言里我已经简单地定义了通用大模型、AI Agent、AHE这三个核心概念但为了让你更深入地理解接下来的内容我需要把这三个核心概念的核心属性、核心目标、核心组成部分、核心评价指标都拆解清楚。2.1.1 通用大模型General Large Language Model, G-LLM核心概念通用大模型是一种基于Transformer架构、通过自监督学习Self-Supervised Learning, SSL在海量的多模态文本、图像、音频、视频等数据上预训练Pre-Train出来的、具有通用语言理解Natural Language Understanding, NLU、通用语言生成Natural Language Generation, NLG、通用多模态理解Multimodal Understanding, MMU、通用多模态生成Multimodal Generation, MMG、通用推理General Reasoning、通用工具使用General Tool Use等能力的“黑盒式基础模型Foundation Model, FM”。核心属性通用性Generality这是G-LLM和传统垂直AI模型比如专门用来做图像分类的ResNet、专门用来做机器翻译的Transformer-Base的最大区别——G-LLM不需要针对每个垂直场景重新训练模型只需要通过Prompt Engineering提示工程、In-Context Learning上下文学习、Few-Shot Learning少样本学习、Zero-Shot Learning零样本学习等方式就能解决大部分垂直场景的问题。涌现性Emergence这是G-LLM最神奇的一个属性——当G-LLM的参数量Parameters、训练数据量Training Data Volume、训练算力Training Compute达到一定的“阈值Threshold”之后它会突然涌现出一些“之前没有预训练过的、全新的能力”——比如思维链推理、多步数学推理、代码生成、工具使用、多模态对齐等。OpenAI的GPT-3在1750亿参数量的时候第一次涌现出了这些能力Anthropic的Claude 2在1000亿参数量的时候也涌现出了类似的能力Google的Gemini 1.5 Pro在1.2万亿参数量MoE架构激活参数量约1200亿的时候更是涌现出了“百万级上下文理解”的能力。不可解释性Black-Box这是G-LLM目前最大的一个缺点——因为G-LLM的参数量太大了训练过程太复杂了所以我们根本无法“解释”它为什么会做出某个决策、为什么会生成某段文本——这在医疗、金融、法律等“强监管、高风险”的垂直商业场景里是一个“致命的缺陷”。不可控性Uncontrollability这是G-LLM目前另一个很大的缺点——因为G-LLM是用海量的“无筛选、低质量”的互联网数据预训练出来的所以它偶尔会生成“虚假信息Hallucination”、“有害信息Harmful Content”、“偏见信息Bias”另外它的任务规划能力、工具调用能力也往往是“线性的、不可控的”——这在实际的商业场景里也是一个“很大的问题”。核心目标G-LLM厂商的核心目标非常简单——成为“AI时代的基础设施提供商”就像PC时代的微软Windows、互联网时代的亚马逊AWS、移动互联网时代的苹果iOS一样让所有的AI应用都基于自己的G-LLM来构建然后通过“按调用次数收费”或者“按API订阅收费”的方式赚取“稳定的、长期的、巨额的基础设施租金”。核心组成部分从技术架构的角度来看G-LLM的核心组成部分至少有三个预训练数据预处理模块Pre-Training Data Preprocessing Module负责从互联网上爬取海量的多模态数据然后对这些数据进行“清洗Cleaning”、“去重Deduplication”、“筛选Filtering”、“标注Labeling虽然是自监督学习但有些数据还是需要弱标注或者强标注的”、“分词Tokenization”、“向量化Vectorization虽然是自监督学习但有些时候还是需要用预训练的Embedding模型做预处理的”等操作生成“高质量的预训练数据集”。Transformer架构预训练模块Transformer Architecture Pre-Training Module这是G-LLM的“大脑”——它基于Transformer架构或者是Transformer架构的变种比如GPT的Decoder-Only架构、BERT的Encoder-Only架构、T5的Encoder-Decoder架构、Gemini的MoE Decoder-Only架构用自监督学习的方式比如GPT的Next Token Prediction、BERT的Masked Language Modeling、T5的Text-to-Text Transfer Transformer在高质量的预训练数据集上进行预训练生成“预训练好的G-LLM模型权重”。对齐与微调模块Alignment Fine-Tuning Module负责对预训练好的G-LLM模型权重进行“对齐Alignment”和“微调Fine-Tuning”——对齐的目的是让G-LLM的输出“符合人类的价值观、符合人类的期望、符合法律的要求”常用的对齐方法有RLHFReinforcement Learning from Human Feedback人类反馈强化学习、RLAIFReinforcement Learning from AI FeedbackAI反馈强化学习、Constitutional AI宪法AI等微调的目的是让G-LLM在某个特定的领域比如代码、医疗、金融、法律等或者某个特定的任务比如代码生成、医疗影像诊断、金融风险评估、法律合同审查等上表现得更好常用的微调方法有全量微调Full Fine-Tuning、参数高效微调Parameter-Efficient Fine-Tuning, PEFT比如LoRA、QLoRA、Adapter、Prefix Tuning、P-Tuning v2等。核心评价指标目前业界用来评价G-LLM的核心评价指标至少有五个文本理解能力指标比如MMLUMassive Multitask Language Understanding大规模多任务语言理解涵盖57个学科的选择题、HellaSwag常识推理选择题、TruthfulQA真实性问答用来测试G-LLM的虚假信息生成率、WinoGrande指代消解常识推理等。文本生成能力指标比如HumanEval代码生成测试G-LLM能否生成能跑通的Python代码、MBPPMatched Brackets Python Programming另一个代码生成测试、GSM8K小学数学推理题、MATH高中数学和大学数学推理题、CNLI中文自然语言推理、LCSTS中文文本摘要等。多模态理解能力指标比如MMBench多模态基准测试涵盖图像分类、图像问答、视觉定位、视觉推理等任务、MMMUMassive Multitask Multimodal Understanding大规模多任务多模态理解涵盖57个学科的多模态选择题、POPEPrompted Object Perception Evaluation提示式物体感知评估用来测试G-LLM的多模态幻觉率等。多模态生成能力指标比如FIDFréchet Inception Distance图像生成质量指标、CLIP Score图像-文本对齐质量指标、BLEU机器翻译质量指标也可以用来评价多模态文本生成、ROUGE文本摘要质量指标也可以用来评价多模态文本生成等。工程化能力指标比如推理速度Inference Speed单位是Tokens Per Second, TPS、推理延迟Inference Latency单位是毫秒ms、上下文窗口大小Context Window Size单位是Tokens、调用成本Cost Per 1K Tokens单位是美元、API可用性API Availability单位是百分比%等。2.1.2 AI Agent人工智能自主智能体核心概念在第一章的引言里我已经引用了Stanford HAI的定义但为了让你更深入地理解我再给它下一个更偏工程化、更偏商业落地的定义AI Agent是一个针对特定垂直商业场景的、由“感知层-决策层-执行层-反馈层-优化层”五层架构组成的、能够“7×24小时不间断自主运行”的、能够“感知环境、制定决策、执行动作、收集反馈、持续优化”的、能够“为用户创造明确商业价值”的“软件系统”——它的核心不是“AI技术有多先进”而是“能否在特定的垂直商业场景里稳定地、高效地、低成本地、安全地、合规地完成用户的任务”。核心属性场景特异性Scenario Specificity这是AI Agent和G-LLM的最大区别——G-LLM是通用的而AI Agent是“专门为某个特定的垂直商业场景设计的”——比如Gatherly AI的AI社交Agent是专门为“线下学术会议在线远程参会的混合场景”设计的Scale AI的Agentic Layers是专门为“企业级内部Agent构建”设计的京东物流的AI仓储调度Agent是专门为“京东物流的自动化仓储”设计的。自主性Autonomy这是AI Agent和传统垂直AI应用比如传统的电商客服机器人、传统的图像分类软件的最大区别——传统的垂直AI应用往往是“被动的”只有当用户主动发起请求的时候它才会响应用户而AI Agent是“主动的”它可以“7×24小时不间断自主运行”可以“主动感知环境的变化”可以“主动制定决策”可以“主动执行动作”可以“主动为用户创造商业价值”——比如京东物流的AI仓储调度Agent可以“主动感知仓储里的货物库存变化、自动化设备的运行状态变化、订单的变化”可以“主动制定新的仓储调度方案”可以“主动控制自动化设备执行新的调度方案”可以“主动把仓储的运行效率提高10%以上”。闭环性Closed-Loop这是AI Agent的另一个核心属性——它是一个“感知-决策-执行-反馈-优化”的闭环系统而不是一个“开环系统”——比如Gatherly AI的AI社交Agent当它帮参会者安排了一个一对一会议之后它会“主动收集参会者对这个会议的‘满意/不满意’评分”会“主动把这个评分转化为‘结构化的反馈数据’”会“主动用这些反馈数据去优化自己的‘专家匹配算法’、‘会议安排算法’、‘笔记整理算法’”——这样它的表现就会“越来越好”。可解释性Explainability这是AI Agent在“强监管、高风险”的垂直商业场景里落地的“必要条件”——和G-LLM的“不可解释性”不同AI Agent的决策过程应该是“可解释的”——比如医疗领域的AI诊断Agent当它诊断某个患者得了“肺癌早期”的时候它应该能够“明确地告诉医生它是通过分析患者的‘胸部CT影像的第3层、第7层、第12层的3个结节’、‘患者的吸烟史20年每天1包’、‘患者的家族病史父亲得了肺癌母亲得了乳腺癌’这三个因素才做出这个诊断的”。可控性Controllability这是AI Agent在所有垂直商业场景里落地的“必要条件”——和G-LLM的“不可控性”不同AI Agent的行为应该是“完全可控的”——比如金融领域的AI投资顾问Agent它的“投资决策权限”应该是“受到严格限制的”——比如它只能“投资风险等级为R1、R2的理财产品”它的“单笔投资金额”不能超过“用户总资产的5%”它的“总投资金额”不能超过“用户总资产的30%”另外它的“投资决策过程”应该是“受到严格监控的”——如果它的“投资决策”违反了“用户的风险偏好”或者“国家的法律法规”系统应该能够“立刻阻止它的投资决策”并且“立刻通知用户和金融监管机构”。核心目标AI Agent的核心目标也非常简单——在特定的垂直商业场景里稳定地、高效地、低成本地、安全地、合规地完成用户的任务为用户创造明确的商业价值比如提高工作效率、降低运营成本、增加销售收入、提升用户体验等。核心组成部分从工程化落地的角度来看AI Agent的核心组成部分应该是“五层架构”——这比第一章引言里提到的“五个模块”更清晰、更有逻辑性、更偏商业落地感知层Perception Layer负责“感知环境的变化”——这里的“环境”包括“内部环境”和“外部环境”内部环境是指“AI Agent自身的运行状态、内部数据库的状态、内部工具链的状态等”外部环境是指“用户的输入文本、图像、音频、视频、手势、眼神等、外部API的返回、外部传感器的数据、外部事件的通知等”。感知层的核心组成部分至少有三个输入预处理模块Input Preprocessing Module负责对用户的输入、外部传感器的数据等进行“预处理”——比如对文本进行“分词、去停用词、向量化”对图像进行“裁剪、缩放、归一化、特征提取”对音频进行“采样、降噪、语音识别ASR”对视频进行“帧提取、关键帧识别、特征提取”等。外部API集成模块External API Integration Module负责“集成所有的外部API”——比如电商后台的API、支付平台的API、物流平台的API、社交平台的API、学术平台的API、天气预报的API、地图导航的API等。内部状态监控模块Internal State Monitoring Module负责“监控AI Agent自身的运行状态、内部数据库的状态、内部工具链的状态等”——比如监控AI Agent的“推理速度、推理延迟、内存使用率、CPU使用率、GPU使用率、API调用成功率、API调用失败率”等监控内部数据库的“存储空间使用率、数据读写速度、数据一致性”等监控内部工具链的“可用性、稳定性、性能”等。决策层Decision Layer这是AI Agent的“大脑中枢”——它负责“基于感知层收集到的环境信息、决策层自身的知识库、决策层自身的目标函数制定最优的决策方案”。决策层的核心组成部分至少有四个目标管理模块Goal Management Module负责“管理AI Agent的所有目标”——这里的“目标”包括“用户设定的短期目标、中期目标、长期目标”、“AI Agent自身的默认目标比如‘保证自身的安全运行’、‘保证决策的合规性’、‘最大化用户的满意度’等”。目标管理模块的核心功能是“目标拆解Goal Decomposition”——也就是把一个“复杂的、大的目标”拆解成“若干个简单的、小的、可执行的子目标”。知识库管理模块Knowledge Base Management Module负责“管理AI Agent的所有知识库”——这里的“知识库”包括“通用知识库比如Wikipedia、百度百科等”、“垂直领域知识库比如医疗领域的PubMed、金融领域的Wind、法律领域的北大法宝等”、“企业内部知识库比如企业的员工手册、产品文档、客户数据、订单数据等”、“AI Agent自身的历史知识库比如历史会话记录、历史决策记录、历史执行记录、历史反馈记录等”。知识库管理模块的核心功能是“知识检索Knowledge Retrieval”和“知识更新Knowledge Update”——知识检索是指“基于用户的输入或者决策层的需求从知识库中检索出最相关的知识”知识更新是指“基于感知层收集到的新信息、反馈层收集到的新反馈更新知识库中的知识”。推理规划模块Reasoning Planning Module这是决策层的“核心中的核心”——它负责“基于目标管理模块拆解出来的子目标、知识库管理模块检索出来的相关知识制定最优的推理规划方案”。推理规划模块常用的推理方法有“演绎推理Deductive Reasoning”、“归纳推理Inductive Reasoning”、“类比推理Analogical Reasoning”、“因果推理Causal Reasoning”等常用的规划方法有“分层任务网络规划Hierarchical Task Network Planning, HTN Planning”、“部分可观察马尔可夫决策过程规划Partially Observable Markov Decision Process Planning, POMDP Planning”、“蒙特卡洛树搜索规划Monte Carlo Tree Search Planning, MCTS Planning”、“思维链规划Chain of Thought Planning, CoT Planning”、“思维树规划Tree of Thought Planning, ToT Planning”、“思维图规划Graph of Thought Planning, GoT Planning”等。决策验证模块Decision Validation Module这是决策层的“安全阀门”——它负责“验证推理规划模块制定出来的决策方案是否‘安全’、‘合规’、‘符合用户的期望’、‘符合AI Agent自身的默认目标’”。如果决策方案“通过了验证”那么决策层就会把它“发送给执行层执行”如果决策方案“没有通过验证”那么决策层就会“通知推理规划模块重新制定决策方案”。执行层Execution Layer负责“执行决策层制定出来的决策方案”——也就是“调用相应的工具或者直接输出动作来改变环境”。执行层的核心组成部分至少有三个工具链管理模块Toolchain Management Module负责“管理AI Agent的所有工具”——这里的“工具”包括“通用工具比如计算器、日历、时钟、翻译器、搜索引擎等”、“垂直领域工具比如医疗领域的影像诊断工具、金融领域的风险评估工具、法律领域的合同审查工具等”、“企业内部工具比如企业的CRM系统、ERP系统、OA系统、仓储调度系统等”、“外部API集成模块集成的所有外部API本质上也是一种工具”。工具链管理模块的核心功能是“工具注册Tool Registration”、“工具调用Tool Call”、“工具监控Tool Monitoring”、“工具故障恢复Tool Failure Recovery”等。动作生成模块Action Generation Module负责“如果决策方案不需要调用工具那么直接生成相应的动作来改变环境”——比如电商客服Agent直接生成“回复用户的文本”AI绘画Agent直接生成“用户想要的图像”AI语音助手直接生成“回复用户的音频”AI仓储调度Agent直接生成“控制自动化设备的指令”等。执行监控模块Execution Monitoring Module负责“监控执行层的执行过程”——比如监控工具的“调用成功率、调用失败率、调用延迟、调用成本”等监控动作的“执行成功率、执行失败率、执行延迟、执行成本”等。如果执行过程中“出现了故障”那么执行监控模块就会“通知工具链管理模块或者动作生成模块进行故障恢复”如果故障恢复“失败了”那么执行监控模块就会“通知决策层重新制定决策方案”。反馈层Feedback Layer负责“收集用户的反馈、环境的反馈、执行层的反馈并且把这些反馈转化为‘结构化的反馈数据’”。反馈层的核心组成部分至少有三个用户反馈收集模块User Feedback Collection Module负责“收集用户的反馈”——比如用户的“满意/不满意”评分、用户的“文字评论”、用户的“语音评论”、用户的“行为数据比如用户是否点击了AI Agent生成的链接、用户是否购买了AI Agent推荐的产品、用户是否取消了AI Agent安排的会议等”等。环境反馈收集模块Environment Feedback Collection Module负责“收集环境的反馈”——比如外部API的“返回结果”、外部传感器的“新数据”、外部事件的“新通知”等。反馈数据结构化模块Feedback Data Structuring Module负责“把用户反馈收集模块和环境反馈收集模块收集到的‘非结构化的反馈数据’转化为‘结构化的反馈数据’”——比如把用户的“文字评论”转化为“情感倾向正面/负面/中性”、“关键问题比如‘专家匹配不准确’、‘会议安排时间不合适’、‘笔记整理不完整’等”、“改进建议比如‘希望能增加更多的专家筛选条件’、‘希望能安排在双方都更方便的时间’、‘希望能把笔记整理成PPT格式’等”等结构化的数据。优化层Optimization Layer负责“基于反馈层收集到的结构化反馈数据持续优化AI Agent的‘感知层’、‘决策层’、‘执行层’、‘反馈层’甚至‘优化层自身’”。优化层的核心组成部分至少有三个反馈数据分析模块Feedback Data Analysis Module负责“分析反馈层收集到的结构化反馈数据找出AI Agent存在的‘问题’和‘改进点’”——比如如果有80%的用户反馈“专家匹配不准确”那么优化层就会“重点分析专家匹配算法存在的问题”如果有70%的用户反馈“会议安排时间不合适”那么优化层就会“重点分析会议安排算法存在的问题”。模型优化模块Model Optimization Module负责“如果AI Agent的某个模块比如感知层的输入预处理模块、决策层的推理规划模块、执行层的动作生成模块用到了‘机器学习模型’或者‘深度学习模型’那么基于反馈数据优化这些模型”——比如如果专家匹配算法用到了“深度学习模型”那么优化层就会“用用户的反馈数据作为‘训练数据’重新训练或者微调这个深度学习模型”。策略优化模块Strategy Optimization Module负责“如果AI Agent的某个模块比如决策层的目标管理模块、决策层的推理规划模块、执行层的工具链管理模块用到了‘人工定义的策略’那么基于反馈数据优化这些策略”——比如如果会议安排算法用到了“人工定义的策略比如‘优先安排在工作日的上午10点到下午2点之间’”那么优化层就会“基于用户的反馈数据调整这个策略比如‘优先安排在工作日的下午2点到下午4点之间’或者‘优先安排在周末的上午9点到下午5点之间’”。核心评价指标目前业界用来评价AI Agent的核心评价指标和用来评价G-LLM的核心评价指标完全不同——因为AI Agent的核心目标是“在特定的垂直商业场景里为用户创造明确的商业价值”所以它的核心评价指标应该是“商业价值指标”和“工程化落地指标”的组合体而不是“文本理解能力指标”或者“文本生成能力指标”商业价值指标Business Value Metrics这是评价AI Agent最重要的指标——因为如果一个AI Agent不能为用户创造明确的商业价值那么不管它的技术有多先进它都是“无用的”。商业价值指标是“场景特异性的”——不同的垂直商业场景商业价值指标完全不同对于电商客服Agent来说商业价值指标可能包括“客服响应时间从用户发起请求到AI Agent第一次回复的时间”、“客服问题解决率AI Agent独立解决的用户问题占总用户问题的比例”、“客服转人工率用户请求转人工客服的比例”、“客服满意度用户对AI Agent客服服务的满意/不满意评分的平均值”、“客服人力成本节约率使用AI Agent之后企业节约的客服人力成本占原来客服人力成本的比例”等对于AI社交Agent来说商业价值指标可能包括“参会者活跃度参会者使用AI Agent的频率”、“一对一会议匹配成功率AI Agent安排的一对一会议最终成功举办的比例”、“一对一会议满意度参会者对AI Agent安排的一对一会议的满意/不满意评分的平均值”、“学术笔记使用频率参会者使用AI Agent生成的学术笔记的频率”、“会议主办方续约率使用过AI Agent的会议主办方下次还会使用的比例”等对于AI仓储调度Agent来说商业价值指标可能包括“仓储运行效率比如‘每小时处理的订单数’、‘每个订单的平均拣货时间’”、“仓储人力成本节约率使用AI Agent之后企业节约的仓储人力成本占原来仓储人力成本的比例”、“仓储自动化设备利用率仓储自动化设备的实际运行时间占总可用时间的比例”、“仓储货物损坏率使用AI Agent之后仓储货物的损坏率占原来损坏率的比例”等对于AI投资顾问Agent来说商业价值指标可能包括“用户资产收益率使用AI Agent之后用户资产的收益率”、“用户资产最大回撤率使用AI Agent之后用户资产的最大回撤率”、“用户满意度用户对AI Agent投资顾问服务的满意/不满意评分的平均值”、“用户续约率使用过AI Agent的用户下次还会使用的比例”、“用户资产增长率使用AI Agent之后用户资产的增长率”等。工程化落地指标Engineering Deployment Metrics这是评价AI Agent能否“稳定地、高效地、低成本地、安全地、合规地”在垂直商业场景里落地的指标。工程化落地指标是“通用的”——不同的垂直商业场景工程化落地指标基本相同可用性指标Availability Metrics比如“AI Agent的可用性AI Agent能够正常响应用户请求的时间占总时间的比例一般要求达到99.9%以上”、“外部API的可用性AI Agent集成的所有外部API能够正常返回结果的时间占总时间的比例一般要求达到99.5%以上”、“内部工具的可用性AI Agent使用的所有内部工具能够正常运行的时间占总时间的比例一般要求达到99.9%以上”等性能指标Performance Metrics比如“AI Agent的响应时间从用户发起请求到AI Agent完成所有任务的时间一般要求在几秒以内”、“AI Agent的推理速度单位是Tokens Per Second, TPS一般要求达到几十甚至几百TPS”、“AI Agent的并发处理能力AI Agent同时能够处理的用户请求数一般要求达到几千甚至几万”、“内部数据库的读写速度单位是Transactions Per Second, TPS一般要求达到几千甚至几万TPS”等成本指标Cost Metrics比如“AI Agent的总拥有成本Total Cost of Ownership, TCO包括‘硬件成本’、‘软件成本’、‘API调用成本’、‘人力成本’、‘运维成本’等”、“AI Agent的单位请求成本AI Agent处理一个用户请求的平均成本一般要求在几分钱甚至几厘钱以内”、“AI Agent的API调用成本占总拥有成本的比例一般要求控制在50%以内”等安全指标Security Metrics比如“数据加密率AI Agent存储的所有敏感数据的加密率一般要求达到100%”、“数据访问控制率AI Agent存储的所有敏感数据的访问控制率一般要求达到100%”、“安全漏洞修复时间发现AI Agent的安全漏洞之后修复这个漏洞的平均时间一般要求在24小时以内”、“安全事件发生率AI Agent每年发生的安全事件的次数一般要求为0”等合规指标Compliance Metrics比如“AI Agent的决策可解释率AI Agent能够解释自己决策的比例一般要求达到100%”、“AI Agent的数据合规率AI Agent存储的所有数据符合国家法律法规的比例一般要求达到100%”、“AI Agent的行为合规率AI Agent的所有行为符合国家法律法规的比例一般要求达到100%”等。2.1.3 AI Agent Harness Engineering人工智能自主智能体工程化封装与适配层构建核心概念在第一章的引言里我已经给AHE下了一个“更具体、更有商业价值的定义”但为了让你更深入地理解我再给它下一个更偏技术架构、更偏创业公司护城河构建的定义AI Agent Harness EngineeringAHE是一套针对垂直商业场景的、由“垂直场景需求分析方法论垂直场景结构化数据采集与标注方法论垂直场景Agent五层架构工程化封装工具链垂直场景Agent五层架构最佳实践库垂直场景Agent持续优化方法论”五个部分组成的“系统工程”——它的核心目标不是“创造一个新的AI技术”而是“把通用大模型的‘黑盒能力’转化为垂直商业场景中‘可解释、可控制、可扩展、可落地、可盈利’的白盒AI应用能力”它的核心价值不是“帮助创业公司快速搭建一个AI Agent”而是“帮助创业公司构建起自己的‘护城河体系’从而在激烈的市场竞争中立于不败之地”。核心属性场景深度嵌入性Deep Scenario Embedding这是AHE的“核心属性”——AHE不是“通用的”而是“深度嵌入到某个特定的垂直商业场景里的”——比如Gatherly AI的AHE是深度嵌入到“线下学术会议在线远程参会的混合场景”里的它的所有“需求分析方法论”、“数据采集与标注方法论”、“工程化封装工具链”、“最佳实践库”、“持续优化方法论”都是“专门为这个场景设计的”而Scale AI的Agentic Layers是深度嵌入到“企业级内部Agent构建”场景里的它的所有东西都是“专门为这个场景设计的”。工程化封装性Engineering Encapsulation这是AHE的“另一个核心属性”——AHE把“垂直商业场景Agent五层架构的所有复杂的技术细节”都“封装”起来了只留给用户“简单的、易用的、可视化的接口”——比如非技术人员比如学术会议主办方的运营人员、企业的业务人员也可以“通过拖拽的方式”快速搭建一个“符合自己需求的AI Agent”而技术人员也可以“通过调用AHE工具链的API”快速定制一个“符合自己需求的AI Agent”。最佳实践沉淀性Best Practice Precipitation这是AHE的“灵魂属性”——AHE的最佳实践库不是“凭空想象出来的”而是“通过和几百个甚至几千个垂直商业场景的客户反复沟通、迭代了几十版甚至几百版产品之后总结出来的‘经过市场验证的、有效的最佳实践’”——比如Gatherly AI的最佳实践库就沉淀了“如何在混合场景中识别线下参会者的胸牌”、“如何在学术社交场景中匹配研究方向最相关的专家”、“如何在混合场景中安排双方都有空的30分钟一对一会议”、“如何在学术社交场景中整理结构化的学术笔记”等几百个“经过市场验证的、有效的最佳实践”。可扩展性Scalability这是AHE的“重要属性”——AHE的工具链和最佳实践库应该是“可扩展的”——比如如果某个垂直商业场景出现了“新的需求”那么用户可以“通过AHE工具链的API”快速添加“新的工具”、“新的策略”、“新的模型”如果某个垂直商业场景的“客户数量”或者“用户请求数量”出现了“爆发式增长”那么用户可以“通过AHE工具链的‘自动扩缩容’功能”快速扩展AI Agent的“并发处理能力”。