Amazon Bedrock AgentCore 推出自定义代码评估器,用 Lambda 实现金融级 Agent 质量检测
AWS 发布 Bedrock AgentCore 自定义代码评估器功能,允许用户通过 Lambda 函数对 Agent 进行确定性质量检测,包括 JSON Schema 校验、数值精度验证、工作流合规检查和 PII 检测。本文以金融市场情报 Agent 为例,展示如何构建、注册及在按需和在线模式下运行评估器,并与 LLM-as-a-Judge 评估器互补使用。
一句话看懂
AWS Bedrock AgentCore 推出自定义代码评估器,允许用 Lambda 函数对 Agent 输出进行确定性校验,覆盖 JSON Schema、数值精度、工作流顺序和 PII 检测,与 LLM-as-a-Judge 互补。
详细发生了什么
Amazon Bedrock AgentCore 新增了自定义代码评估器(Custom Code-Based Evaluators)功能。用户可以通过 AWS Lambda 函数编写评估逻辑,对 Agent 的 trace、tool call 或 session 进行确定性评分。与 LLM-as-a-Judge 评估器不同,代码评估器不依赖大模型 token,适合需要精确、可重复结果的场景,例如 JSON Schema 校验、数值精度验证、工作流合规检查以及 PII 检测。
在金融等专业领域,Agent 的质量维度远超语言流畅度。例如,市场情报 Agent 必须引用实时股票价格(误差不超过 0.1%),在访问财务数据前执行经纪人身份验证流程,返回符合严格 JSON Schema 的工具输出,并避免泄露 PII。这些检查适合用代码实现。
评估器以 Lambda 函数形式注册到 AgentCore 控制平面。运行时,AgentCore 将 Agent 的 OpenTelemetry spans 作为 payload 传入,Lambda 返回包含标签(PASS/FAIL)、可选分数(0.0-1.0)和解释的字典。评估器可在三个级别运行:TRACE、TOOL_CALL 和 SESSION。
AgentCore 支持两种运行模式:按需评估(On-Demand)用于开发迭代、回归测试和 CI/CD 门禁;在线评估(Online)则持续采样生产流量,按计划周期评分。单个按需调用最多可引用 10 个评估器(含内置类型)。
中文圈视角
对于国内使用 AWS Bedrock 的团队,这个功能直接解决了 Agent 生产化中的质量验证难题。目前国内主流 Agent 平台(如阿里百炼、百度千帆、字节豆包)大多依赖大模型自身进行质量评估,缺乏灵活的代码级校验机制。Bedrock 的代码评估器允许用户用 Lambda 实现任意业务规则,例如校验金融数据精度、检测敏感信息,这对金融、医疗等强监管行业尤为重要。
不过,国内用户需要注意:Lambda 函数需要部署在 AWS 区域,且 Agent 的 trace 数据会经过 AWS 服务,涉及数据出境合规问题。对于有严格数据本地化要求的场景,可能需要考虑国内云厂商的替代方案。目前国内类似功能较少,但 ModelScope 的 Agent 评测工具链(如 EvalScope)正在发展,未来可能提供类似能力。
一个值得关注的盲点是:代码评估器与 LLM-as-a-Judge 的配合使用。国内团队往往只依赖大模型打分,忽略了确定性校验。Bedrock 的做法提示我们,Agent 质量评估应该分层:代码评估器负责“对不对”,LLM 评估器负责“好不好”。
几条值得记住的细节
- 评估器 Lambda 的 payload 包含 schema version、evaluator ID、evaluation level 和 OTel spans 数组。
- Lambda 响应必须包含 label(PASS/FAIL),可选 score(0.0-1.0)和 explanation。
- 评估器可在 TRACE、TOOL_CALL、SESSION 三个级别注册,同一 Lambda 可多次注册到不同级别。
- 按需评估一次最多引用 10 个评估器(含内置),适合 CI/CD 门禁。
- 在线评估需要创建配置,指定采样率和评估器列表,按计划周期运行。
一句话总结
用 Lambda 写评估逻辑,让 Agent 输出从“听起来对”变成“合同级验证”,尤其适合金融等强合规场景。