Amazon Bedrock AgentCore 推出自定义代码评估器，用 Lambda 实现金融级 Agent 质量检测

一句话看懂

AWS Bedrock AgentCore 推出自定义代码评估器，允许用 Lambda 函数对 Agent 输出进行确定性校验，覆盖 JSON Schema、数值精度、工作流顺序和 PII 检测，与 LLM-as-a-Judge 互补。

详细发生了什么

Amazon Bedrock AgentCore 新增了自定义代码评估器（Custom Code-Based Evaluators）功能。用户可以通过 AWS Lambda 函数编写评估逻辑，对 Agent 的 trace、tool call 或 session 进行确定性评分。与 LLM-as-a-Judge 评估器不同，代码评估器不依赖大模型 token，适合需要精确、可重复结果的场景，例如 JSON Schema 校验、数值精度验证、工作流合规检查以及 PII 检测。

在金融等专业领域，Agent 的质量维度远超语言流畅度。例如，市场情报 Agent 必须引用实时股票价格（误差不超过 0.1%），在访问财务数据前执行经纪人身份验证流程，返回符合严格 JSON Schema 的工具输出，并避免泄露 PII。这些检查适合用代码实现。

评估器以 Lambda 函数形式注册到 AgentCore 控制平面。运行时，AgentCore 将 Agent 的 OpenTelemetry spans 作为 payload 传入，Lambda 返回包含标签（PASS/FAIL）、可选分数（0.0-1.0）和解释的字典。评估器可在三个级别运行：TRACE、TOOL_CALL 和 SESSION。

AgentCore 支持两种运行模式：按需评估（On-Demand）用于开发迭代、回归测试和 CI/CD 门禁；在线评估（Online）则持续采样生产流量，按计划周期评分。单个按需调用最多可引用 10 个评估器（含内置类型）。

中文圈视角

对于国内使用 AWS Bedrock 的团队，这个功能直接解决了 Agent 生产化中的质量验证难题。目前国内主流 Agent 平台（如阿里百炼、百度千帆、字节豆包）大多依赖大模型自身进行质量评估，缺乏灵活的代码级校验机制。Bedrock 的代码评估器允许用户用 Lambda 实现任意业务规则，例如校验金融数据精度、检测敏感信息，这对金融、医疗等强监管行业尤为重要。

不过，国内用户需要注意：Lambda 函数需要部署在 AWS 区域，且 Agent 的 trace 数据会经过 AWS 服务，涉及数据出境合规问题。对于有严格数据本地化要求的场景，可能需要考虑国内云厂商的替代方案。目前国内类似功能较少，但 ModelScope 的 Agent 评测工具链（如 EvalScope）正在发展，未来可能提供类似能力。

一个值得关注的盲点是：代码评估器与 LLM-as-a-Judge 的配合使用。国内团队往往只依赖大模型打分，忽略了确定性校验。Bedrock 的做法提示我们，Agent 质量评估应该分层：代码评估器负责“对不对”，LLM 评估器负责“好不好”。

几条值得记住的细节

评估器 Lambda 的 payload 包含 schema version、evaluator ID、evaluation level 和 OTel spans 数组。
Lambda 响应必须包含 label（PASS/FAIL），可选 score（0.0-1.0）和 explanation。
评估器可在 TRACE、TOOL_CALL、SESSION 三个级别注册，同一 Lambda 可多次注册到不同级别。
按需评估一次最多引用 10 个评估器（含内置），适合 CI/CD 门禁。
在线评估需要创建配置，指定采样率和评估器列表，按计划周期运行。

一句话总结

用 Lambda 写评估逻辑，让 Agent 输出从“听起来对”变成“合同级验证”，尤其适合金融等强合规场景。