Amazon Nova 2 Lite 物体检测：用自然语言描述物体，无需训练即可获得精确边界框

一句话看懂

Amazon Nova 2 Lite 通过 Amazon Bedrock 提供无需训练的物体检测能力，用自然语言指定物体即可返回精确边界框坐标，成本低至每张图片约 0.0005 美元。

详细发生了什么

Amazon Nova 2 Lite 是 AWS 推出的多模态基础模型，可通过 Amazon Bedrock 的 Converse API 调用。用户只需用自然语言描述要检测的物体（如“vehicle”“stop sign”），模型就会返回结构化 JSON，包含每个物体的边界框坐标（归一化 0-1000 尺度）。整个过程无需训练数据、无需 ML 专家、无需管理基础设施。

AWS 同时发布了一个完整的无服务器示例应用，使用 CloudFront、API Gateway、Lambda 和 Bedrock 构建，可在 30-45 分钟内部署。提示工程是关键——官方提供了一个模板，包含动态变量 elements 和 schema，可适应任意物体类别。

成本方面，Bedrock 定价为每千输入 token $0.0003、每千输出 token $0.0025。典型图片约 230 输入 token + 200 输出 token，每张图片成本约 $0.000569，处理 10,000 张图片仅需约 $5.69。

中文圈视角

对国内用户来说，Amazon Nova 2 Lite 目前需要通过 AWS Bedrock 访问，存在网络门槛。但它的核心价值——用自然语言做物体检测，无需训练——对中小企业、个人开发者非常有吸引力。

国内类似方案包括：

百度飞桨 PaddleDetection：需要标注数据、训练模型，门槛较高。
阿里云视觉智能平台：提供预训练模型 API，但通常按次收费，且不支持自定义物体名称。
OpenAI GPT-4V：也能做物体检测，但输出格式不固定，且成本更高。

Nova 2 Lite 的优势在于：1）输出结构化 JSON，方便程序处理；2）提示工程灵活，可动态指定物体类别；3）成本极低。但劣势是：1）需要 AWS 账号和海外访问；2）模型能力受限于 Nova 2 Lite 的视觉理解水平。

对中文用户的具体场景：

电商图片审核：检测商品图中的违禁物品（如刀具、香烟）。
文档扫描：检测表格、印章、手写区域。
安防监控：检测人、车、动物等。

需要注意的是，国内使用 AWS Bedrock 可能涉及数据出境合规问题，建议企业用户先咨询法务。

几条值得记住的细节

无需训练：只需自然语言描述物体名称，模型自动检测，零训练成本。
输出格式：归一化坐标（0-1000），需转换为像素坐标。
提示模板：官方提供动态模板，支持任意物体类别，包含 step-by-step 推理要求。
部署方式：支持 Lambda、EC2、ECS/EKS，推荐无服务器架构。
成本极低：10,000 张图片约 $5.69，适合大规模处理。

一句话总结

如果你需要快速、低成本地给图片加物体检测功能，且能接受 AWS 生态，Nova 2 Lite 是目前最省事的方案之一。