AI 快讯 编译自 nvidia_developer #模型发布#多模态AI#企业部署

Step 3.7 Flash 登陆 NVIDIA GPU:198B 参数多模态模型企业级部署指南

StepFun 发布 Step 3.7 Flash 多模态 AI 模型,198B 参数,支持图像、文档、视频实时推理,现已可在 NVIDIA GPU 上部署。本文解读模型能力、企业级特性及对中文开发者的实用价值。

编译发布 2026/05/29 原文发布 2026/05/29

一句话看懂

StepFun 推出 198B 参数的 Step 3.7 Flash 多模态模型,可在 NVIDIA GPU 上运行,支持图像、文档、视频实时推理,面向企业级生产环境。

详细发生了什么

StepFun(阶跃星辰)发布了最新多模态 AI 模型 Step 3.7 Flash,拥有 198B 参数,专为实时处理图像、文档、视频和语言而设计。该模型已针对 NVIDIA GPU 优化,可在 NVIDIA 加速基础设施上部署,支持企业级生产环境。

Step 3.7 Flash 的核心能力包括:多模态理解(同时处理文本、图像、视频)、实时推理(低延迟响应)、以及企业级特性(高可用性、安全性、可扩展性)。模型采用 MoE(混合专家)架构,在保持高性能的同时降低计算成本。NVIDIA 的 TensorRT-LLM 和 Triton Inference Server 提供了优化支持,确保在 A100、H100 等 GPU 上高效运行。

中文圈视角

对中文开发者而言,Step 3.7 Flash 的发布有几点值得关注:

  1. 国产模型新选择:StepFun 是国内 AI 公司,模型在中文场景有天然优势,无需翻墙即可通过 API 或本地部署使用。相比 OpenAI GPT-4o 或 Anthropic Claude 3.5,Step 3.7 Flash 在中文多模态任务(如文档 OCR、视频理解)上可能表现更优。

  2. 企业部署门槛低:模型已适配 NVIDIA GPU,国内云厂商(如阿里云、腾讯云)的 NVIDIA 实例可直接部署,无需额外适配。对于金融、医疗、教育等需要数据合规的行业,本地部署比调用海外 API 更安全。

  3. 平替方案对比:国内同类模型如智谱 GLM-4V、百度文心一言 4.0 也支持多模态,但 Step 3.7 Flash 的 198B 参数规模更大,理论上复杂推理能力更强。不过实际效果需等评测。

  4. 中文圈盲点:多数讨论聚焦于文本模型,多模态视频理解仍是蓝海。Step 3.7 Flash 的实时视频处理能力可用于监控分析、视频内容审核等场景,国内相关应用较少。

几条值得记住的细节

  • 模型参数量:198B,采用 MoE 架构,推理时只激活部分参数,降低计算成本。
  • 支持模态:文本、图像、文档、视频,可实现跨模态搜索与推理。
  • 部署环境:NVIDIA A100/H100 GPU,通过 TensorRT-LLM 和 Triton Inference Server 优化。
  • 企业特性:提供高可用性、安全隔离、弹性扩展,适合生产环境。
  • 可用性:模型权重和 API 已开放,开发者可通过 NVIDIA NIM 或 StepFun 官方平台获取。

一句话总结

Step 3.7 Flash 让国内开发者无需依赖海外 API,即可在自有 GPU 上部署强大的多模态 AI,适合对数据安全要求高的企业场景。