TinyFish 发布 BigSet:开源多智能体系统,用一句话描述自动生成结构化实时数据集
TinyFish 推出 BigSet,一个开源多智能体系统,只需用自然语言描述需求,即可自动从网络搜索、提取、去重并生成结构化数据集(CSV/XLSX)。支持定时刷新,自托管部署,适合数据采集、市场调研等场景。本文详解架构、技术栈与部署步骤。
一句话看懂
TinyFish 发布开源多智能体系统 BigSet,输入一句话描述,自动从实时网络搜索并生成结构化表格数据集,支持定时刷新。
详细发生了什么
TinyFish 正式开源 BigSet(AGPL-3.0 协议),一个多智能体系统,旨在将「从网络构建结构化数据集」这一繁琐流程自动化。用户只需用一句话描述数据需求(例如「正在招聘工程师的 YC 公司,附带融资阶段、地点和职位数量」),BigSet 就会自动推断 schema、调度智能体搜索网页、去重、归因来源,最终输出 CSV 或 XLSX 文件。整个过程无需指定 URL 或配置选择器。
BigSet 采用两层智能体架构:首先由 Claude Sonnet(通过 OpenRouter)推断数据集 schema,然后由 Qwen 驱动的编排智能体进行广泛发现,再并行派发子智能体(每个实体一个)抓取网页并提取字段。每个子智能体有 6 次工具调用预算,使用 TinyFish Fetch 获取真实页面内容。系统支持定时刷新(30 分钟到每周),数据集自动保持最新。生成一个数据集通常需要 2-5 分钟。
技术栈方面,前端使用 Next.js 16 + React 19 + Tailwind 4,后端为 Fastify + TypeScript,认证使用 Clerk,数据库采用 Convex(自托管),AI 编排使用 Mastra workflows + Vercel AI SDK + OpenRouter。
中文圈视角
BigSet 对中文用户有一定实用价值,但存在几个门槛:
- 需要梯子:BigSet 依赖 TinyFish Search/Fetch(需 API key)、OpenRouter(调用 Claude/Qwen)和 Clerk(认证),这些服务在国内直接访问可能不稳定,自托管部署也需要海外服务器。
- 国产平替思路:如果无法使用 TinyFish,可以考虑用国内搜索引擎 API(如百度搜索 API)替换 TinyFish Search,用国产大模型(如 DeepSeek、Qwen 官方 API)替换 OpenRouter 中的模型,但需要修改源码。目前尚无直接对标的中文开源项目。
- 场景适用性:对于需要定期采集公开数据(如竞品价格、招聘信息、产品榜单)的国内开发者或小团队,BigSet 能大幅降低数据获取成本。但中文网页结构更复杂,反爬措施更多,实际效果需测试。
- 合规提醒:自托管意味着数据不出境,但若使用 TinyFish 或 OpenRouter 的海外服务,需注意数据出境合规。建议对敏感数据使用本地模型和搜索引擎。
几条值得记住的细节
- 部署方式:自托管,使用 Docker + Make,一条命令
make dev即可启动全部服务。 - API 费用:OpenRouter 充值 $5-10 即可开始使用,按量计费。
- 内置数据集:BigSet 附带 9 个精选数据集(如 AI 公司招聘、GPU 零售价、前沿模型定价),可通过
make seed-public-datasets加载。 - 模型可替换:schema 推断和编排模型均可通过环境变量指向任意 OpenRouter 模型。
- 数据归因:每行数据都带有来源链接,方便追溯验证。
一句话总结
BigSet 让「一句话生成结构化数据集」成为现实,适合需要频繁采集网络数据的开发者,但国内用户需解决网络和合规问题。