TinyFish 发布 BigSet：开源多智能体系统，用一句话描述自动生成结构化实时数据集

一句话看懂

TinyFish 发布开源多智能体系统 BigSet，输入一句话描述，自动从实时网络搜索并生成结构化表格数据集，支持定时刷新。

详细发生了什么

TinyFish 正式开源 BigSet（AGPL-3.0 协议），一个多智能体系统，旨在将「从网络构建结构化数据集」这一繁琐流程自动化。用户只需用一句话描述数据需求（例如「正在招聘工程师的 YC 公司，附带融资阶段、地点和职位数量」），BigSet 就会自动推断 schema、调度智能体搜索网页、去重、归因来源，最终输出 CSV 或 XLSX 文件。整个过程无需指定 URL 或配置选择器。

BigSet 采用两层智能体架构：首先由 Claude Sonnet（通过 OpenRouter）推断数据集 schema，然后由 Qwen 驱动的编排智能体进行广泛发现，再并行派发子智能体（每个实体一个）抓取网页并提取字段。每个子智能体有 6 次工具调用预算，使用 TinyFish Fetch 获取真实页面内容。系统支持定时刷新（30 分钟到每周），数据集自动保持最新。生成一个数据集通常需要 2-5 分钟。

技术栈方面，前端使用 Next.js 16 + React 19 + Tailwind 4，后端为 Fastify + TypeScript，认证使用 Clerk，数据库采用 Convex（自托管），AI 编排使用 Mastra workflows + Vercel AI SDK + OpenRouter。

中文圈视角

BigSet 对中文用户有一定实用价值，但存在几个门槛：

需要梯子：BigSet 依赖 TinyFish Search/Fetch（需 API key）、OpenRouter（调用 Claude/Qwen）和 Clerk（认证），这些服务在国内直接访问可能不稳定，自托管部署也需要海外服务器。
国产平替思路：如果无法使用 TinyFish，可以考虑用国内搜索引擎 API（如百度搜索 API）替换 TinyFish Search，用国产大模型（如 DeepSeek、Qwen 官方 API）替换 OpenRouter 中的模型，但需要修改源码。目前尚无直接对标的中文开源项目。
场景适用性：对于需要定期采集公开数据（如竞品价格、招聘信息、产品榜单）的国内开发者或小团队，BigSet 能大幅降低数据获取成本。但中文网页结构更复杂，反爬措施更多，实际效果需测试。
合规提醒：自托管意味着数据不出境，但若使用 TinyFish 或 OpenRouter 的海外服务，需注意数据出境合规。建议对敏感数据使用本地模型和搜索引擎。

几条值得记住的细节

部署方式：自托管，使用 Docker + Make，一条命令 make dev 即可启动全部服务。
API 费用：OpenRouter 充值 $5-10 即可开始使用，按量计费。
内置数据集：BigSet 附带 9 个精选数据集（如 AI 公司招聘、GPU 零售价、前沿模型定价），可通过 make seed-public-datasets 加载。
模型可替换：schema 推断和编排模型均可通过环境变量指向任意 OpenRouter 模型。
数据归因：每行数据都带有来源链接，方便追溯验证。

一句话总结

BigSet 让「一句话生成结构化数据集」成为现实，适合需要频繁采集网络数据的开发者，但国内用户需解决网络和合规问题。