AI 生成 Excel 数据:批量造测试表 prompt 模板
AI 生成 Excel 数据完整教程:用一句话让 AI 帮你批量造测试数据、模拟数据,含 6 个真实场景 prompt 模板、3 种工具对比和"假得不像假"的脱敏技巧
你接到一个活:要给销售部新做的报表 demo 准备一份”看起来像真的”的销售数据,500 行、含日期、销售员、商品、金额、地区……手动敲 500 行能敲到手指抽筋;用 Excel 的 RANDBETWEEN 又只能造数字,造不出”张三、李四”这种像样的姓名。这时候让 AI 生成 Excel 数据,是最省事的办法。
用一句大白话描述你要什么样的表,AI 直接返回 CSV 文本,复制粘进 Excel 就是一张能用的测试表。Anthropic 官方有个叫 Spreadsheet Sorcerer 的 prompt 模板专门做这件事,本文把它改写成中文版,再加上 6 个真实场景模板。
什么时候需要”假数据”
3 个最常见场景:
- 做 demo / 试报表模板:真实数据涉密拿不出来,需要一份”长得像但全是编的”
- 测公式 / 透视表逻辑:要先把规则跑通再切真数据,免得线上数据出错
- 培训 / 教学:给同事讲 VLOOKUP 怎么用,需要一份完整的练习表
传统做法的 3 个坑:
- RANDBETWEEN 只能造数字:姓名、地址、商品名都造不出来
- Excel Power Query 假数据生成器:要装插件、要写 M 语言,门槛高
- 网上下载的 Mock 数据:英文居多,业务场景对不上
让 AI 直接造,30 秒出一张 500 行的中文测试表,列结构按你描述的来,数据看起来还挺真。
用哪个工具
| 工具 | 上限行数 | 中文支持 | 国内可用 | 备注 |
|---|---|---|---|---|
| Claude(Sonnet/Opus) | 单次约 500 行 | 优秀 | 需代理 | 输出最稳,CSV 格式工整 |
| ChatGPT GPT-5 | 单次约 500 行 | 优秀 | 需代理 | 偶尔忘列对齐,要追问 |
| 豆包 / Kimi | 单次约 300 行 | 优秀 | 直接可用 | 适合中等量级,免费 |
| WPS AI | 单次约 200 行 | 良好 | 直接可用 | 在 WPS 里能直接落到单元格 |
如果你已经订阅 Claude,看 Claude for Excel 插件教程 用插件直接在表里生成。国内没代理,下面的 prompt 套到豆包 / Kimi 也能跑。
万能 prompt:Spreadsheet Sorcerer 中文版
下面这段基于 Anthropic 官方 Spreadsheet Sorcerer 改写,套到任何 AI 都能用。
你是一位资深的测试数据生成专家,专门负责为业务系统、报表 demo、培训场景批量造”假但合理”的中文测试数据。
我的需求:
- 数据用途:[比如「销售报表 demo」「VLOOKUP 教学练习」]
- 行数:[比如 100 / 500 / 1000]
- 列结构:[列出每一列的列名 + 数据类型 + 取值范围]
- 业务约束:[比如「金额要符合二八定律:20% 行金额超过 10000」]
请按以下格式输出:
第一行:列名(用英文逗号分隔) 第二行起:数据行(用英文逗号分隔,每行一条记录)
要求:
- 输出纯 CSV 文本,不要 markdown 表格、不要代码块包裹
- 不要在 CSV 前后写任何解释、注释、标题
- 中文字符直接输出,不要转义
- 日期统一用 2026-MM-DD 格式
- 金额、数量用纯数字,不要带千分位、不要带”元”
- 字符串中如果含逗号,整个字段用英文双引号包裹
- 姓名用真实的中文姓名(张/李/王/刘/陈/杨/赵/黄/周/吴 + 常见双字名)
- 地址用真实省市区组合(北京/上海/广州/深圳/杭州/成都/武汉/西安/南京/苏州)
- 商品名用真实品牌(如 iPhone 16 / 华为 Pura 80 / 小米 15 Pro / MacBook Air M4)
业务约束细则: [在这里写具体的分布约束,比如「张三的订单占 30%、华北区订单占 40%」]
把这段粘到 AI,把方括号里的内容换成你的真实需求。AI 输出 CSV 后,新建一个 Excel 文件,「数据 - 自文本/CSV」导入即可。
6 个真实场景示例
场景 1:销售明细表(500 行)
需求:做销售报表 demo,要 500 行销售明细,含订单日期、销售员、区域、商品、单价、数量、总额。
把万能 prompt 的方括号填上:
我的需求:
- 数据用途:销售报表 demo
- 行数:500
- 列结构: · OrderID(订单号,格式 SO20260501-001 这种自增编号) · OrderDate(订单日期,2026-01-01 到 2026-05-31 之间随机) · SalesPerson(销售员姓名,10 个人轮转) · Region(区域,华北/华东/华南/华中/西部 5 个值随机) · Product(商品名,从 8 个真实手机/笔电品牌随机) · UnitPrice(单价,与商品对应,比如 iPhone 16 = 6999、MacBook Air = 9999) · Quantity(数量,1-10 随机) · TotalAmount(总额,单价 乘以 数量)
业务约束:
- 8 个商品中 iPhone 16 出现概率最高(占 30%)
- 销售员王芳订单数最多(占 25%)
- 华东区订单占 35%
- 6-7 月(618 大促期间)订单密度是其他月份的 2 倍
AI 输出 CSV,直接粘进 Excel。一张能跑 VLOOKUP、SUMIFS、数据透视表、AI 公式(AI 写 Excel 公式)的练习表就有了。
场景 2:员工信息表(HR demo)
需求:HR 系统 demo,要 200 行员工信息。
- 数据用途:HR 系统员工档案 demo
- 行数:200
- 列结构: · EmpID(工号,E0001 到 E0200 自增) · Name(姓名,真实中文姓名) · Gender(性别,男/女) · BirthDate(出生日期,1975-01-01 到 2002-12-31 随机) · HireDate(入职日期,2015-01-01 到 2026-05-01 随机,且要晚于 BirthDate 加 22 年) · Department(部门:技术/产品/设计/市场/销售/HR/财务/法务) · Position(职位:工程师/高级工程师/经理/总监,与部门匹配) · BaseSalary(月基本工资,按职位级别 8000/15000/25000/40000) · City(工作城市,北京/上海/广州/深圳/杭州/成都)
业务约束:
- 技术部门占 40%
- 北京 + 上海占 60%
- 总监级别只占 5%
这份表配合 DATEDIF 函数可以直接做工龄分析(看 Excel 日期计算 AI 教程)。
场景 3:电商订单表(含异常数据)
测试报表对异常数据的处理,故意让 AI 造一些”脏数据”:
- 数据用途:测试报表的脏数据兼容性
- 行数:300
- 列结构:OrderID, CustomerName, Phone, Email, Amount, Status
业务约束(故意造异常):
- 5% 的 Phone 字段是空白
- 3% 的 Email 字段格式错误(缺@或缺.com)
- 2% 的 Amount 是负数(表示退款)
- 1% 的 OrderID 重复(测试去重逻辑,看 AI 去重教程)
- CustomerName 有 10% 带前后空格
- Status 字段:已支付/待支付/已退款/已取消,比例 7:1:1:1
这种”脏数据”可以测 Excel 去重 AI 教程 和数据清洗逻辑。
场景 4:财务流水表(含科目)
- 数据用途:财务系统月度流水 demo
- 行数:1000
- 列结构: · TxnDate(交易日期,2026-04-01 到 2026-04-30) · Subject(会计科目:销售收入/服务收入/采购支出/工资支出/房租/水电/差旅/办公) · Amount(金额,收入类为正,支出类为负) · Department(部门:技术/销售/市场/行政) · Description(摘要,一句话说明,如「向 XX 公司采购服务器」)
业务约束:
- 收入类记录占 30%,支出类占 70%
- 单条最大金额不超过 50 万
- 工资支出仅在月末 5 天集中
场景 5:物流追踪表
- 数据用途:物流系统轨迹追踪 demo
- 行数:200
- 列结构: · TrackingNo(运单号,SF + 12 位数字) · SenderCity / ReceiverCity(发件 / 收件城市) · ShipDate(发货日期) · DeliveredDate(送达日期,正常 1-3 天后,跨区 4-7 天) · Status(运输中 / 已签收 / 派送失败 / 退回) · Weight(重量,0.1-30 kg) · Freight(运费,按重量 + 跨区计算)
业务约束:
- 80% 已签收,15% 运输中,5% 派送失败或退回
- 同城 1 天送达,跨省 2-3 天,新疆/西藏 5-7 天
场景 6:用户行为日志(产品分析)
- 数据用途:产品用户行为分析 demo
- 行数:2000
- 列结构: · UserID(U00001 到 U00500,500 个用户) · EventTime(事件时间,2026-05-01 00:00 到 2026-05-31 23:59) · EventName(事件名:register / login / view_product / add_to_cart / purchase / logout) · Platform(iOS / Android / Web,比例 4:4:2) · Duration(停留时长秒,5-3600 之间)
业务约束:
- register 事件只出现一次(每个用户首次)
- 10% 的用户完成了 purchase
- login 事件最多
- 周末(5/2、5/3、5/9、5/10 等)事件量是工作日 1.5 倍
这种用户行为表配合数据透视表能直接出留存漏斗,比手敲快 100 倍。
手把手 4 步走
第 1 步:先把列结构想清楚
不要直接发”帮我造 500 行销售数据”。先在草稿纸上写:
- 我要哪些列
- 每列是什么数据类型(日期 / 数字 / 字符串)
- 每列的取值范围 / 枚举值
- 列与列之间有什么约束(比如 TotalAmount = UnitPrice 乘以 Quantity)
列结构越清楚,AI 输出质量越高。
第 2 步:填好 prompt 发给 AI
把上面的万能 prompt 填好。如果你要的行数超过 500,分批生成:先要 500 行,再发”继续给我 500 行,订单号从 SO20260501-501 继续”,最后合并。
第 3 步:CSV 导入 Excel
3 种导入方式:
- 新建 Excel - 数据 - 自文本/CSV - 粘贴(最稳)
- 复制 CSV 直接粘到 A1:Excel 会自动按逗号分列(如果没分,选中 A 列 - 数据 - 分列 - 逗号)
- 存成 .csv 文件后双击打开:Excel 自动识别
注意编码:AI 输出的 CSV 是 UTF-8 编码,Excel 默认按 GBK 打开会乱码。用 Excel 的数据导入向导能选 UTF-8,或者用 CSV/JSON 互转教程 里的方法转码。
第 4 步:检查 + 微调
AI 造的数据 95% 能用,5% 要检查:
- 总行数对不对(有时 AI 偷懒少给)
- 日期范围是不是按要求的
- 业务约束有没有违反(用 COUNTIF / SUMIFS 抽查)
不对的列让 AI 重造,或者直接在 Excel 里用 RANDBETWEEN 补救。
5 个让 AI 造数据更”像真的”的技巧
技巧 1:给 AI 看真实数据样本
把真实表的前 3 行(脱敏后)粘到 prompt 里:“参考这个格式造 500 行类似的”。AI 一眼能学到列结构、数据格式、字段长度。
技巧 2:明确”分布”而不是”范围”
不要说”金额在 100 到 10000 之间随机”——这样造出来是均匀分布,不像真实业务。改成”金额符合二八定律:80% 在 100-1000,20% 在 1000-10000”,AI 会用近似正态/幂律分布。
技巧 3:要求”加噪声”
真实数据有缺失值、有错别字、有格式不一致。让 AI 故意造 3-5% 的脏数据(空白、错别字、格式异常),测出来的报表更靠谱。
技巧 4:用脱敏的方式造”敏感”数据
不要让 AI 造真实手机号、身份证号、银行卡号(涉合规)。让 AI 用占位符(138xxxx1234 / 110101xxxx0101)或者随机 ID(U00001 这种)替代。
技巧 5:用 SHA1 占位测脱敏链路
如果你要测”加密手机号入库”链路,让 AI 直接输出 40 位 SHA1 字符串(如 a3f5d8…)做占位,比让 AI 造真手机号更安全。
一个常见失败案例 + 怎么救
失败场景:发”帮我造 1000 行销售数据”,AI 给了 100 行就停了,且列结构跟你预期不一致。
救援步骤:
- 少要点:第一次只让 AI 给 50 行,确认列结构和格式对了再扩大
- 指定列名:在 prompt 里写”第一行表头必须是:OrderID, OrderDate, …”AI 就不会自由发挥
- 分批要:500 行以上分 2-3 次要,每次明确”从第 X 条编号继续”
- 明确格式:写”输出纯 CSV,不要 markdown 表格、不要代码块包裹”,否则 AI 喜欢用三个反引号包起来
记住一句话:AI 造数据要的是”明确的列结构 + 明确的约束 + 合理的行数”,三件事说全了才能造出能用的表。
进阶玩法 + 类似场景
进阶玩法 1:让 AI 同时造 2-3 张关联表
做关联报表 demo 时,让 AI 一次造”主表 + 维表”:
- 商品库表(100 行,含商品 ID、名称、单价、品类)
- 销售订单表(1000 行,引用商品 ID)
- 客户表(200 行,引用客户 ID)
这样可以直接用 Excel VLOOKUP AI 串起 3 张表跑透视。
进阶玩法 2:直接生成 JSON 测试数据
不要 CSV 要 JSON 也行。把 prompt 里”输出纯 CSV”改成”输出 JSON 数组”,AI 给一个能直接喂给后端 API 的 mock JSON。需要 CSV 和 JSON 互转的话看 CSV/JSON 互转教程。
进阶玩法 3:用 Apps Script 自动化
如果数据要直接落到 Google Sheets,让 AI 写一段 Apps Script,每周一自动生成新一批 demo 数据。看 Google Sheets Apps Script AI 教程。
类似场景
- AI 写 Excel 公式完整教程
- Excel 去重 AI 实操
- Excel 表头规整 AI
- Excel 拆分单元格 AI 实操
- CSV/JSON 互转:AI 数据格式转换
- Claude prompt 库中文版
常见问题
Q:AI 造的数据能商用吗? A:商用 demo / 培训 / 内部测试都没问题。不要拿 AI 造的”假数据”当真实数据对外公布——比如发新闻稿、做行业报告,那是数据造假。
Q:能造 1 万行以上吗? A:单次最多 500-1000 行。要 1 万行,分 20 次让 AI 造,最后用 Excel 合并表 AI 教程 拼起来。或者让 AI 写一段 Python / Apps Script,本地循环生成。
Q:AI 造的姓名会不会撞真人? A:极小概率撞名(中文姓名同名很常见)。如果担心,让 AI 把姓名改成”用户 A、用户 B、用户 C…”这种纯占位的形式。
Q:CSV 导入 Excel 中文乱码怎么办? A:Excel 直接双击 .csv 会按 GBK 打开导致乱码。正确做法:新建 Excel - 数据 - 自文本/CSV - 选文件 - 编码选「65001:Unicode (UTF-8)」。
Q:能让 AI 直接造一个 .xlsx 文件吗? A:纯文本对话的 AI(豆包 / Kimi 网页版)造不了 .xlsx 二进制文件,只能给 CSV。Claude / ChatGPT 的 Code Interpreter 模式能用 pandas + openpyxl 直接生成 .xlsx 给你下载。