ChatGPT 怎么识图？上传图片让 AI 看懂全教程

ChatGPT 怎么识图，这是 GPT-4o 上线之后被问得最多的问题之一。简单说：把图直接拖进对话框，加一句你想问的话，发出去就行。难的不是这个动作，而是怎么让 ChatGPT 看得准、答得到点子上——同一张菜单照片，你问「这上面写了什么」和「帮我把这份日料菜单翻译成中文并按价格排序」拿到的结果天差地别。

这篇手把手讲 ChatGPT 怎么识图：从准备一张能被「看懂」的图、到 5 个实操步骤、再到 8 个真实场景的 prompt 模板，最后是新人最容易撞上的几个坑。读完你可以把 ChatGPT 当成一个 24 小时在线的「能看图的助理」。

30 秒了解 ChatGPT 识图

ChatGPT 识图（Vision）是让你上传图片，ChatGPT 直接「看懂」图里内容并回答问题的功能。 它不是先 OCR 再交给文本模型，而是 GPT-4o 这类多模态模型直接「同时看图和读文字」，理解准确度比传统识图工具高一个档次。

它能干什么：

读出图里所有文字（OCR），中英日韩手写印刷都行
看懂图表（折线、柱状、饼图），读出大致数值并描述趋势
描述照片里有什么人、什么物、什么场景
翻译菜单、路牌、说明书
看截图帮你 debug 代码、改 PPT、找 bug
看身份证 / 发票等结构化文档，提取字段填表
看草图、白板、便签，把手写笔记转成可编辑文本

它做不了的：诊断医学影像（CT、X 光不要给它看病），识别真人身份（出于隐私会拒答），看视频或动图的每一帧。

适合谁用：经常截图问问题的程序员、要翻译外文菜单 / 路标的旅行者、要从发票截图里抠字段的财务、要看图改 PPT 的职场人、要把孩子作业拍照求解的家长。

准备工作

开始之前先确认这几条，避免传了图发现没反应：

模型要选 GPT-4o 或更高（GPT-5、GPT-5.2、o3 这类多模态模型都支持）。Free 用户默认就是 GPT-4o 但每天有次数限制；Plus 用户没这层焦虑。订阅区别可以看 ChatGPT Plus 值不值。
支持的格式：PNG、JPEG / JPG、非动画 GIF、WebP。动图 GIF 只会取第一帧，视频不支持。
单图最大 20MB。手机直接拍的原图通常 3-8MB 没问题；专业相机的 RAW 或者高像素 PNG 截图可能超限，需要先压缩。
Free 每天 2 张、Plus 每天约 50 张为参考上限。具体配额 OpenAI 会按整体负载调整，看到「今天图片配额已用完」就先去看 ChatGPT 免费版排查。
国内用户：ChatGPT 在中国大陆不开放，需要自己解决网络。不想折腾可以看 ChatGPT 国内能用吗，或换成同样支持识图的国产替代如豆包、通义千问。

ChatGPT 怎么识图：5 步跑通

第 1 步：进对话页，确认当前模型

打开 chatgpt.com 或手机 App，新建一个对话。点输入框上方或左上角的模型选择器，确认选的是 GPT-4o、GPT-5、GPT-5.2 这类多模态模型。如果显示「GPT-3.5」是不支持识图的，必须换模型。

「此处放截图：ChatGPT 模型选择器下拉菜单，红框标注 GPT-4o」

第 2 步：把图传进对话框

三种传图方式任选：

点输入框左边的回形针图标（电脑 / App 都有），从本地选图
直接把图拖进对话框（仅网页版）
复制 + 粘贴（截屏后 Ctrl+V / Cmd+V，最适合截程序错误页）

传成功后图会以缩略图形式出现在输入框里。一次最多可以传 10 张图，但实测同时传超过 4 张准确率明显下降，单次任务建议控制在 3 张以内。

「此处放截图：ChatGPT 对话框上方出现已上传图片的缩略图」

第 3 步：把问题问到点子上

只发图不发问题，ChatGPT 会默认描述这张图——大多数时候你拿到的是一段没用的「这是一张展示了 XX 的图片」。真正决定识图质量的是你的问题。三段式问法最稳：

这张图是什么 + 我想知道什么 + 我希望什么格式回答

例如：

这张图是我们公司 Q1 销售柱状图。请告诉我同比增长最快的三个城市，按增幅从高到低列出，并用一句话点评原因。

发出去等几秒。如果是 Plus 账号、网络通畅，10 秒内能看到回答开始流式输出。

第 4 步：追问 + 让它改输出格式

ChatGPT 识图最大的优势是支持继续追问，它不会忘了刚才那张图。第一次回答不到位很正常，直接追问就行：

「数字读错了，左上角那根柱子是 142 不是 124，重新算一遍」
「换成 Markdown 表格输出」
「再加一列『占总销售比例』」

只要你不开新对话，那张图会一直在它的上下文里，整轮对话都可以围绕这张图反复挖。

第 5 步：保存对话以便回查

识图对话的价值在「这个分析过程」，不是单次回答。点对话标题右边的菜单可以重命名 + 收藏。如果你经常做同类识图任务（例如每月发票录入），建议把跑通的对话设成模板，下次复制 prompt 改图就行。更系统的方法可以看 ChatGPT Projects 怎么用，把同类识图任务收到一个 Project 里管理。

8 个真实场景与 prompt 模板

下面 8 个场景每天都有人在用，prompt 复制走就能跑。

1. OCR 识字：把照片里的文字提出来

适合扫描合同、翻拍书页、便签手写。

📋 Prompt 模板

请把这张图里的所有文字按从上到下、从左到右的顺序逐字提取出来。

要求：

保留原文换行和段落
数字、日期、金额一字不差
看不清的地方用「？」占位，并在结尾列出所有「？」的位置
不要做任何解释或总结，只输出提取的文本

2. 图表读数：把柱图 / 折线图转成数据

汇报数据时最实用。

📋 Prompt 模板

这是一张「图表类型」（柱状图 / 折线图 / 饼图）。请按以下步骤分析：

列出图表标题、坐标轴含义、数据单位
把所有数据点读成一个 Markdown 表格
指出最高 / 最低、增长最快 / 下跌最快的三个数据点
用一句话总结整体趋势

如果某个数值读不准，请在该数字后标注「（估计值）」。

3. 菜单翻译：日料 / 韩餐 / 西餐看图点单

旅行场景的高频用法。

📋 Prompt 模板

这是一份外文菜单。请帮我：

把所有菜名翻译成中文，保留菜品分类
估算每道菜大致是什么（食材 + 烹饪方式）
标出价格并按从低到高排序
推荐 3 道「最值得点」的菜，说明推荐理由

输出格式：用 Markdown 表格，列依次是「中文菜名 / 主要食材 / 价格 / 推荐度（5 星制）」。

4. 代码截图 debug：把报错图发给它

程序员最常用的场景。

📋 Prompt 模板

这是我的代码运行截图，包含一个报错。请：

先把截图里的代码和报错信息原文复述一遍，确认你看清了
指出报错的根本原因（不要只翻译报错文字）
给出修复后的完整代码块
说明为什么这样改、还有什么类似的坑要避免

如果信息不足以判断，告诉我还需要补充什么截图。

5. 发票 / 票据字段提取：自动录入财务系统

财务、行政、报销场景。

📋 Prompt 模板

这是一张「票据类型」（增值税发票 / 出租车票 / 餐饮小票）。请提取以下字段并按 JSON 格式输出：

字段：开票日期、销售方名称、销售方税号、购买方名称、购买方税号、金额（不含税）、税额、价税合计、发票号码、发票代码

要求：

严格按照图中显示提取，不要推断
任何看不清的字段值填「需人工核对」
金额数字保留两位小数

只输出 JSON，不要任何解释。

6. 截图改 PPT：让 AI 给你设计建议

设计苦手的救命用法。

📋 Prompt 模板

这是我做的一页 PPT 的截图。请从「内容 + 视觉 + 排版」三个维度给我反馈：

内容：信息层级清不清楚？有没有冗余 / 缺失的信息？
视觉：配色、字体大小、留白是否舒服？哪里最影响阅读？
排版：标题、正文、配图的位置关系是否合理？

每个维度给 1 条最重要的建议 + 1 条加分项。要具体、可执行，不要说「建议简洁清晰」这种废话。

7. 草图变结构：把白板照片转成 Mermaid 图

会议结束后的「神器」。

📋 Prompt 模板

这是一张会议白板 / 草图的照片，画的是一个「流程图 / 架构图 / 思维导图」。请：

用一段中文描述这张图的整体结构和核心节点
把它转成 Mermaid 代码，可以直接复制到 Notion / Obsidian 里渲染
如果原图有手写注释或箭头标签，全部保留进 Mermaid

输出顺序：先文字描述，后 Mermaid 代码块。

8. 作业辅导：拍照求解题思路

家长场景，要让它讲思路而不是直接给答案。

📋 Prompt 模板

这是孩子的「学科」（数学 / 物理 / 英语）作业题。请：

把题目原文转写成文字（包括所有公式和图示描述）
不要直接给答案。先讲解题思路：用了哪个知识点、为什么这么想
把解题过程分成 3-4 步，每步问一个引导问题，让孩子自己思考
最后给出正确答案，用一句话说明易错点

语气友好但不要装可爱，像一位认真的老师。

常见坑 + 解决办法

现象	原因	解决
上传按钮是灰的	当前模型不支持识图	切换到 GPT-4o / GPT-5 系列
提示「图片太大」	单图超过 20MB	用系统截图工具截 PNG，或在线压缩到 5MB 内
提示「今日图片配额已用完」	Free 用户每日 2 张上限	等次日重置，或升级 Plus
数字 / 字母被读错	图片分辨率太低或反光	重拍：垂直拍摄、光线均匀、对焦清楚
说「我看不清这张图」	图过曝、过暗、角度太斜	调亮 / 调正后重传，加一句「请尽力辨认，看不清的标 ?」
拒绝识别人脸	涉及真人识别政策	改问「图中人物的穿着、表情、动作」绕开身份判断
一次传 5 张以上越答越乱	多图上下文混淆	拆成多轮对话，每次最多 3 张
中文手写识不出	草书 / 连笔超出训练范围	让它「猜最可能的几个字」并标出置信度
翻译菜单价格读错	价格字小或带特殊符号	追问「请只看价格那一列，重新读一遍」

实战案例：把一张外文路牌读懂

下面跑一个真实可复制的案例，演示「识图 + 追问 + 输出格式调整」的完整链路。假设你在京都街头拍了一张日文路牌，想知道往哪个方向走能到清水寺。

第一轮，把图传上去后发：

📋 Prompt 模板

这是我在京都拍的一张路牌照片。请帮我：

把路牌上所有日文文字提取出来
翻译成中文
告诉我如果想去「清水寺」该走哪个方向（直行 / 左转 / 右转）

如果图里没有清水寺相关指引，直接说没看到。

ChatGPT 会输出类似「左侧箭头：清水寺 800m / 右侧箭头：京都站 1.2km / 直行：祇园 400m」的结构化结果。

第二轮如果你看到的是另一张含有营业时间的店招照片，可以追问：

我又拍了一张这家店门口的招牌，请告诉我营业时间、是否有中文菜单、周几休息。

ChatGPT 会在新图上继续工作。同一对话里所有图都在它的上下文中，可以反复对比和追问，这是 ChatGPT 识图比单纯 OCR 工具强很多的核心原因。

下一步：把识图融进你的工作流

ChatGPT 识图本身只是入口，真正提效要靠和其他功能组合。下面这几个方向都值得继续看：

想让 ChatGPT 主动看图、定时给你做分析 → 看 ChatGPT Tasks 怎么用
想让 ChatGPT 一边看图一边动手编辑 → 看 ChatGPT 编辑图片怎么用
想用语音 + 摄像头实时识图（看一眼问一句） → 看 ChatGPT 语音怎么用
想把识图任务模板化、长期复用 → 看 ChatGPT Projects 怎么用
想系统学怎么写 prompt 让识图更准 → 看 Prompt 工程入门
想看 ChatGPT 所有能力的全景 → 从 ChatGPT 能做什么看起

最后一句实话：ChatGPT 识图准确度已经超过了 95% 的传统 OCR 工具，但它的强项不是「认字最准」，而是「认字之后还能理解、追问、改格式」。一旦你用顺了，会很难再回到「截图—粘到 OCR—复制到翻译—再粘到 Word」的老工作流。