🤖 AI 跟我学 新手入门

ChatGPT 怎么识图?上传图片让 AI 看懂全教程

ChatGPT 怎么识图:手把手讲清在网页和 App 里上传图片让 AI 分析的全流程,覆盖支持格式、张数限制、提问模板、OCR 识字、图表读数、菜单翻译等 8 个真实场景与避坑要点。

发布 2026/05/20 📎 参考官方文档

ChatGPT 怎么识图,这是 GPT-4o 上线之后被问得最多的问题之一。简单说:把图直接拖进对话框,加一句你想问的话,发出去就行。难的不是这个动作,而是怎么让 ChatGPT 看得准、答得到点子上——同一张菜单照片,你问「这上面写了什么」和「帮我把这份日料菜单翻译成中文并按价格排序」拿到的结果天差地别。

这篇手把手讲 ChatGPT 怎么识图:从准备一张能被「看懂」的图、到 5 个实操步骤、再到 8 个真实场景的 prompt 模板,最后是新人最容易撞上的几个坑。读完你可以把 ChatGPT 当成一个 24 小时在线的「能看图的助理」。

30 秒了解 ChatGPT 识图

ChatGPT 识图(Vision)是让你上传图片,ChatGPT 直接「看懂」图里内容并回答问题的功能。 它不是先 OCR 再交给文本模型,而是 GPT-4o 这类多模态模型直接「同时看图和读文字」,理解准确度比传统识图工具高一个档次。

它能干什么:

  • 读出图里所有文字(OCR),中英日韩手写印刷都行
  • 看懂图表(折线、柱状、饼图),读出大致数值并描述趋势
  • 描述照片里有什么人、什么物、什么场景
  • 翻译菜单、路牌、说明书
  • 看截图帮你 debug 代码、改 PPT、找 bug
  • 看身份证 / 发票等结构化文档,提取字段填表
  • 看草图、白板、便签,把手写笔记转成可编辑文本

它做不了的:诊断医学影像(CT、X 光不要给它看病),识别真人身份(出于隐私会拒答),看视频或动图的每一帧。

适合谁用:经常截图问问题的程序员、要翻译外文菜单 / 路标的旅行者、要从发票截图里抠字段的财务、要看图改 PPT 的职场人、要把孩子作业拍照求解的家长。

准备工作

开始之前先确认这几条,避免传了图发现没反应:

  • 模型要选 GPT-4o 或更高(GPT-5、GPT-5.2、o3 这类多模态模型都支持)。Free 用户默认就是 GPT-4o 但每天有次数限制;Plus 用户没这层焦虑。订阅区别可以看 ChatGPT Plus 值不值
  • 支持的格式:PNG、JPEG / JPG、非动画 GIF、WebP。动图 GIF 只会取第一帧,视频不支持。
  • 单图最大 20MB。手机直接拍的原图通常 3-8MB 没问题;专业相机的 RAW 或者高像素 PNG 截图可能超限,需要先压缩。
  • Free 每天 2 张、Plus 每天约 50 张为参考上限。具体配额 OpenAI 会按整体负载调整,看到「今天图片配额已用完」就先去看 ChatGPT 免费版 排查。
  • 国内用户:ChatGPT 在中国大陆不开放,需要自己解决网络。不想折腾可以看 ChatGPT 国内能用吗,或换成同样支持识图的国产替代如豆包、通义千问。

ChatGPT 怎么识图:5 步跑通

第 1 步:进对话页,确认当前模型

打开 chatgpt.com 或手机 App,新建一个对话。点输入框上方或左上角的模型选择器,确认选的是 GPT-4oGPT-5GPT-5.2 这类多模态模型。如果显示「GPT-3.5」是不支持识图的,必须换模型。

「此处放截图:ChatGPT 模型选择器下拉菜单,红框标注 GPT-4o」

第 2 步:把图传进对话框

三种传图方式任选:

  • 点输入框左边的回形针图标(电脑 / App 都有),从本地选图
  • 直接把图拖进对话框(仅网页版)
  • 复制 + 粘贴(截屏后 Ctrl+V / Cmd+V,最适合截程序错误页)

传成功后图会以缩略图形式出现在输入框里。一次最多可以传 10 张图,但实测同时传超过 4 张准确率明显下降,单次任务建议控制在 3 张以内

「此处放截图:ChatGPT 对话框上方出现已上传图片的缩略图」

第 3 步:把问题问到点子上

只发图不发问题,ChatGPT 会默认描述这张图——大多数时候你拿到的是一段没用的「这是一张展示了 XX 的图片」。真正决定识图质量的是你的问题。三段式问法最稳:

这张图是什么 + 我想知道什么 + 我希望什么格式回答

例如:

这张图是我们公司 Q1 销售柱状图。请告诉我同比增长最快的三个城市,按增幅从高到低列出,并用一句话点评原因。

发出去等几秒。如果是 Plus 账号、网络通畅,10 秒内能看到回答开始流式输出。

第 4 步:追问 + 让它改输出格式

ChatGPT 识图最大的优势是支持继续追问,它不会忘了刚才那张图。第一次回答不到位很正常,直接追问就行:

  • 「数字读错了,左上角那根柱子是 142 不是 124,重新算一遍」
  • 「换成 Markdown 表格输出」
  • 「再加一列『占总销售比例』」

只要你不开新对话,那张图会一直在它的上下文里,整轮对话都可以围绕这张图反复挖。

第 5 步:保存对话以便回查

识图对话的价值在「这个分析过程」,不是单次回答。点对话标题右边的菜单可以重命名 + 收藏。如果你经常做同类识图任务(例如每月发票录入),建议把跑通的对话设成模板,下次复制 prompt 改图就行。更系统的方法可以看 ChatGPT Projects 怎么用,把同类识图任务收到一个 Project 里管理。

8 个真实场景与 prompt 模板

下面 8 个场景每天都有人在用,prompt 复制走就能跑。

1. OCR 识字:把照片里的文字提出来

适合扫描合同、翻拍书页、便签手写。

📋 Prompt 模板

请把这张图里的所有文字按从上到下、从左到右的顺序逐字提取出来。

要求:

  • 保留原文换行和段落
  • 数字、日期、金额一字不差
  • 看不清的地方用 「?」 占位,并在结尾列出所有「?」的位置
  • 不要做任何解释或总结,只输出提取的文本

2. 图表读数:把柱图 / 折线图转成数据

汇报数据时最实用。

📋 Prompt 模板

这是一张「图表类型」(柱状图 / 折线图 / 饼图)。请按以下步骤分析:

  1. 列出图表标题、坐标轴含义、数据单位
  2. 把所有数据点读成一个 Markdown 表格
  3. 指出最高 / 最低、增长最快 / 下跌最快的三个数据点
  4. 用一句话总结整体趋势

如果某个数值读不准,请在该数字后标注「(估计值)」。

3. 菜单翻译:日料 / 韩餐 / 西餐看图点单

旅行场景的高频用法。

📋 Prompt 模板

这是一份外文菜单。请帮我:

  1. 把所有菜名翻译成中文,保留菜品分类
  2. 估算每道菜大致是什么(食材 + 烹饪方式)
  3. 标出价格并按从低到高排序
  4. 推荐 3 道「最值得点」的菜,说明推荐理由

输出格式:用 Markdown 表格,列依次是「中文菜名 / 主要食材 / 价格 / 推荐度(5 星制)」。

4. 代码截图 debug:把报错图发给它

程序员最常用的场景。

📋 Prompt 模板

这是我的代码运行截图,包含一个报错。请:

  1. 先把截图里的代码和报错信息原文复述一遍,确认你看清了
  2. 指出报错的根本原因(不要只翻译报错文字)
  3. 给出修复后的完整代码块
  4. 说明为什么这样改、还有什么类似的坑要避免

如果信息不足以判断,告诉我还需要补充什么截图。

5. 发票 / 票据字段提取:自动录入财务系统

财务、行政、报销场景。

📋 Prompt 模板

这是一张「票据类型」(增值税发票 / 出租车票 / 餐饮小票)。请提取以下字段并按 JSON 格式输出:

字段:开票日期、销售方名称、销售方税号、购买方名称、购买方税号、金额(不含税)、税额、价税合计、发票号码、发票代码

要求:

  • 严格按照图中显示提取,不要推断
  • 任何看不清的字段值填 「需人工核对」
  • 金额数字保留两位小数

只输出 JSON,不要任何解释。

6. 截图改 PPT:让 AI 给你设计建议

设计苦手的救命用法。

📋 Prompt 模板

这是我做的一页 PPT 的截图。请从「内容 + 视觉 + 排版」三个维度给我反馈:

  1. 内容:信息层级清不清楚?有没有冗余 / 缺失的信息?
  2. 视觉:配色、字体大小、留白是否舒服?哪里最影响阅读?
  3. 排版:标题、正文、配图的位置关系是否合理?

每个维度给 1 条最重要的建议 + 1 条加分项。要具体、可执行,不要说「建议简洁清晰」这种废话。

7. 草图变结构:把白板照片转成 Mermaid 图

会议结束后的「神器」。

📋 Prompt 模板

这是一张会议白板 / 草图的照片,画的是一个「流程图 / 架构图 / 思维导图」。请:

  1. 用一段中文描述这张图的整体结构和核心节点
  2. 把它转成 Mermaid 代码,可以直接复制到 Notion / Obsidian 里渲染
  3. 如果原图有手写注释或箭头标签,全部保留进 Mermaid

输出顺序:先文字描述,后 Mermaid 代码块。

8. 作业辅导:拍照求解题思路

家长场景,要让它讲思路而不是直接给答案。

📋 Prompt 模板

这是孩子的「学科」(数学 / 物理 / 英语)作业题。请:

  1. 把题目原文转写成文字(包括所有公式和图示描述)
  2. 不要直接给答案。先讲解题思路:用了哪个知识点、为什么这么想
  3. 把解题过程分成 3-4 步,每步问一个引导问题,让孩子自己思考
  4. 最后给出正确答案,用一句话说明易错点

语气友好但不要装可爱,像一位认真的老师。

常见坑 + 解决办法

现象原因解决
上传按钮是灰的当前模型不支持识图切换到 GPT-4o / GPT-5 系列
提示「图片太大」单图超过 20MB用系统截图工具截 PNG,或在线压缩到 5MB 内
提示「今日图片配额已用完」Free 用户每日 2 张上限等次日重置,或升级 Plus
数字 / 字母被读错图片分辨率太低或反光重拍:垂直拍摄、光线均匀、对焦清楚
说「我看不清这张图」图过曝、过暗、角度太斜调亮 / 调正后重传,加一句「请尽力辨认,看不清的标 ?」
拒绝识别人脸涉及真人识别政策改问「图中人物的穿着、表情、动作」绕开身份判断
一次传 5 张以上越答越乱多图上下文混淆拆成多轮对话,每次最多 3 张
中文手写识不出草书 / 连笔超出训练范围让它「猜最可能的几个字」并标出置信度
翻译菜单价格读错价格字小或带特殊符号追问「请只看价格那一列,重新读一遍」

实战案例:把一张外文路牌读懂

下面跑一个真实可复制的案例,演示「识图 + 追问 + 输出格式调整」的完整链路。假设你在京都街头拍了一张日文路牌,想知道往哪个方向走能到清水寺。

第一轮,把图传上去后发:

📋 Prompt 模板

这是我在京都拍的一张路牌照片。请帮我:

  1. 把路牌上所有日文文字提取出来
  2. 翻译成中文
  3. 告诉我如果想去「清水寺」该走哪个方向(直行 / 左转 / 右转)

如果图里没有清水寺相关指引,直接说没看到。

ChatGPT 会输出类似「左侧箭头:清水寺 800m / 右侧箭头:京都站 1.2km / 直行:祇园 400m」的结构化结果。

第二轮如果你看到的是另一张含有营业时间的店招照片,可以追问:

我又拍了一张这家店门口的招牌,请告诉我营业时间、是否有中文菜单、周几休息。

ChatGPT 会在新图上继续工作。同一对话里所有图都在它的上下文中,可以反复对比和追问,这是 ChatGPT 识图比单纯 OCR 工具强很多的核心原因。

下一步:把识图融进你的工作流

ChatGPT 识图本身只是入口,真正提效要靠和其他功能组合。下面这几个方向都值得继续看:

最后一句实话:ChatGPT 识图准确度已经超过了 95% 的传统 OCR 工具,但它的强项不是「认字最准」,而是「认字之后还能理解、追问、改格式」。一旦你用顺了,会很难再回到「截图—粘到 OCR—复制到翻译—再粘到 Word」的老工作流。