🤖 AI 跟我学 新手入门

Gemini 上传 PDF 教程:文件分析与文档问答

Gemini 上传 PDF 教程:手把手教你在 Gemini 网页/App 里上传 PDF、Word、图片做文件分析,含 Gemini 分析文档技巧和上传 PDF 避坑指南

发布 2026/05/20 📎 参考官方文档

30 秒了解:Gemini 上传 PDF 能做什么

Gemini 上传 PDF 之后,可以直接在对话框里问它「这份文档讲了什么 / 总结 5 个要点 / 找出第 12 页的那段定义 / 把财务表格拉出来」,它会基于你上传的文件作答,不再瞎编。 Gemini 3 Pro 已经支持单次上传最多 10 个文件、单文件最大 100MB、单段对话有效上下文百万 token 以上,长 PDF 也能塞进去。

支持的文件类型大致这几类:

  • 文档:PDF、Word(.docx)、PowerPoint(.pptx)、纯文本(.txt)、Markdown(.md)
  • 表格:Excel(.xlsx)、CSV
  • 图片:JPG、PNG、HEIC、WebP(自动 OCR)
  • 代码:几乎所有常见后缀(.py、.js、.go、.java、.sql 等)
  • 音视频:mp3、mp4、wav(短文件可直接转写 + 总结)

适合场景:

  • 合同审查、论文阅读、行业报告解读
  • 把财务报表 / 招股书拉成结构化数据
  • 扫描件 / 图片里的文字提取 + 翻译
  • 代码库 review、错误日志诊断
  • 把会议录音转写成纪要

下面把入口、上传步骤、5 个高频玩法、5 个常见坑讲完。

准备工作

  • 入口:Gemini 网页版 gemini.google.com、Gemini 手机 App
  • 账号:免费版即可上传,但有单次大小和数量限制;AI Plus / Pro / Ultra 解锁更大文件和更多并发
  • 上下文窗口:Gemini 3 Pro 上百万 token 上下文,一份完整的 300 页 PDF 也能塞下
  • 网络:上传速度受你本地网络影响,国内用户走加速器后建议关掉 webrtc 限速

如果你还没注册账号,先看 Gemini 登录怎么做Gemini 下载 App

详细操作步骤

第 1 步:找到上传按钮

进入 gemini.google.com,在主输入框左侧找到 「+」 按钮(部分版本是回形针 / 文件夹图标),点开会展开几个选项:

  • Upload files(上传本地文件)
  • Add from Drive(从 Google Drive 选)
  • Take a photo(手机端)

[此处放截图:主输入框左侧 + 按钮展开后的菜单]

手机 App 里在输入框左侧 + 菜单一样。

第 2 步:选文件上传

Upload files,弹出本地文件选择器,可以一次按 Shift 多选最多 10 个文件。上传过程中你能看到一个圆形进度条。

注意:

  • 单文件上限 100MB
  • PDF 单文件最多支持约 1000 页(页数太多会自动截取前部分提示)
  • 扫描版 PDF 也支持(自动走 OCR,但比电子版 PDF 慢一些)

第 3 步:等文件解析完成

上传完不要急着提问,等输入框上方的「Processing…」消失,文件状态变成 Ready

这个解析时间:

  • 1-50 页文档:5-15 秒
  • 50-200 页:15-40 秒
  • 200 页以上 / 扫描件:1-3 分钟

[此处放截图:文件解析完成状态显示]

第 4 步:开始提问

文件就绪后,正常输入问题就行。Gemini 会自动把你上传的文件当上下文。

几种常用问法:

  • 概览总结:「这份文档主要讲了什么,列 5 个核心要点」
  • 定位查询:「文档里关于『数据隐私』的部分在哪几页,原文是怎么写的」
  • 结构化提取:「把所有提到的金额、日期和合同方拉成 markdown 表格」
  • 翻译 + 总结:「把这份英文论文翻译成中文,然后用 200 字概括」
  • 追问:基于前面的回答继续追,比如「第 3 点能展开讲讲吗,给我两个 case」

第 5 步:多文件交叉对比

上传 2-3 份相关文档(比如「招股书 + 财报 + 行业研报」),Gemini 能跨文件比对:

这三份文件里对公司 2025 年营收的预测分别是多少?哪份最乐观?依据是什么?

这种「多源交叉」是 Gemini 长上下文的核心价值,比单纯一份文档问答有用得多。

5 个高级玩法

玩法 1:合同 / 协议风险审查

法务、HR 经常要看一堆合同:

📋 Prompt 模板

你是一名资深企业法务,下面是一份服务采购合同(已上传 PDF)。

请帮我做一次完整的风险审查:

  1. 列出所有对乙方不利的条款(明确条款编号 + 原文摘要)
  2. 列出违约金、保密、知识产权、争议解决相关的关键条款
  3. 找出表述模糊、定义不清的条款,建议怎么修改
  4. 整体风险等级评分(低 / 中 / 高),并给出 top 3 必改项

输出用 markdown 表格 + 简短结论。

省了 1-2 小时通读时间,先用 Gemini 过一遍再人工 review 关键点。

玩法 2:论文快速阅读

学生、研究员每周要看 5-10 篇 paper:

📋 Prompt 模板

我上传了一篇英文论文 PDF。请按这个结构帮我总结:

  1. 一句话核心贡献(用最朴素的中文)
  2. 解决了什么具体问题 / 痛点
  3. 方法核心是什么(不超过 200 字)
  4. 实验设置和数据集
  5. 主要结果(数字 + 对比 baseline)
  6. 局限性 / 未来工作
  7. 这篇论文值不值得花 2 小时精读?为什么?

中文输出,避免照搬原文术语,能口语化就口语化。

10 分钟读 10 篇 abstract 比传统精读 1 篇收益更高。

玩法 3:财务报表 / 表格拉数据

把 PDF 财报里的表格提取成结构化数据:

📋 Prompt 模板

上传的是一家公司的 2025 年年度财报 PDF。

请从中提取以下数据,整理成一份 markdown 表格:

  • 公司名称、报告期、汇报币种
  • 营业收入(同比 / 环比)
  • 净利润(同比 / 环比)
  • 毛利率、净利率、ROE
  • 经营现金流、自由现金流
  • 资产总额、负债总额、所有者权益
  • 重大事项 / 风险提示前 3 条

最后用一段话简评:这家公司财务健康吗?

投研同学、记者写稿时都用得上。

玩法 4:扫描件 OCR + 二次加工

老旧扫描合同、图片版讲义没法编辑:

📋 Prompt 模板

我上传的是一份扫描版的会议记录 PDF(共 8 页,手写+打印混合)。

请:

  1. OCR 识别所有文字(手写部分尽力辨认,不确定的地方用 ?? 标注)
  2. 按时间顺序重新整理成会议纪要:会议主题、参与人、议题、决议、待办事项 + 责任人 + 截止时间
  3. 用 markdown 格式输出
  4. 最后再生成一段 200 字的会议摘要发邮件用

输出语言:中文。

把纸质 / 图片资料数字化的最省力方式。

玩法 5:代码库 review

把 10-20 个代码文件打包上传:

📋 Prompt 模板

我上传了一个小型 Python 项目(约 15 个 .py 文件)。

请帮我做一次代码 review:

  1. 项目整体架构分析(核心模块、依赖关系)
  2. 找出潜在 bug(注明文件路径和行号)
  3. 找出性能瓶颈 / 可优化点
  4. 命名规范、代码风格问题
  5. 测试覆盖度评估
  6. 安全隐患(SQL 注入、密钥硬编码、不当输入校验等)

优先级排序:critical / high / medium / low。

入门同学的代码 review 利器,自学时尤其香。

5 个常见坑

坑 1:上传后秒没反应

文件上传 100%了,但下面一直转圈,无 Ready 状态。

解法:

  • 等 1-3 分钟,长 PDF / 扫描件解析慢
  • 关掉浏览器标签重开,文件不会丢,会自动恢复
  • 文件超过 100MB 会失败但不提示,先压缩 PDF(用 Smallpdf / iLovePDF)
  • 偶尔后台故障,刷新页面重传

坑 2:Gemini 回答里编内容(hallucination)

明明上传了文档,回答里出现文档里没有的东西。

解法:

  • prompt 末尾加一句「严格基于上传文档作答,如文档里没有明确写就回复『文档未提及』」
  • 让它附原文出处:「每个论点请附原文页码 + 关键句」
  • 对关键数字 / 法条 / 条款人工二次核对,别全信
  • 复杂任务分步问,一次问太多容易混

坑 3:表格 / 图表内容解析错

PDF 里的复杂表格、统计图,Gemini 经常读错列对应关系。

解法:

  • 表格密集的 PDF 改用 Excel / CSV 重新上传,模型对结构化数据准确率高
  • 图表(柱状图、饼图)可以单独截图上传,并问「这张图里 X 类的数值大约是多少」
  • 关键数字交叉验证:让它从原文取数 + 自己加和,对不上就重问

坑 4:长 PDF 后半段被忽略

300 页 PDF 上传后,问后 100 页内容时 Gemini 像没看到。

解法:

  • prompt 里强制定位:「请只看第 200-280 页的内容回答」
  • 把长 PDF 拆成 3-5 份小文件分批上传分批问
  • 复杂分析用 Gemini Deep Research 替代,它对长文档支持更扎实
  • 或者把核心章节摘出来重新上传

坑 5:上传文件后老对话变慢

塞了大文件后输入框响应变卡,发一句话要等十几秒。

解法:

  • 长对话定期开新窗口,把核心结论 / 关键引文复制到新对话继续
  • 用完的文件可以从对话里删除(点文件名旁的 ×)
  • 重度长文档分析改用 NotebookLM 教程 平台,专为多文档场景设计
  • 临时救急用 Gemini Notebook 在 Gemini 里直接复刻 NotebookLM 体验

Gemini 上传 PDF vs ChatGPT vs Claude vs NotebookLM

维度Gemini (上传 PDF)ChatGPT (Plus)Claude 3.7NotebookLM
单文件大小100MB32MB32MB200MB
单次文件数1010550
上下文窗口百万 token128k-200k200k海量(专为多文档)
OCR 扫描件
表格提取
多文档交叉最强
中文体验
免费可用是(限额)是(限额)
中国可用需海外网络需海外网络需海外网络需海外网络

结论

  • 单份文档快速问答 → Gemini 或 ChatGPT 都行,免费选 Gemini
  • 代码 / 长论文精细分析 → Claude(不会乱跳)
  • 几十份文档建知识库 → NotebookLM 一骑绝尘
  • 想在 Gemini 里复刻 NotebookLM → 用 Gemini Notebook 功能

更多文档分析工具对比看 NotebookLM 教程 cluster。

在中国能用吗

Gemini 文件上传跟主 Gemini 一样有地区限制。中国大陆需要海外网络环境 + Google 账号。详见 Gemini 国内可以用吗Gemini 是否可用一览

国产替代:

  • Kimi:上下文长,PDF 问答体验流畅
  • 豆包:免费、中文友好
  • 通义千问:支持文档解析、Excel 分析
  • DeepSeek:长文档代码 review 表现稳

下一步

把文件上传玩熟,接着看:

常见问题

Q:Gemini 会不会拿我上传的文件去训练模型? A:消费者版(个人账号)默认会用于改善产品。可以在「设置 → 应用活动」关掉 Gemini Apps Activity,关掉后对话和上传内容不会进入训练。企业版(Google Workspace)默认不训练。

Q:上传后文件存多久? A:在对话历史里保留,但 Google 政策是「未保存的活动 18 个月后自动删除」。要长期用建议把文件存到 Google Drive 再 Add from Drive 引入。

Q:能上传 .epub 电子书吗? A:直接不支持,但可以用 Calibre 把 epub 转 PDF / txt 后再上传,体验一样。

Q:单文件 100MB 不够用怎么办? A:用工具拆分(Smallpdf / iLovePDF)成多个小文件分批上传;或者改用 NotebookLM,单文件 200MB 且专门为多文档优化。

Q:上传后能让 Gemini 修改文件再下载吗? A:不直接支持。Gemini 只能基于文件回答,要改文件得自己复制 Gemini 的输出到 Word / Excel 里。或者用 Gemini Connected Apps 接 Google Docs,让 Gemini 直接改 Docs 文档。

Q:扫描件 OCR 出错怎么办? A:手写部分识别率本来就低于打印体。可以让 Gemini「不确定的地方标注 ??」,再人工补;或者换专业 OCR 工具(如 ABBYY、白描)先 OCR 成纯文本再上传。

Q:能问图片里的文字吗? A:可以。直接上传 PNG / JPG,Gemini 会自动做 OCR + 理解。海报、菜单、街景招牌、手写笔记都没问题。