Gemini 上传 PDF 教程：文件分析与文档问答

30 秒了解：Gemini 上传 PDF 能做什么

Gemini 上传 PDF 之后，可以直接在对话框里问它「这份文档讲了什么 / 总结 5 个要点 / 找出第 12 页的那段定义 / 把财务表格拉出来」，它会基于你上传的文件作答，不再瞎编。 Gemini 3 Pro 已经支持单次上传最多 10 个文件、单文件最大 100MB、单段对话有效上下文百万 token 以上，长 PDF 也能塞进去。

支持的文件类型大致这几类：

文档：PDF、Word（.docx）、PowerPoint（.pptx）、纯文本（.txt）、Markdown（.md）
表格：Excel（.xlsx）、CSV
图片：JPG、PNG、HEIC、WebP（自动 OCR）
代码：几乎所有常见后缀（.py、.js、.go、.java、.sql 等）
音视频：mp3、mp4、wav（短文件可直接转写 + 总结）

适合场景：

合同审查、论文阅读、行业报告解读
把财务报表 / 招股书拉成结构化数据
扫描件 / 图片里的文字提取 + 翻译
代码库 review、错误日志诊断
把会议录音转写成纪要

下面把入口、上传步骤、5 个高频玩法、5 个常见坑讲完。

准备工作

入口：Gemini 网页版 gemini.google.com、Gemini 手机 App
账号：免费版即可上传，但有单次大小和数量限制；AI Plus / Pro / Ultra 解锁更大文件和更多并发
上下文窗口：Gemini 3 Pro 上百万 token 上下文，一份完整的 300 页 PDF 也能塞下
网络：上传速度受你本地网络影响，国内用户走加速器后建议关掉 webrtc 限速

如果你还没注册账号，先看 Gemini 登录怎么做和 Gemini 下载 App。

详细操作步骤

第 1 步：找到上传按钮

进入 gemini.google.com，在主输入框左侧找到 「+」 按钮（部分版本是回形针 / 文件夹图标），点开会展开几个选项：

Upload files（上传本地文件）
Add from Drive（从 Google Drive 选）
Take a photo（手机端）

[此处放截图：主输入框左侧 + 按钮展开后的菜单]

手机 App 里在输入框左侧 + 菜单一样。

第 2 步：选文件上传

点 Upload files，弹出本地文件选择器，可以一次按 Shift 多选最多 10 个文件。上传过程中你能看到一个圆形进度条。

注意：

单文件上限 100MB
PDF 单文件最多支持约 1000 页（页数太多会自动截取前部分提示）
扫描版 PDF 也支持（自动走 OCR，但比电子版 PDF 慢一些）

第 3 步：等文件解析完成

上传完不要急着提问，等输入框上方的「Processing…」消失，文件状态变成 Ready。

这个解析时间：

1-50 页文档：5-15 秒
50-200 页：15-40 秒
200 页以上 / 扫描件：1-3 分钟

[此处放截图：文件解析完成状态显示]

第 4 步：开始提问

文件就绪后，正常输入问题就行。Gemini 会自动把你上传的文件当上下文。

几种常用问法：

概览总结：「这份文档主要讲了什么，列 5 个核心要点」
定位查询：「文档里关于『数据隐私』的部分在哪几页，原文是怎么写的」
结构化提取：「把所有提到的金额、日期和合同方拉成 markdown 表格」
翻译 + 总结：「把这份英文论文翻译成中文，然后用 200 字概括」
追问：基于前面的回答继续追，比如「第 3 点能展开讲讲吗，给我两个 case」

第 5 步：多文件交叉对比

上传 2-3 份相关文档（比如「招股书 + 财报 + 行业研报」），Gemini 能跨文件比对：

这三份文件里对公司 2025 年营收的预测分别是多少？哪份最乐观？依据是什么？

这种「多源交叉」是 Gemini 长上下文的核心价值，比单纯一份文档问答有用得多。

5 个高级玩法

玩法 1：合同 / 协议风险审查

法务、HR 经常要看一堆合同：

📋 Prompt 模板

你是一名资深企业法务，下面是一份服务采购合同（已上传 PDF）。

请帮我做一次完整的风险审查：

列出所有对乙方不利的条款（明确条款编号 + 原文摘要）
列出违约金、保密、知识产权、争议解决相关的关键条款
找出表述模糊、定义不清的条款，建议怎么修改
整体风险等级评分（低 / 中 / 高），并给出 top 3 必改项

输出用 markdown 表格 + 简短结论。

省了 1-2 小时通读时间，先用 Gemini 过一遍再人工 review 关键点。

玩法 2：论文快速阅读

学生、研究员每周要看 5-10 篇 paper：

📋 Prompt 模板

我上传了一篇英文论文 PDF。请按这个结构帮我总结：

一句话核心贡献（用最朴素的中文）
解决了什么具体问题 / 痛点
方法核心是什么（不超过 200 字）
实验设置和数据集
主要结果（数字 + 对比 baseline）
局限性 / 未来工作
这篇论文值不值得花 2 小时精读？为什么？

中文输出，避免照搬原文术语，能口语化就口语化。

10 分钟读 10 篇 abstract 比传统精读 1 篇收益更高。

玩法 3：财务报表 / 表格拉数据

把 PDF 财报里的表格提取成结构化数据：

📋 Prompt 模板

上传的是一家公司的 2025 年年度财报 PDF。

请从中提取以下数据，整理成一份 markdown 表格：

公司名称、报告期、汇报币种
营业收入（同比 / 环比）
净利润（同比 / 环比）
毛利率、净利率、ROE
经营现金流、自由现金流
资产总额、负债总额、所有者权益
重大事项 / 风险提示前 3 条

最后用一段话简评：这家公司财务健康吗？

投研同学、记者写稿时都用得上。

玩法 4：扫描件 OCR + 二次加工

老旧扫描合同、图片版讲义没法编辑：

📋 Prompt 模板

我上传的是一份扫描版的会议记录 PDF（共 8 页，手写+打印混合）。

请：

OCR 识别所有文字（手写部分尽力辨认，不确定的地方用 ?? 标注）
按时间顺序重新整理成会议纪要：会议主题、参与人、议题、决议、待办事项 + 责任人 + 截止时间
用 markdown 格式输出
最后再生成一段 200 字的会议摘要发邮件用

输出语言：中文。

把纸质 / 图片资料数字化的最省力方式。

玩法 5：代码库 review

把 10-20 个代码文件打包上传：

📋 Prompt 模板

我上传了一个小型 Python 项目（约 15 个 .py 文件）。

请帮我做一次代码 review：

项目整体架构分析（核心模块、依赖关系）
找出潜在 bug（注明文件路径和行号）
找出性能瓶颈 / 可优化点
命名规范、代码风格问题
测试覆盖度评估
安全隐患（SQL 注入、密钥硬编码、不当输入校验等）

优先级排序：critical / high / medium / low。

入门同学的代码 review 利器，自学时尤其香。

5 个常见坑

坑 1：上传后秒没反应

文件上传 100%了，但下面一直转圈，无 Ready 状态。

解法：

等 1-3 分钟，长 PDF / 扫描件解析慢
关掉浏览器标签重开，文件不会丢，会自动恢复
文件超过 100MB 会失败但不提示，先压缩 PDF（用 Smallpdf / iLovePDF）
偶尔后台故障，刷新页面重传

坑 2：Gemini 回答里编内容（hallucination）

明明上传了文档，回答里出现文档里没有的东西。

解法：

prompt 末尾加一句「严格基于上传文档作答，如文档里没有明确写就回复『文档未提及』」
让它附原文出处：「每个论点请附原文页码 + 关键句」
对关键数字 / 法条 / 条款人工二次核对，别全信
复杂任务分步问，一次问太多容易混

坑 3：表格 / 图表内容解析错

PDF 里的复杂表格、统计图，Gemini 经常读错列对应关系。

解法：

表格密集的 PDF 改用 Excel / CSV 重新上传，模型对结构化数据准确率高
图表（柱状图、饼图）可以单独截图上传，并问「这张图里 X 类的数值大约是多少」
关键数字交叉验证：让它从原文取数 + 自己加和，对不上就重问

坑 4：长 PDF 后半段被忽略

300 页 PDF 上传后，问后 100 页内容时 Gemini 像没看到。

解法：

prompt 里强制定位：「请只看第 200-280 页的内容回答」
把长 PDF 拆成 3-5 份小文件分批上传分批问
复杂分析用 Gemini Deep Research 替代，它对长文档支持更扎实
或者把核心章节摘出来重新上传

坑 5：上传文件后老对话变慢

塞了大文件后输入框响应变卡，发一句话要等十几秒。

解法：

长对话定期开新窗口，把核心结论 / 关键引文复制到新对话继续
用完的文件可以从对话里删除（点文件名旁的 ×）
重度长文档分析改用 NotebookLM 教程平台，专为多文档场景设计
临时救急用 Gemini Notebook 在 Gemini 里直接复刻 NotebookLM 体验

Gemini 上传 PDF vs ChatGPT vs Claude vs NotebookLM

维度	Gemini (上传 PDF)	ChatGPT (Plus)	Claude 3.7	NotebookLM
单文件大小	100MB	32MB	32MB	200MB
单次文件数	10	10	5	50
上下文窗口	百万 token	128k-200k	200k	海量（专为多文档）
OCR 扫描件	强	中	中	强
表格提取	中	强	强	中
多文档交叉	强	中	中	最强
中文体验	强	强	强	强
免费可用	是（限额）	否	是（限额）	是
中国可用	需海外网络	需海外网络	需海外网络	需海外网络

结论：

单份文档快速问答 → Gemini 或 ChatGPT 都行，免费选 Gemini
代码 / 长论文精细分析 → Claude（不会乱跳）
几十份文档建知识库 → NotebookLM 一骑绝尘
想在 Gemini 里复刻 NotebookLM → 用 Gemini Notebook 功能

更多文档分析工具对比看 NotebookLM 教程 cluster。

在中国能用吗

Gemini 文件上传跟主 Gemini 一样有地区限制。中国大陆需要海外网络环境 + Google 账号。详见 Gemini 国内可以用吗和 Gemini 是否可用一览。

国产替代：

Kimi：上下文长，PDF 问答体验流畅
豆包：免费、中文友好
通义千问：支持文档解析、Excel 分析
DeepSeek：长文档代码 review 表现稳

下一步

把文件上传玩熟，接着看：

Gemini Notebook 怎么用 — App 里直接做 NotebookLM
Gemini Deep Research — 调研模式
Gemini Connected Apps — 连接 Gmail/Drive
Gemini GitHub 教程 — 直接读 GitHub 仓库
Gemini 完整使用指南 — cluster 入口总览

常见问题

Q：Gemini 会不会拿我上传的文件去训练模型？ A：消费者版（个人账号）默认会用于改善产品。可以在「设置 → 应用活动」关掉 Gemini Apps Activity，关掉后对话和上传内容不会进入训练。企业版（Google Workspace）默认不训练。

Q：上传后文件存多久？ A：在对话历史里保留，但 Google 政策是「未保存的活动 18 个月后自动删除」。要长期用建议把文件存到 Google Drive 再 Add from Drive 引入。

Q：能上传 .epub 电子书吗？ A：直接不支持，但可以用 Calibre 把 epub 转 PDF / txt 后再上传，体验一样。

Q：单文件 100MB 不够用怎么办？ A：用工具拆分（Smallpdf / iLovePDF）成多个小文件分批上传；或者改用 NotebookLM，单文件 200MB 且专门为多文档优化。

Q：上传后能让 Gemini 修改文件再下载吗？ A：不直接支持。Gemini 只能基于文件回答，要改文件得自己复制 Gemini 的输出到 Word / Excel 里。或者用 Gemini Connected Apps 接 Google Docs，让 Gemini 直接改 Docs 文档。

Q：扫描件 OCR 出错怎么办？ A：手写部分识别率本来就低于打印体。可以让 Gemini「不确定的地方标注 ??」，再人工补；或者换专业 OCR 工具（如 ABBYY、白描）先 OCR 成纯文本再上传。

Q：能问图片里的文字吗？ A：可以。直接上传 PNG / JPG，Gemini 会自动做 OCR + 理解。海报、菜单、街景招牌、手写笔记都没问题。