Gemini 上传 PDF 教程:文件分析与文档问答
Gemini 上传 PDF 教程:手把手教你在 Gemini 网页/App 里上传 PDF、Word、图片做文件分析,含 Gemini 分析文档技巧和上传 PDF 避坑指南
30 秒了解:Gemini 上传 PDF 能做什么
Gemini 上传 PDF 之后,可以直接在对话框里问它「这份文档讲了什么 / 总结 5 个要点 / 找出第 12 页的那段定义 / 把财务表格拉出来」,它会基于你上传的文件作答,不再瞎编。 Gemini 3 Pro 已经支持单次上传最多 10 个文件、单文件最大 100MB、单段对话有效上下文百万 token 以上,长 PDF 也能塞进去。
支持的文件类型大致这几类:
- 文档:PDF、Word(.docx)、PowerPoint(.pptx)、纯文本(.txt)、Markdown(.md)
- 表格:Excel(.xlsx)、CSV
- 图片:JPG、PNG、HEIC、WebP(自动 OCR)
- 代码:几乎所有常见后缀(.py、.js、.go、.java、.sql 等)
- 音视频:mp3、mp4、wav(短文件可直接转写 + 总结)
适合场景:
- 合同审查、论文阅读、行业报告解读
- 把财务报表 / 招股书拉成结构化数据
- 扫描件 / 图片里的文字提取 + 翻译
- 代码库 review、错误日志诊断
- 把会议录音转写成纪要
下面把入口、上传步骤、5 个高频玩法、5 个常见坑讲完。
准备工作
- 入口:Gemini 网页版
gemini.google.com、Gemini 手机 App - 账号:免费版即可上传,但有单次大小和数量限制;AI Plus / Pro / Ultra 解锁更大文件和更多并发
- 上下文窗口:Gemini 3 Pro 上百万 token 上下文,一份完整的 300 页 PDF 也能塞下
- 网络:上传速度受你本地网络影响,国内用户走加速器后建议关掉 webrtc 限速
如果你还没注册账号,先看 Gemini 登录怎么做 和 Gemini 下载 App。
详细操作步骤
第 1 步:找到上传按钮
进入 gemini.google.com,在主输入框左侧找到 「+」 按钮(部分版本是回形针 / 文件夹图标),点开会展开几个选项:
- Upload files(上传本地文件)
- Add from Drive(从 Google Drive 选)
- Take a photo(手机端)
[此处放截图:主输入框左侧 + 按钮展开后的菜单]
手机 App 里在输入框左侧 + 菜单一样。
第 2 步:选文件上传
点 Upload files,弹出本地文件选择器,可以一次按 Shift 多选最多 10 个文件。上传过程中你能看到一个圆形进度条。
注意:
- 单文件上限 100MB
- PDF 单文件最多支持约 1000 页(页数太多会自动截取前部分提示)
- 扫描版 PDF 也支持(自动走 OCR,但比电子版 PDF 慢一些)
第 3 步:等文件解析完成
上传完不要急着提问,等输入框上方的「Processing…」消失,文件状态变成 Ready。
这个解析时间:
- 1-50 页文档:5-15 秒
- 50-200 页:15-40 秒
- 200 页以上 / 扫描件:1-3 分钟
[此处放截图:文件解析完成状态显示]
第 4 步:开始提问
文件就绪后,正常输入问题就行。Gemini 会自动把你上传的文件当上下文。
几种常用问法:
- 概览总结:「这份文档主要讲了什么,列 5 个核心要点」
- 定位查询:「文档里关于『数据隐私』的部分在哪几页,原文是怎么写的」
- 结构化提取:「把所有提到的金额、日期和合同方拉成 markdown 表格」
- 翻译 + 总结:「把这份英文论文翻译成中文,然后用 200 字概括」
- 追问:基于前面的回答继续追,比如「第 3 点能展开讲讲吗,给我两个 case」
第 5 步:多文件交叉对比
上传 2-3 份相关文档(比如「招股书 + 财报 + 行业研报」),Gemini 能跨文件比对:
这三份文件里对公司 2025 年营收的预测分别是多少?哪份最乐观?依据是什么?
这种「多源交叉」是 Gemini 长上下文的核心价值,比单纯一份文档问答有用得多。
5 个高级玩法
玩法 1:合同 / 协议风险审查
法务、HR 经常要看一堆合同:
你是一名资深企业法务,下面是一份服务采购合同(已上传 PDF)。
请帮我做一次完整的风险审查:
- 列出所有对乙方不利的条款(明确条款编号 + 原文摘要)
- 列出违约金、保密、知识产权、争议解决相关的关键条款
- 找出表述模糊、定义不清的条款,建议怎么修改
- 整体风险等级评分(低 / 中 / 高),并给出 top 3 必改项
输出用 markdown 表格 + 简短结论。
省了 1-2 小时通读时间,先用 Gemini 过一遍再人工 review 关键点。
玩法 2:论文快速阅读
学生、研究员每周要看 5-10 篇 paper:
我上传了一篇英文论文 PDF。请按这个结构帮我总结:
- 一句话核心贡献(用最朴素的中文)
- 解决了什么具体问题 / 痛点
- 方法核心是什么(不超过 200 字)
- 实验设置和数据集
- 主要结果(数字 + 对比 baseline)
- 局限性 / 未来工作
- 这篇论文值不值得花 2 小时精读?为什么?
中文输出,避免照搬原文术语,能口语化就口语化。
10 分钟读 10 篇 abstract 比传统精读 1 篇收益更高。
玩法 3:财务报表 / 表格拉数据
把 PDF 财报里的表格提取成结构化数据:
上传的是一家公司的 2025 年年度财报 PDF。
请从中提取以下数据,整理成一份 markdown 表格:
- 公司名称、报告期、汇报币种
- 营业收入(同比 / 环比)
- 净利润(同比 / 环比)
- 毛利率、净利率、ROE
- 经营现金流、自由现金流
- 资产总额、负债总额、所有者权益
- 重大事项 / 风险提示前 3 条
最后用一段话简评:这家公司财务健康吗?
投研同学、记者写稿时都用得上。
玩法 4:扫描件 OCR + 二次加工
老旧扫描合同、图片版讲义没法编辑:
我上传的是一份扫描版的会议记录 PDF(共 8 页,手写+打印混合)。
请:
- OCR 识别所有文字(手写部分尽力辨认,不确定的地方用 ?? 标注)
- 按时间顺序重新整理成会议纪要:会议主题、参与人、议题、决议、待办事项 + 责任人 + 截止时间
- 用 markdown 格式输出
- 最后再生成一段 200 字的会议摘要发邮件用
输出语言:中文。
把纸质 / 图片资料数字化的最省力方式。
玩法 5:代码库 review
把 10-20 个代码文件打包上传:
我上传了一个小型 Python 项目(约 15 个 .py 文件)。
请帮我做一次代码 review:
- 项目整体架构分析(核心模块、依赖关系)
- 找出潜在 bug(注明文件路径和行号)
- 找出性能瓶颈 / 可优化点
- 命名规范、代码风格问题
- 测试覆盖度评估
- 安全隐患(SQL 注入、密钥硬编码、不当输入校验等)
优先级排序:critical / high / medium / low。
入门同学的代码 review 利器,自学时尤其香。
5 个常见坑
坑 1:上传后秒没反应
文件上传 100%了,但下面一直转圈,无 Ready 状态。
解法:
- 等 1-3 分钟,长 PDF / 扫描件解析慢
- 关掉浏览器标签重开,文件不会丢,会自动恢复
- 文件超过 100MB 会失败但不提示,先压缩 PDF(用 Smallpdf / iLovePDF)
- 偶尔后台故障,刷新页面重传
坑 2:Gemini 回答里编内容(hallucination)
明明上传了文档,回答里出现文档里没有的东西。
解法:
- prompt 末尾加一句「严格基于上传文档作答,如文档里没有明确写就回复『文档未提及』」
- 让它附原文出处:「每个论点请附原文页码 + 关键句」
- 对关键数字 / 法条 / 条款人工二次核对,别全信
- 复杂任务分步问,一次问太多容易混
坑 3:表格 / 图表内容解析错
PDF 里的复杂表格、统计图,Gemini 经常读错列对应关系。
解法:
- 表格密集的 PDF 改用 Excel / CSV 重新上传,模型对结构化数据准确率高
- 图表(柱状图、饼图)可以单独截图上传,并问「这张图里 X 类的数值大约是多少」
- 关键数字交叉验证:让它从原文取数 + 自己加和,对不上就重问
坑 4:长 PDF 后半段被忽略
300 页 PDF 上传后,问后 100 页内容时 Gemini 像没看到。
解法:
- prompt 里强制定位:「请只看第 200-280 页的内容回答」
- 把长 PDF 拆成 3-5 份小文件分批上传分批问
- 复杂分析用 Gemini Deep Research 替代,它对长文档支持更扎实
- 或者把核心章节摘出来重新上传
坑 5:上传文件后老对话变慢
塞了大文件后输入框响应变卡,发一句话要等十几秒。
解法:
- 长对话定期开新窗口,把核心结论 / 关键引文复制到新对话继续
- 用完的文件可以从对话里删除(点文件名旁的 ×)
- 重度长文档分析改用 NotebookLM 教程 平台,专为多文档场景设计
- 临时救急用 Gemini Notebook 在 Gemini 里直接复刻 NotebookLM 体验
Gemini 上传 PDF vs ChatGPT vs Claude vs NotebookLM
| 维度 | Gemini (上传 PDF) | ChatGPT (Plus) | Claude 3.7 | NotebookLM |
|---|---|---|---|---|
| 单文件大小 | 100MB | 32MB | 32MB | 200MB |
| 单次文件数 | 10 | 10 | 5 | 50 |
| 上下文窗口 | 百万 token | 128k-200k | 200k | 海量(专为多文档) |
| OCR 扫描件 | 强 | 中 | 中 | 强 |
| 表格提取 | 中 | 强 | 强 | 中 |
| 多文档交叉 | 强 | 中 | 中 | 最强 |
| 中文体验 | 强 | 强 | 强 | 强 |
| 免费可用 | 是(限额) | 否 | 是(限额) | 是 |
| 中国可用 | 需海外网络 | 需海外网络 | 需海外网络 | 需海外网络 |
结论:
- 单份文档快速问答 → Gemini 或 ChatGPT 都行,免费选 Gemini
- 代码 / 长论文精细分析 → Claude(不会乱跳)
- 几十份文档建知识库 → NotebookLM 一骑绝尘
- 想在 Gemini 里复刻 NotebookLM → 用 Gemini Notebook 功能
更多文档分析工具对比看 NotebookLM 教程 cluster。
在中国能用吗
Gemini 文件上传跟主 Gemini 一样有地区限制。中国大陆需要海外网络环境 + Google 账号。详见 Gemini 国内可以用吗 和 Gemini 是否可用一览。
国产替代:
- Kimi:上下文长,PDF 问答体验流畅
- 豆包:免费、中文友好
- 通义千问:支持文档解析、Excel 分析
- DeepSeek:长文档代码 review 表现稳
下一步
把文件上传玩熟,接着看:
- Gemini Notebook 怎么用 — App 里直接做 NotebookLM
- Gemini Deep Research — 调研模式
- Gemini Connected Apps — 连接 Gmail/Drive
- Gemini GitHub 教程 — 直接读 GitHub 仓库
- Gemini 完整使用指南 — cluster 入口总览
常见问题
Q:Gemini 会不会拿我上传的文件去训练模型? A:消费者版(个人账号)默认会用于改善产品。可以在「设置 → 应用活动」关掉 Gemini Apps Activity,关掉后对话和上传内容不会进入训练。企业版(Google Workspace)默认不训练。
Q:上传后文件存多久? A:在对话历史里保留,但 Google 政策是「未保存的活动 18 个月后自动删除」。要长期用建议把文件存到 Google Drive 再 Add from Drive 引入。
Q:能上传 .epub 电子书吗? A:直接不支持,但可以用 Calibre 把 epub 转 PDF / txt 后再上传,体验一样。
Q:单文件 100MB 不够用怎么办? A:用工具拆分(Smallpdf / iLovePDF)成多个小文件分批上传;或者改用 NotebookLM,单文件 200MB 且专门为多文档优化。
Q:上传后能让 Gemini 修改文件再下载吗? A:不直接支持。Gemini 只能基于文件回答,要改文件得自己复制 Gemini 的输出到 Word / Excel 里。或者用 Gemini Connected Apps 接 Google Docs,让 Gemini 直接改 Docs 文档。
Q:扫描件 OCR 出错怎么办? A:手写部分识别率本来就低于打印体。可以让 Gemini「不确定的地方标注 ??」,再人工补;或者换专业 OCR 工具(如 ABBYY、白描)先 OCR 成纯文本再上传。
Q:能问图片里的文字吗? A:可以。直接上传 PNG / JPG,Gemini 会自动做 OCR + 理解。海报、菜单、街景招牌、手写笔记都没问题。