Gemini 生成音乐教程：Lyria 入门

30 秒了解：Gemini 生成音乐

Gemini 生成音乐用的是 Google 自研的 Lyria 模型，目前已经迭代到 Lyria 2 系列。它能根据一句文字描述生成一段 30 秒到 2 分钟、带人声或纯器乐的音乐片段，覆盖流行、古典、电子、爵士、影视配乐等多种风格。跟 Suno、Udio 这类专门音乐 AI 一比，Lyria 的优势是「直接在 Gemini 主对话里调用，不用切换工具」，而且和 Gemini 的视频、文本生成能力联动得最顺。

适合场景：视频 BGM、播客片头、产品演示配乐、个人创作 demo、灵感探索。不适合：商业版权要求超严格的项目、4 分钟以上的完整歌曲、需要逐音符精修的专业制作。

下面把入口、prompt 写法、5 个进阶玩法和与 Suno 的差异讲完。

准备工作

入口：Gemini 网页版 gemini.google.com、AI Studio 里的 Lyria 实验室、Google Labs MusicFX（实验项目）
账号要求：免费版每天有少量试用次数；AI Plus 每月约 100 段；AI Pro 300 段；Ultra 几乎无限
耗时：30 秒 - 2 分钟一段，看复杂度
输出：mp3 或 wav，44.1kHz 立体声，自带元数据水印（Google SynthID）

如果你还没用过 Gemini 多模态生成，先看 Gemini Veo 生成视频熟悉一下生成流程。

详细操作步骤

第 1 步：在 Gemini 里召唤 Lyria

打开 gemini.google.com，直接在对话框说：

帮我生成一段 60 秒的轻快流行音乐，钢琴主旋律，鼓点节奏感强，适合咖啡店播放。

Gemini 会自动识别意图，切到 Lyria 模型生成。或者你可以点对话框下方工具区的 Music（音符图标，部分账号灰度后才有）。

[此处放截图：Gemini 对话框 Music 工具按钮]

如果 Music 按钮没出现，直接用自然语言下指令也行——后台同样走 Lyria。

第 2 步：写好 prompt 的 5 个关键要素

音乐 prompt 比图像 prompt 简单，但结构化能让出片质量翻倍。模板：

[时长] + [风格/流派] + [乐器配置] + [节奏/速度] + [情绪/使用场景]

例子：

60 秒、Lo-Fi Hip-Hop 风格，柔和电钢琴 + 复古鼓机 + 微弱黑胶噪声，BPM 70，慵懒治愈，适合学习背景音乐。

发送后 1-2 分钟出片。

第 3 步：试听并迭代

播放器是嵌入对话区的，可以直接播。听完后用自然语言改动：

第 20-30 秒加一个萨克斯独奏。

整体节奏快一点，BPM 提到 90。

把鼓机换成原声鼓，更有人味。

Lyria 会基于上一版调整。不要从 0 重写 prompt——保留原 prompt + 加修改指令效果更好。

第 4 步：要求人声或纯器乐

人声 prompt 要明确写歌词或情绪基调：

生成一段 90 秒的民谣，女声轻吟，歌词：「夏天的风 / 吹过你的发梢 / 一切都是少年时模样」，吉他扫弦伴奏，自然真实的录音感。

纯器乐 prompt 写「instrumental only, no vocals」即可。

第 5 步：下载和元数据

播放器右下角有按钮：

Download MP3：标准 320kbps mp3
Download WAV：无损 wav（部分套餐限定）
Copy prompt：复制成功的 prompt 留底
Send to：导出到 Google Drive 或 Audio Overview

💡 下载下来的所有 Lyria 音频都自带 Google SynthID 水印——肉眼听不出，但用 Google 的检测工具能识别出是 AI 生成的。

5 个 Lyria 进阶玩法

玩法 1：视频 BGM 一条龙

为 Veo 生成的短视频配乐：

📋 Prompt 模板

我有一段 8 秒的视频，画面内容是：黄昏海边一个人慢慢走向远方，慢镜头，温暖橙色调，怀旧氛围。

请帮我生成一段刚好 8 秒的配乐：

风格：电影感配乐 / Cinematic Ambient
乐器：弦乐铺底 + 钢琴点缀 + 微弱合成器
情绪：宁静、略带忧伤、希望感
节奏：慢，BPM 60
结构：前 2 秒渐入，中间 4 秒主旋律，最后 2 秒渐出
不要人声

Lyria 出的片直接可以拖到剪映 / Vids 里对齐画面。

玩法 2：播客片头

做播客的人最头疼的 15 秒 intro：

📋 Prompt 模板

帮我做一段 15 秒的播客片头音乐：

风格：现代 / 简约电子，类似 The Daily 那种新闻类播客结构：

0-3 秒：一个清脆的电子提示音开场
3-10 秒：合成器旋律建立 + 鼓机节奏进入
10-13 秒：高潮短促爆发
13-15 秒：快速渐弱过渡到说话

整体感受：专业、清醒、有节奏感。BPM 110。

省下找音乐版权的两小时。

玩法 3：游戏 / App 提示音

做产品需要短促音效：

📋 Prompt 模板

我在做一个手机记账 App，需要 4 个 1-2 秒的音效：

成功记账：清脆愉快的”叮咚”两音
失败提示：温和的”嗒”短音（不要刺耳）
切换 Tab：轻巧的”嗖”过渡音
月底结算：稍长的圆满感”叮——”

风格统一：现代极简、温暖、不抢话，可与轻快 UI 动效配合。

Lyria 在短音效上表现意外的好，免去找音效素材库的麻烦。

玩法 4：风格混搭实验

试一些「正常没人组合」的风格：

📋 Prompt 模板

帮我做一段 60 秒的实验性融合音乐：

主框架：日本传统三味线融合元素：

现代 trap 鼓 808
京都老唱片采样的女声哼鸣
微弱的故障电子噪声

节奏：BPM 80 情绪：神秘、东方、未来感结构：前 30 秒以三味线为主慢慢叠加电子元素，后 30 秒变成 trap 节奏主导

灵感探索 / 给客户提案时拿来打动人的小招数。

玩法 5：现有歌词配旋律

写好了一段词想要旋律：

📋 Prompt 模板

帮我把下面这段歌词谱成 90 秒民谣：

【贴入你的歌词】

要求：

男声轻柔吟唱，类似李志或宋冬野的质感
木吉他扫弦 + 口琴间奏
BPM 75，4/4 拍
每段主歌平稳，副歌升调略激昂
结尾用一段口琴独奏渐弱收
整体保留民谣的粗粝真实感，不要过度修音

业余写词人的福音，自己唱不出来让 AI 唱给你听。

5 个 Lyria 常见坑

坑 1：人声中文吐字不清

Lyria 的中文人声吐字效果弱于英文，部分字会含糊。

解法：

短歌词 / 简单押韵的中文效果好，长段落复杂用词会糊
重要中文歌词可以拆成多段生成，挑发音清楚的版本拼接
严肃中文制作建议先用英文写歌词出旋律，再用国产 Suno 中文版重做人声

坑 2：超出 2 分钟生成不出来

Lyria 单次最长 2 分钟，长歌曲需要分段。

解法：

分段生成「主歌 1 / 副歌 / 主歌 2 / 副歌 / Bridge / 副歌」每段独立 prompt
保持每段 prompt 里主题描述完全一致，只改段落功能描述
用音频剪辑工具（CapCut / Audacity）拼接，加 1-2 秒交叉淡入淡出

坑 3：风格漂移，越改越偏

迭代几次后离原来想要的越来越远。

解法：

每次改动只动一个维度（节奏 OR 乐器 OR 情绪），别一次改 3 个
觉得偏了立刻回到上一个满意版本，重新基于它改
极致情况开新对话，把当时满意的 prompt 复制重启

坑 4：版权风险

生成的音乐用在 YouTube 视频偶尔被识别成「与某首歌相似」。

解法：

商业项目用 Lyria 输出不要直接发音乐平台（Spotify / Apple Music）
用作视频 BGM 没事，YouTube 一般不会判侵权
关心版权的项目搭配 AI 音乐合规指南走人工二次创作

坑 5：免费版次数很快用完

试一下午就触顶。

解法：

每次出片前 prompt 写到位，减少重生成次数
错峰：早上 / 深夜响应快不浪费等待
真重度用升 AI Plus（19.99 美元/月）拿足够额度
或者切到国产 Suno 中文版 / 网易天音补充

Gemini Lyria vs Suno vs Udio

维度	Gemini Lyria 2	Suno V5	Udio v2
单段时长	30 秒 - 2 分钟	4 分钟	2 分 10 秒
风格覆盖	广，影视感强	极广，流行专长	中等，独立感强
中文人声	中等	强（V5 大幅提升）	中等
纯器乐质量	强	中	中
歌词控制	支持	支持，精细	支持
与其他 AI 联动	强（直接配视频）	一般	一般
套餐起步价	19.99 美元	8 美元	10 美元
商用授权	含	含（付费）	含（付费）
中国可用	需海外网络	需海外网络	需海外网络

结论：做有完整人声的长歌选 Suno；要影视 / 游戏配乐 / 与视频联动选 Lyria；想要独立 indie 感觉的 demo 选 Udio。

更多 AI 工具横评看 AI 视频教程。

在中国能用吗

Gemini Lyria 在国内访问受限。具体合规情况见 Gemini 国内可以用吗和 Gemini 是否可用一览。

国产 AI 音乐工具非常成熟：

天工 SkyMusic：昆仑万维，免费 + 中文最强
网易天音：网易出品，与云音乐生态联动
QQ 音乐启明星：腾讯，唱歌合成强
Suno 中文官号 （在国内有部分账号体系兼容）

下一步

体验完 Lyria 后建议看：

Gemini Audio Overview — 把文档/对话变播客
Gemini Veo 生成视频 — 视频 + 音乐组合套餐
Gemini Canvas 怎么用 — 视觉创作搭子
Gemini Ultra 怎么样 — 高频创作者套餐评估
Gemini 完整使用指南 — cluster 入口总览

常见问题

Q：Lyria 生成的音乐能商用吗？ A：付费套餐（AI Plus 及以上）默认带商用授权。免费版有限制，主要给个人非商业使用。具体条款看 Google 服务协议最新版。

Q：SynthID 水印影响音质吗？ A：不影响。SynthID 嵌入在人耳听不到的频段，不改变音乐听感，但用 Google 检测器扫描能识别为 AI 生成。

Q：能上传一段参考音乐让 Lyria 模仿吗？ A：暂时不支持 audio-to-audio。要类似风格只能在 prompt 里描述「类似某某歌手 / 某某风格」，但不要直接点名版权艺人避免触发安全过滤。

Q：Lyria 能做 BGM 循环（loop）吗？ A：可以。prompt 写「seamless loop, ending should connect smoothly to beginning」，Lyria 会优化首尾衔接。但要 100% 无缝可能要后期 DAW 微调。

Q：人声能指定男 / 女 / 童声吗？ A：能。prompt 里直接写「female vocals」「male vocals」「children chorus」，Lyria 会按要求生成。具体音色无法精确控制（不像电话簿那样选具体人）。

Q：和 Google Labs 的 MusicFX 是一回事吗？ A：MusicFX 是 Google Labs 的早期实验工具，底层用了 Lyria 早版本。现在主推的是 Gemini 里集成的 Lyria 2，效果更新更好。

Q：能生成卡拉 OK 伴奏（去人声）吗？ A：直接写「instrumental backing track for karaoke, no vocals」就行。Lyria 会出纯伴奏版本，自己录人声拼接即可。