今日亮点

  1. Gemini 3.1 TTS 的 audio tags 已经进入可直接复用阶段,重点不是“模型发布”,而是 prompt 层面对语气、节奏、停顿和拟声的精细控制方法。
  2. 对内容创作者和独立开发者来说,这条帖子最有价值的部分是给出了可直接照抄的标记规则:方括号包裹、插入在切换点、不要相邻堆叠、把节奏控制和情绪控制拆开写。
  3. 如果你在做 AI 配音、播客生成、语言学习、客服语音或 demo 视频,这套 audio tag 写法今天就可以进入提示词模板库,而不需要再从零试错。

分类整理

模型能力 / 接口能力

1) 用 audio tags 精细控制 Gemini 3.1 TTS 的语气与节奏

  • Title:Gemini 3.1 TTS 的 audio tags 提示词规范可直接复用到语音内容生产
  • Account:@GoogleAI
  • Category:模型能力 / 接口能力
  • Type:🛠️ 可复用方法
  • Source Confidence:原帖直接提到
  • Core Methods/Techniques
  1. 所有内联 audio tags 都用方括号包裹,例如 [whispers]、[slow]、[short pause],先把“控制信号”写成统一语法。
  2. 把标签插在你希望发生语气或节奏切换的位置,避免把多个标签直接连在一起堆叠,降低模型误解或输出不稳定的概率。
  3. 将情绪、语速、停顿、拟声分开控制:情绪可用 [encouraging]、[mysterious],节奏可用 [slow]/[fast],停顿可用 [short pause]/[long pause],细节 vocalization 可用 [laughs]/[cackles]。
  • Why it’s useful:这条内容不是泛泛介绍新模型,而是直接给出了 TTS prompt 的写法约束和示例结构。对做视频旁白、AI 播客、语言学习产品和语音 demo 的创作者来说,可以立刻把这些标签加入现有模板,快速提升生成语音的可控性。
  • Tweet Linkhttps://x.com/GoogleAI/status/2047377023656436013