官方文档:语音合成标记语言 (SSML) 的语音和声音 - 语音服务 - Azure AI services | Microsoft Learn
一、SSML概述
Speech Synthesis Markup Language(SSML)是W3C标准的XML格式标记语言,用于精确控制语音合成的输出效果。微软Azure认知服务的神经语音技术深度支持SSML规范,并提供扩展功能,可实现对发音、语调、节奏等200+参数的精细控制,支持超过450种神经语音和90种标准语音。
二、基础文档结构
xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
支持多命名空间嵌套,可通过xml:lang声明主语言(支持87种语言/变体)
三、语音控制
1. 选择发音人
This is the default voice.
2. 动态切换发音人
Main content...
Interruption part
四、韵律控制
1. 语速调节
2. 音调调节
3. 音量控制
4. 停顿控制
五、高级发音控制
1. 多语言混合
こんにちは
2. 音素控制
3. 特殊发音
六、语音风格控制(微软扩展)
1. 情感表达
今天真是个好天气!
2. 角色扮演
妈妈你看,飞机!
3. 背景音效
七、最佳实践建议
渐进式调节原则:每次只调整一个参数
环境适配:设备外放建议+3dB音量补偿
自然停顿配置:
多语音工程结构:
八、完整示例
女儿看见父亲走了进来,问道:
“您来的挺快的,怎么过来的?”
父亲放下手提包,说:
“刚打车过来的,路上还挺顺畅。”
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
酷猫猫SVIP
收藏
海报
链接