技术实践 2026-05-28 · 14 分钟阅读

AI 语音客服的延迟战争:
700ms 临界点与流式架构的物理边界

同样标榜"实时 AI 语音",为什么 Udesk 能做到 700ms,行业均值却在 1.5s 以上? 本文从工程角度拆解 ASR → LLM → TTS 三段管道的延迟分布, 分析流式传输的关键设计决策,以及 AiWma 如何用 Pipecat + Deepgram Nova-3 逼近理论下界。

为什么 700ms 是一条分水岭

人类日常对话的神经传导时间约为 200–400ms——这是生理层面的"思考间隙"。 在电话沟通中,大脑对停顿的容忍边界约在 1.2–1.4 秒: 超过这个阈值,人会本能地确认"你还在吗?",触发高代价的话语修复序列。

700ms 之所以重要,是因为它在留有通信网络往返时延(RTT)余量的情况下, 仍能保证最终用户感知到的停顿在 1.1–1.3s 以内——就在沉默确认反射的临界点之下。 超过 700ms 的系统端时延,加上 100–200ms 的网络 RTT,就越过了用户体验的悬崖边缘。

主流厂商端到端延迟实测对比

沃丰科技
700ms
科大讯飞
800ms
容联七陌
1.0s
百度智能云
1.2s
阿里云晓蜜
1.5s
网易七鱼
1.5s
智齿科技
1.8s
腾讯企点
2.0s
延迟的用户行为影响

AiWma 在 Xmohe 部署阶段的 A/B 测试数据显示:当系统延迟从 1.8s 降至 780ms 后, "用户主动挂断率"下降了 23%,"转人工请求率"下降了 17%。 更低的延迟不仅是体验提升,更是可量化的运营成本降低。

三段管道:延迟的来源与分布

一次完整的 AI 语音交互由三个顺序阶段组成,每个阶段都有其物理下界和工程优化空间:

端到端延迟管道分解(AiWma 生产环境 P50)
ASR
~150ms
流式识别
首词输出
LLM 推理
~320ms
首 Token
输出时延
TTS
~180ms
流式合成
首帧输出
网络 RTT
~60ms
CDN 加速
国内节点
总计 P50 ≈ 710ms

第一段:ASR——从音频流到文字流

语音识别(ASR)的延迟优化关键在于流式识别而非批量识别。 传统方案等待用户说完整句后才提交识别,这本身就引入了 300–600ms 的等待窗口。 流式 ASR 在用户说话过程中持续输出实时文本假设(hypothesis), 在停顿检测(VAD, Voice Activity Detection)触发时锁定最终结果。

AiWma 使用 Deepgram Nova-3 作为 ASR 引擎,原因有三: 中文普通话识别准确率与科大讯飞接近(98%+)、原生支持流式输出、 以及比国内厂商更低的流式首词输出延迟(实测约 120–180ms P50)。 对于方言需求较高的场景,AiWma 支持切换至科大讯飞讯飞听见流式 API。

第二段:LLM 推理——首 Token 时延是瓶颈核心

LLM 推理延迟中,真正影响用户体验的是 TTFT(Time To First Token), 而非完整生成时间。只要第一个 Token 开始输出,TTS 就可以立刻启动合成—— 这是流式架构的核心价值所在。

不同模型的 TTFT 差距巨大。以 AiWma 生产环境数据为例:

模型 TTFT P50 TTFT P95 适用场景 代价
Claude Sonnet 4.6(API) ~280ms ~540ms 复杂意图理解 API 调用成本
Qwen2.5:7b(本地) ~220ms ~380ms L2/L3 合规模式 GPU 资源
意图缓存命中 <10ms <20ms 高频相似意图复用 缓存维护成本

意图缓存是降低 P50 TTFT 的关键手段——对于重复率高的客服场景(如"查询订单状态"占全部请求的 40%+), 缓存命中可以将这类请求的 LLM 延迟直接压缩至毫秒级, 拉低整体系统的平均 TTFT 显著低于裸推理延迟。

第三段:TTS——首帧输出而非完整合成

TTS(文字转语音)合成不需要等完整文本生成完毕后才开始。 流式 TTS 可以在接收到第一个完整句子(约 10–15 个中文字符)后立刻开始合成, 后续音频帧与 LLM 继续生成的文本并行流式处理

AiWma 使用 CosyVoice 2 进行 TTS 合成,首帧输出时延约 160–200ms(P50)。 语音码率设置为 16kHz/16bit,在语音质量与带宽之间取得平衡。 针对高并发场景,TTS 合成服务独立水平扩展,不与 LLM 推理争抢 GPU 资源。

Pipecat 架构:流式管道的胶水层

三段管道的技术选型解决了各段的延迟问题,但三段之间的协调同样关键。 AiWma 使用开源框架 Pipecat 作为流式管道的编排层:

# AiWma 核心管道简化示意(Node.js + Pipecat 概念)
AudioInput  ──→  VAD  ──→  Deepgram.stream()
                               │ (流式文本假设)
                               ▼
                          IntentCache.lookup()
                               │ (缓存未命中时)
                               ▼
                         Claude / Qwen2.5.stream()
                               │ (首Token即触发)
                               ▼
                         CosyVoice2.stream()
                               │
                               ▼
                         AudioOutput  ──→  WebSocket →  Client

Pipecat 的关键设计是将整个链路视为一个事件驱动的异步流水线, 而不是顺序的请求-响应周期。VAD 检测到停顿时,ASR 最终结果和 LLM 请求几乎同时触发; LLM 的第一个完整短句输出后,TTS 立刻启动,与 LLM 后续输出并行进行。

六个工程决策,决定你的系统能否达到 700ms

01
选择原生流式 ASR,放弃批量识别
批量识别等待完整话语后提交,引入 300–800ms 等待。流式 ASR 实时输出假设,VAD 触发锁定结果。Deepgram Nova-3 与讯飞流式 API 均支持真正的流式输出。
↓ ASR 阶段节省约 400ms
02
以 TTFT 而非完整生成时间评估 LLM
对话型 AI 只需要 LLM 开始输出(TTFT),不需要等完整回答。选择 TTFT <300ms 的模型 + 推理端点,并将系统提示词控制在 1000 Token 以内(提示词越长,TTFT 越高)。
↓ LLM 感知延迟降低 60–70%
03
意图预热缓存(Semantic Cache)
对高频语义相似请求(如"查快递"、"取消订单"的各种说法),将 LLM 响应向量化存储。命中时直接返回缓存响应,完全跳过 LLM 推理延迟。Redis + Qdrant 向量检索可实现 <15ms 的缓存查找。
↓ 高频请求 TTFT 从 300ms 降至 <15ms
04
流式 TTS:接收首句即开始合成
LLM 输出第一个逻辑短句(通常 8–15 字)后立刻触发 TTS,不等完整回答生成。后续 LLM 输出与 TTS 合成并行进行。需要在服务端维护音频帧缓冲队列,处理速率差异。
↓ TTS 感知延迟降低约 40%
05
WebSocket 长连接替代 HTTP 短连接
HTTP 请求的 TLS 握手 + TCP 连接建立约消耗 80–150ms。WebSocket 长连接复用已建立的连接,将这部分开销降至接近 0。对于多轮对话,这个优化累积效果非常显著。
↓ 每轮对话节省 80–150ms
06
打断检测(Barge-in)的双重意义
允许用户随时打断 AI 发言不仅是体验功能,也是延迟管理工具:当 AI 回答过长时,用户打断可以立刻重置管道,避免等待不必要的 TTS 输出完成。实现上需要 VAD 在 TTS 播放期间仍保持活跃监听。
↑ 用户感知流畅度显著提升

合规模式下的延迟代价

PIPL 合规要求在处理 L2/L3 级别的敏感个人信息时,不得将数据上传至云端 LLM。 这意味着需要切换到本地部署的模型(AiWma 使用 Qwen2.5:7b), 这会对延迟产生一定影响。

然而,本地模型的 TTFT 并不必然更差:Qwen2.5:7b 在 A100 GPU 上的 TTFT P50 约为 180–250ms, 低于 Claude API 的 280ms(因为省去了网络往返)。代价在于 GPU 资源成本和相对较弱的复杂推理能力。 AiWma 的分级策略是:L0/L1 路由至 Claude,L2/L3 路由至本地 Qwen2.5—— 既保证合规,又针对不同场景优化延迟与能力的权衡。

延迟工程的本质是:在物理约束的边界内,找到正确的并行化切入点。 大多数系统不是被某一个阶段拖慢的,而是被顺序等待本可并行的操作拖慢的。

监控与持续优化

700ms 不是一个一次性达成的目标,而是需要持续监控的运营指标。 AiWma 的可观测性体系追踪以下关键指标(通过 Pino 结构化日志 + PostgreSQL 时序存储):

  • asr_first_word_ms — ASR 首词输出时延(P50 / P95 / P99)
  • llm_ttft_ms — LLM 首 Token 时延(区分缓存命中 vs 未命中)
  • tts_first_frame_ms — TTS 首帧音频输出时延
  • e2e_latency_ms — 端到端系统延迟(VAD 触发到客户端开始播放)
  • barge_in_rate — 用户打断率(高打断率可能提示 AI 回答过长)
  • silence_confirm_rate — 沉默确认率("你还在吗?"——直接反映延迟过高的用户感知)

延迟数据来自 AiWma 生产环境 P50 指标及公开厂商信息(2025 年 12 月)。 各厂商延迟数据来自独立评测机构综合调研,非厂商自测。 实际延迟因网络环境、并发量及配置差异而变化。

想测试 AiWma 的实际延迟?

我们的 API 文档提供了完整的延迟测量方法与测试工具,帮助你在接入前准确评估系统性能。

查看 ACS 文档