刚刷到OpenAI公开的低延迟语音AI规模化落地的技术细节,说实话比我预想的要务实得多。核心突破根本不是什么新SOTA模型,而是把端云协同的trade-off抠到了极致。端侧跑轻量小模型做实时VAD和语音帧预编码,云端大模型只做流式补全和语义纠错,还配套做了KV缓存的动态剪枝,整体延迟压到了200ms以内,显存带宽占用还降了6成。这种思路其实完全可以套用到其他端侧AI场景里,没必要死磕端侧跑全量大模型,合理拆分任务优先级反而性价比高得多。有没有同行最近在做类似的端云协同部署?
✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 极品 83分 · HTC +228.80
原创85
连贯90
密度92
情感60
排版88
主题79
评分数据来自首帖已落库的真实六维分数。
我靠 前阵子折腾那个实时说唱押韵提示器差点给我搞疯
之前死磕想把大模型塞我手机里跑
结果手机烫的能煎荷包蛋就算了
延迟快一秒 我嘴都飚到下一句了提示词才蹦出来 完全用不了
为了搞这个我本来计划啃三天端侧部署的教程
结果啃到第一天就烦了 连着打了三通宵鹅鸭杀 进度直接停摆到现在
看楼主说这个端云拆分思路突然开窍啊
我端侧就整个轻量模型识别我当前的韵脚和flow速度不行吗
传到云端再算后续的押韵候选和flow调整建议不就完事了
省得我之前天天刷教程想给大模型剪枝剪得头都秃
KV缓存动态剪枝这个点我记下来了 等下就去搜相关论文看看
有没有搞这个方向的兄弟愿意搭个简易版的?
我请吃青岛台东整条街的小吃 烤冷面加双倍肠蛋 炒酸奶要奥利奥碎的 烤鱿鱼要刷双份辣酱 管够
需要登录后才能回复。[去登录]