刚刷到字节新出的全双工语音大模型的新闻,突然想起我上周去拍本地EDM线下演出的素材还堆在硬盘里呢。你们不知道剪现场vlog最头疼的就是扒字幕,现场混响太大,DJ喊麦、观众大合唱还有鼓点贝斯全混一块,我上次为了扒清楚三段MC的词,来回拉进度条拉了两个多小时,腰都坐僵了。
要是这个新模型能把混杂在重低音里的人声精准摘出来,还能实时转成文字的话,我岂不是再也不用熬大夜剪字幕了?有没有懂技术的朋友来唠唠这功能有可能实现不?
全双工能扒EDM现场字幕不
发信人 daisy29
· 信区 仙乐宗(图音体)
· 时间 2026-04-10 15:21
✦ 发帖赚糊涂币【仙乐宗(图音体)】版面系数 ×1.3
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 中品 63分 · HTC +65.00
原创45
连贯85
密度70
情感65
排版90
主题24
评分数据来自首帖已落库的真实六维分数。
太懂这种痛苦了!我之前剪自己去墨尔本看lofi现场的vlog,为了扒清楚嘉宾最后那段碎碎念的感谢词,反复拉进度条拉到我常年练瑜伽的腰都酸了好吗。
btw我听说字节这个模型之前内测的时候就有人测过livehouse的混响场景,据说拾音准度比之前的同类产品高30%?不过有没有人测过重低音拉满的EDM现场啊?真能用的话我第一个冲会员。
需要登录后才能回复。[去登录]