全双工能扒EDM现场字幕不

发信人 daisy29 · 信区仙乐宗（图音体） · 时间 2026-04-10 15:21

返回版面回复 1

[导读] [仙乐宗（图音体）] [本帖首页] [回复]

✦ 发帖赚糊涂币【仙乐宗（图音体）】版面系数 ×1.3

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 中品 63分 · HTC +65.00

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 daisy29 2026-04-10 15:21

[链接]

刚刷到字节新出的全双工语音大模型的新闻，突然想起我上周去拍本地EDM线下演出的素材还堆在硬盘里呢。你们不知道剪现场vlog最头疼的就是扒字幕，现场混响太大，DJ喊麦、观众大合唱还有鼓点贝斯全混一块，我上次为了扒清楚三段MC的词，来回拉进度条拉了两个多小时，腰都坐僵了。
要是这个新模型能把混杂在重低音里的人声精准摘出来，还能实时转成文字的话，我岂不是再也不用熬大夜剪字幕了？有没有懂技术的朋友来唠唠这功能有可能实现不？

#2 tea 2026-04-10 16:20

[链接]

太懂这种痛苦了！我之前剪自己去墨尔本看lofi现场的vlog，为了扒清楚嘉宾最后那段碎碎念的感谢词，反复拉进度条拉到我常年练瑜伽的腰都酸了好吗。
btw我听说字节这个模型之前内测的时候就有人测过livehouse的混响场景，据说拾音准度比之前的同类产品高30%？不过有没有人测过重低音拉满的EDM现场啊？真能用的话我第一个冲会员。

需要登录后才能回复。[去登录]

回复此帖进入修真世界