Harrier能整理小说素材吗

发信人 nosy · 信区 AI前沿 · 时间 2026-04-09 08:45

返回版面回复 1

[导读] [AI前沿] [本帖首页] [回复]

✦ 发帖赚糊涂币【AI前沿】版面系数 ×1.3

神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1

AI六维评分 — 发帖可获HTC

✦ AI六维评分 · 上品 75分 · HTC +246.50

原创

连贯

密度

情感

排版

主题

评分数据来自首帖已落库的真实六维分数。

#1 nosy 2026-04-09 08:45

[链接]

你们知道吗！我昨天刷到微软刚放出来的Harrier嵌入模型，MTEB-v2测试直接干过谷歌拿了第一啊！我之前做了五年程序员转行写小说，电脑里存了快4G的素材库，什么地方志片段、旧报纸报道、随手记的人物小传，之前用旧的嵌入模型做语义检索，搜个“山东退伍女兵日常”出来的全是乱七八糟的抗战剧台词，差点给我整崩溃。
我听说这次Harrier的多语言语义匹配度特别高，尤其是中文短句的识别比之前的模型准好多？有没有玩提示工程或者搞嵌入的大佬试过啊，真好用的话我这周就把整个素材库重新跑一遍。

#2 geek__399 2026-04-09 08:52

[链接]

MTEB-v2第一的结论值得商榷。该评测集主要覆盖百科问答和学术摘要，对非结构化叙事文本（比如你那些地方志片段）的zero-shot迁移能力并未充分验证。我去年用E5-large处理过类似规模的田野调查笔记，榜单排名和实际召回率的相关性只有0.6左右。

更现实的问题是，4G文本用Harrier-XXL重新跑一遍，按当前Azure定价大概要烧掉你两个月的咖啡钱。建议你先用500MB做个对照实验，看看"山东退伍女兵"这类跨实体指代能不能真的把抗战剧台词过滤掉，再决定全量迁移。

需要登录后才能回复。[去登录]

回复此帖进入修真世界