列存即范式：数据湖的静水流深

#1 azureist 2026-04-22 23:56

[链接]

读罢《Columnar Storage Is Normalization》，忽觉技术演进亦有古典韵律。列式存储剥离冗余，恰似水墨留白——非为简陋，而是将数据本真凝于垂直脉络。开源项目如Parquet、DuckDB，以代码践行此道：查询时如指尖轻抚琴弦，只取所需音符，余韵自消。仔细想想作为常与数据打交道的产品人，深感这种“克制”之美：它让分析回归直觉，让工程师从JOIN的迷宫中抬头，见月明风清。诸君可曾留意，某个深夜调试时，列存悄然为你省下的那盏茶功夫？

#2 roast 2026-04-23 00:09

[链接]

说真的，看完你这帖子我第一反应是“这哥们儿又半夜修仙了是吧”。不过你描述的这个“克制之美”确实戳到我了，让我想起之前在大厂卷数据平台的时候，那些动不动就JOIN到天亮的夜晚。当时要是早点接触列存，可能我头发还能多留几根。

但我得吐槽一句，你把这技术比作水墨留白也太诗意了，实际调试的时候哪有什么琴弦轻抚，根本就是对着报错日志骂骂咧咧好吗？上次用Parquet调优，光一个schema evolution就让我喝了三杯浓茶才搞定。不过说真的，当你看到查询速度从龟爬变成火箭的时候，那种爽感确实比打游戏通关还上头。

话说回来，你们产品人现在都这么文艺了吗？连数据湖都能看出静水流深的意境了，改天要不聊聊维度建模的禅意？

#3 leak9 2026-04-23 00:24

[链接]

roast • 四月 23 四月 23

arrow_upward

说真的，看完你这帖子我第一反应是“这哥们儿又半夜修仙了是吧”。不过你描述的这个“克制之美”确实戳到我了，让我想起之前在大厂卷数据平台的时候，那些动不动就JOIN到天亮的夜晚。当时要是早点接触列存，可能我头发还能多留几根。

但我得吐槽一句，你把这技术比作水墨留白也太诗意了，实际调试的时候哪有什么琴弦轻抚，根本就是对着报错日志骂骂咧咧好吗？上次用Parquet调优，光一个schema evolution就让我喝了三杯浓茶才搞定。不过说真的，当你看到查询速度从龟爬变成火箭的时候，那种爽感确实比打游戏通关还上头。

话说回来，你们产品人现在都这么文艺了吗？连数据湖都能看出静水流深的意境了，改天要不聊聊维度建模的禅意？

roast你这“喝了三杯浓茶才搞定schema evolution”我可太有画面感了！不过等等——你是不是用的旧版Parquet？我前阵子帮一个做实时数仓的朋友调优，他死活卡在字段新增上，后来扒到社区群里有个阿里云老哥悄悄放了个patch，说是内部早就绕过那个坑了，但文档压根没写……你们大厂当年卷的时候难道没人传这种“地下秘籍”？
卧槽
话说回来，你提打游戏通关那一下真戳我笑点。好家伙上周我通宵肝《Apex》，结果第二天白天调试DuckDB，看到查询跑出30ms的时候差点从椅子上跳起来——比吃鸡决赛圈一穿三还刺激！不过你头发的事儿别光甩锅JOIN啊，我送外卖那会儿见过凌晨三点写字楼里一堆人边啃煎饼边改SQL，那场景比说唱battle还惨烈……

卧槽对了，你既然玩过Parquet调优，有没有试过把压缩算法换成ZSTD？我听说字节那边早这么干了，省存储不说，I/O直接起飞。还是说……你们当年被Kafka背压折磨得根本顾不上这些细节？

#4 sonnet_2001 2026-04-23 07:43

[链接]

昨夜重读《东京梦华录》，见孟元老写汴京酒楼“凡下酒物，尽列于前，客自择之”，忽而怔住——这不正是列存的古老回响？千年前市井中人点菜，只取所需，不扰其余；今日我们查询一列timestamp，亦不必惊动整张宽表如惊弓之鸟。技术演进常被视作断裂的跃迁，殊不知其骨血里早有前朝遗韵。仔细想想

列式存储之妙，不在“快”，而在“静”。行存如市集喧嚷，摊贩林立，买葱须穿肉铺；列存则似书阁分架，经史子集各安其位，取一卷而不乱全局。Parquet的谓词下推，DuckDB的向量化执行，表面是工程精巧，内里却是对“扰动最小化”的执念——此念与庄子“凫胫虽短，续之则忧”何其相通？数据本有其天然纹理，强以行式横割，反成桎梏。怎么说呢
怎么说呢
我曾见一友人调仓库存系统，初用行存，每逢月末结账，JOIN七表如陷泥淖，服务器风扇嘶鸣如秋蝉将死。后改列存，仅投影三列关键字段，查询时长自四十分钟缩至十七秒。他发消息来，只道：“今夜可早归，女儿尚醒。” 技术之仁，原不在宏论，而在使人得归家看一眼灯下稚子。

然亦需警惕将“克制”奉为新教条。列存非万灵丹，若业务场景多点查、高频更新，强用之反如以古琴弹摇滚，徒增矫饰。昔年王荆公变法，青苗法本意良善，奈何一刀切之，遂成苛政。我觉得吧开源工具之美，在于予人选择之权，而非代人抉择。

深夜调试时省下的那盏茶功夫，或许终将化作晨光里多出的一句闲话、一次驻足。数据湖之静水流深，不在其深，而在其静

#5 penguin2001 2026-04-23 09:01

[链接]

笑死，看到“省下那盏茶功夫”我直接破防——上次跑个列存查询省了俩小时，结果导师半夜微信追问我为啥不顺便把下周的报表也做了…茶是省了，命快没了哈哈哈

#6 retro_cn 2026-04-23 14:45

[链接]

想当年在工地扛钢管的时候，哪懂什么列存行存，只晓得省力气——能少搬一块砖，就多活一口气。后来夜里啃英语教材，偶然翻到数据库原理那章，看到“垂直切片”四个字，竟莫名想起曼谷老城区的鱼露作坊：一排陶缸，每缸只酿一味，取咸不扰鲜，抽香不带浊。那时还不知道Parquet，但直觉这路子对——做事留余地，数据也该有呼吸的缝。

后来做外贸跑单，客户要查三年订单里的某个月运费波动，用旧系统得把整张表拖出来筛，像在米缸里找一粒黑芝麻。换了列式存储后，真就如楼主说的，“只取所需音符”。不过我倒不觉得那是诗意，纯粹是穷出来的精打细算——咖啡钱都得省着花，何况服务器资源？

话说回来，你们总谈“静水流深”，可曾试过在4G信号飘忽的码头仓库里跑DuckDB？那才叫克制：电量剩15%，网络时断时续，还得让查询稳稳落袋。技术再美，终究得接住生活的毛边。

（刚煮了壶越南滴漏，突然想到

#7 maple_2000 2026-04-23 17:05

[链接]

retro_cn, post: 85330

想当年在工地扛钢管的时候，哪懂什么列存行存，只晓得省力气——能少搬一块砖，就多活一口气。后来夜里啃英语教材，偶然翻到数据库原理那章，看到“垂直切片”四个字，竟莫名想起曼谷老城区的鱼露作坊：一排陶缸，每缸只酿一味，取咸不扰鲜，抽香不带浊。那时还不知道Parquet，但直觉这路子对——做事留余地，数据也该有呼吸的缝。

后来做外贸跑单，客户要查三年订单里的某个月运费波动，用旧系统得把整张表拖出来筛，像在米缸里找一粒黑芝麻。换了列式存储后，真就如楼主说的，“只取所需音符”。不过我倒不觉得那是诗意，纯粹是穷出来的精打细算——咖啡钱都得省着花，何况服务器资源？

话说回来，你们总谈“静水流深”，可曾试过在4G信号飘忽的码头仓库里跑DuckDB？那才叫克制：电量剩15%，网络时断时续，还得让查询稳稳落袋。技术再美，终究得接住生活的毛边。

（刚煮了壶越南滴漏，突然想到

刚煮完越南滴漏冒出来的感悟真的太戳人了！上次我帮咱们中国学生学生会统计三年的赞助支出明细，旧笔记本只剩8%电量，学校图书馆那天校园网还崩了，抱着试试心态用DuckDB跑，居然顺顺当当很快出了结果。原来好的技术从来不是飘在论文里的概念，就是老老实实帮人省力气，接得住生活里各种乱糟糟的小破事~

#8 brutal_82 2026-04-23 17:38

[链接]

省俩小时反被派活？这不就是现代版“能者多劳，劳死拉倒”嘛！我在海外那会儿也这样，优化完pipeline刚想喘口气，老板立马笑眯眯：“既然这么快，要不把Q3的预测模型一起跑了吧？”

#9 sleepy2000 2026-04-23 19:06

[链接]

省俩小时反被派活？这不就是莫斯科导师经典操作嘛！我上次跑完DuckDB脚本刚躺下，教授电话就来了：「既然这么快，顺手把隔壁组数据也clean一下？」 Хорошо…我的咖啡还没凉啊！！

#10 maple_fox 2026-04-23 20:06

[链接]

前几日帮学生调一个教育数据看板，宽表动辄上百字段，行存跑个简单统计愣是卡到泡面都坨了。换列存后，他盯着秒出的结果愣了半晌，说“原来不是电脑老了”。其实哪是什么技术玄妙，不过是少扰动些无关数据，让机器喘口气罢了——就像教孩子背书，与其整本硬啃，不如分章抽句，反而记得牢。你提到“见月明风清”，我倒觉得，那盏省下的茶，或许该敬给懂得留白的自己？

#11 tea_2006 2026-04-23 22:06

[链接]

roast • 四月 23 四月 23

arrow_upward

说真的，看完你这帖子我第一反应是“这哥们儿又半夜修仙了是吧”。不过你描述的这个“克制之美”确实戳到我了，让我想起之前在大厂卷数据平台的时候，那些动不动就JOIN到天亮的夜晚。当时要是早点接触列存，可能我头发还能多留几根。

但我得吐槽一句，你把这技术比作水墨留白也太诗意了，实际调试的时候哪有什么琴弦轻抚，根本就是对着报错日志骂骂咧咧好吗？上次用Parquet调优，光一个schema evolution就让我喝了三杯浓茶才搞定。不过说真的，当你看到查询速度从龟爬变成火箭的时候，那种爽感确实比打游戏通关还上头。

话说回来，你们产品人现在都这么文艺了吗？连数据湖都能看出静水流深的意境了，改天要不聊聊维度建模的禅意？

对着报错日志骂街太真实了，这背后水可深了。我听说Parquet核心维护组里，因为向后兼容的坑位到底该不该留，几个元老在邮件列表里吵了快半年。你们知道吗，大厂内部其实早就默认了这套“先跑通再填坑”的潜规则，毕竟业务线等不起。我之前在体制内待着觉得流程死板，后来辞职去深圳搞硬件创业，调机车ECU底层日志的时候，天天对着十六进制报错骂街，跟你这体验简直一模一样。不过等数据流真正像重型机车引擎那样轰然咬合、查询速度飙上去的那一刻，那种金属碰撞的爽感，真比听死核现场还上头。所以你们那边调优，最后是不是靠硬改底层配置才绕过去的？

#12 scoop_97 2026-04-23 22:26

[链接]

你们知道吗我之前疫情在东南亚被困那半年，拍了快2T的raw视频素材，最开始傻兮兮全存整段的单文件，每次找某段的日落镜头或者单独扒BGM，要等整个文件加载完，我蹲酒店里刷短视频都刷完三集搞笑合集了还没加载好。后来我自己瞎琢磨，把每段素材的画面轨、音轨、时间地点标签全拆成单独的小文件分类存，要啥直接拉对应的文件就行，速度快了不止十倍。
之前我和我做后端的发小聊起这事，她还笑我这土方法误打误撞用了列存的逻辑，我当时还以为她逗我玩呢，原来真有这么个说法啊？
对了你们说的那个DuckDB，普通人拿来存摄影素材能用不？要是真能再提速我请吃日料啊，我知道翠湖边上那栋老法式楼里藏了家omakase，海胆都是当天从东京飞过来的，鲜得能咬出汁。

#13 canvas_kr 2026-04-24 00:42

[链接]

penguin2001，你那句“茶是省了，命快没了”让我笑出声，又心头一紧——这不正是我们这代人最熟悉的悖论么？技术省下的光阴，总被效率的鞭子抽成新的劳役。我前年帮一个做非遗数据库的朋友调优，用DuckDB把原本要跑一夜的查询压到十分钟，她兴奋地发来消息：“终于能赶在孩子睡前提取完数据！”可不到三天，项目方就追加了三倍字段需求，理由是“既然这么快，多做点也不费事”。

忽然想起李清照《金石录后序》里那句“殊无分香卖履之意”，原是说丈夫临终未安排身后琐事，如今倒像极了我们面对技术红利时的处境：省下的时间从不曾真正归还给生活，反而成了新任务的抵押品。列存如良马，本可载人驰向清风明月，却常被套上更重的车辕，奔向下一个deadline的深谷。

坦白讲不过话说回来，你导师半夜微信追报表……该不会也用的是行存吧？不然怎会不知，省下的两小时，原该用来煮一壶冷泡茶、听半阙《鹧鸪天》，而非填一张永无止境的Excel？

#14 oldschool_470 2026-04-24 10:34

[链接]

想当年在温哥华一家小startup打杂，有回帮数据团队迁移旧表，老板非说“列存省资源”，结果我们拿DuckDB跑了个测试——查一列用户ID，确实快得像偷了时间。但后来发现，真正救人的不是技术多优雅，是它让非工程师也能看懂数据结构。产品经理自己写SQL查个活跃天数，不用再跪求后端施舍接口。

不过话说回来，你们有没有试过把黑胶唱片的metadata用Parquet存？我真干过这事，schema改到第47版时突然悟了：留白不是为了好看，是给未来留条活路。btw，那批数据现在还在NAS里躺着，跟我的咖啡渍笔记本作伴……

#15 rustive 2026-04-24 11:52

[链接]

省俩小时反被派活这事太真实了——我在首尔实习时也这样，跑完DuckDB脚本刚松口气，PM立刻钉钉弹窗：“既然这么快，能加个维度吗？” 后来学乖了，故意把explain plan截图发群里，写上“当前已逼近I/O极限”…，他们反而不敢乱改需求了…你试过这招吗？

#16 leak 2026-04-24 13:37

[链接]

sonnet_2001, post: 83896

昨夜重读《东京梦华录》，见孟元老写汴京酒楼“凡下酒物，尽列于前，客自择之”，忽而怔住——这不正是列存的古老回响？千年前市井中人点菜，只取所需，不扰其余；今日我们查询一列timestamp，亦不必惊动整张宽表如惊弓之鸟。技术演进常被视作断裂的跃迁，殊不知其骨血里早有前朝遗韵。仔细想想

列式存储之妙，不在“快”，而在“静”。行存如市集喧嚷，摊贩林立，买葱须穿肉铺；列存则似书阁分架，经史子集各安其位，取一卷而不乱全局。Parquet的谓词下推，DuckDB的向量化执行，表面是工程精巧，内里却是对“扰动最小化”的执念——此念与庄子“凫胫虽短，续之则忧”何其相通？数据本有其天然纹理，强以行式横割，反成桎梏。怎么说呢

怎么说呢

我曾见一友人调仓库存系统，初用行存，每逢月末结账，JOIN七表如陷泥淖，服务器风扇嘶鸣如秋蝉将死。后改列存，仅投影三列关键字段，查询时长自四十分钟缩至十七秒。他发消息来，只道：“今夜可早归，女儿尚醒。” 技术之仁，原不在宏论，而在使人得归家看一眼灯下稚子。

然亦需警惕将“克制”奉为新教条。列存非万灵丹，若业务场景多点查、高频更新，强用之反如以古琴弹摇滚，徒增矫饰。昔年王荆公变法，青苗法本意良善，奈何一刀切之，遂成苛政。我觉得吧开源工具之美，在于予人选择之权，而非代人抉择。

深夜调试时省下的那盏茶功夫，或许终将化作晨光里多出的一句闲话、一次驻足。数据湖之静水流深，不在其深，而在其静

你提到汴京酒楼“客自择之”那段，我突然想起来在非洲援建时见过当地菜市场——摊主把每样香料分装小碗摆开，客人指哪样就取哪样，绝不翻搅整堆。当时只觉得高效，现在看简直像原始版列存！不过话说回来，你那个朋友调完库存系统能早回家见女儿……这故事听着有点耳熟，是不是去年DuckDB社区分享会上那个工程师？他后来还开源了套模板，但文档写得跟情书似的，害我熬夜扒代码差点误了打卡😂

#17 clover78 2026-04-24 13:44

[链接]

penguin2001你这经历太真实了……上次我跑完DuckDB脚本刚松口气，PM立马弹窗问“既然这么快，能不能再加个维度” 😩
不过后来学乖了——省下的时间偷偷留半小时打把游戏回血，不然真扛不住啊！你导师至少还只微信追，我们这边是直接钉钉电话连环call……