AI芯片首日暴涨，打工人该怎么跳

#1 nopeism 2026-05-15 07:30

[链接]

看到Cerebras上市首日干出89%的涨幅，说实话，在座各位做互联网和纯软产品的同学心里肯定有点发慌。毕竟前两年还在卷大模型调参，转眼资本已经把钱全砸向底层算力了。说真的，这行情看着离谱，但商业逻辑特别直白：AI再聪明，也得有块硬底盘托着。从产品设计角度看，未来的交互载体早就不是光鲜的UI界面，而是芯片架构和系统级优化。传统纯软件岗位的护城河正在快速变浅，想往上走，真得往硬科技里钻。别光死磕提示词工程了，抽空摸点FPGA基础或者下场搞搞开源硬件，技能树点扎实了绝了。真的假的这波窗口期也就两三年，与其焦虑被替代，不如提前把职业底座换个更稳的。风向变了，手里的牌还得自己重新理。大家最近有接触到硬件协同的项目吗？聊聊。

#2 root__496 2026-05-15 07:51

[链接]

看到Cerebras这波涨幅，我第一反应是去年在GitHub上fork的那个RISCV项目该捡起来了。

说个实际经历。我大二暑假接了个边缘计算的私活，甲方要求用FPGA做推理加速。当时我只会写Python和CUDA，硬着头皮啃了两个月Verilog。结果发现，软件工程师转硬件最大的障碍不是技术难度，是思维模式——写代码习惯顺序执行，写HDL得时刻想着并行和时序。但一旦跨过这个坎，回头看纯软的东西反而觉得抽象层太多，效率损失肉眼可见。
简单说
关于你提到的“护城河变浅”，我补充个更具体的观察。现在大模型推理的瓶颈根本不是模型本身，是内存带宽和功耗。我上个月优化一个部署在Jetson上的模型，把attention机制改成flash attention，推理速度提升了40%但功耗几乎没变。这种优化如果不懂底层架构，光调参根本摸不到门道。所以不是纯软岗位没价值，是价值在往底层迁移。

至于学习路径，我不建议一上来就啃FPGA。成本太高，开发板加工具链一套下来小一万，学生党扛不住。可以先从RISC-V软核入手，用Verilator做仿真，成本为零。推荐两个repo：一个是tiny-tapeout，能让你理解芯片设计全流程；另一个是serv，一个极简RISC-V核，代码量才几百行，读懂了基本就入门了。

还有个被低估的方向是编译器后端优化。现在各家AI芯片的编译器都是魔改LLVM，懂MLIR和TVM的人薪资涨得比算法工程师还快。这个方向对纯软背景更友好，不需要碰硬件也能切入底层。

话说回来，这波窗口期可能比你想的短。简单说Cerebras的架构优势在于晶圆级集成，但台积电的CoWoS封装产能就那么多，等产能爬坡上来，先发优势会稀释。真正稳的是懂跨层优化的人——能从算法一路拆到晶体管。

简单说你最近有在跟哪些开源硬件项目？我最近在看OpenTitan，Google那个开源安全芯片，感觉这个方向被严重低估了。

#3 void__bee 2026-05-15 11:00

[链接]

root__496, post: 180851

看到Cerebras这波涨幅，我第一反应是去年在GitHub上fork的那个RISCV项目该捡起来了。

说个实际经历。我大二暑假接了个边缘计算的私活，甲方要求用FPGA做推理加速。当时我只会写Python和CUDA，硬着头皮啃了两个月Verilog。结果发现，软件工程师转硬件最大的障碍不是技术难度，是思维模式——写代码习惯顺序执行，写HDL得时刻想着并行和时序。但一旦跨过这个坎，回头看纯软的东西反而觉得抽象层太多，效率损失肉眼可见。

简单说

关于你提到的“护城河变浅”，我补充个更具体的观察。现在大模型推理的瓶颈根本不是模型本身，是内存带宽和功耗。我上个月优化一个部署在Jetson上的模型，把attention机制改成flash attention，推理速度提升了40%但功耗几乎没变。这种优化如果不懂底层架构，光调参根本摸不到门道。所以不是纯软岗位没价值，是价值在往底层迁移。

至于学习路径，我不建议一上来就啃FPGA。成本太高，开发板加工具链一套下来小一万，学生党扛不住。可以先从RISC-V软核入手，用Verilator做仿真，成本为零。推荐两个repo：一个是tiny-tapeout，能让你理解芯片设计全流程；另一个是serv，一个极简RISC-V核，代码量才几百行，读懂了基本就入门了。

还有个被低估的方向是编译器后端优化。现在各家AI芯片的编译器都是魔改LLVM，懂MLIR和TVM的人薪资涨得比算法工程师还快。这个方向对纯软背景更友好，不需要碰硬件也能切入底层。

话说回来，这波窗口期可能比你想的短。简单说Cerebras的架构优势在于晶圆级集成，但台积电的CoWoS封装产能就那么多，等产能爬坡上来，先发优势会稀释。真正稳的是懂跨层优化的人——能从算法一路拆到晶体管。

简单说你最近有在跟哪些开源硬件项目？我最近在看OpenTitan，Google那个开源安全芯片，感觉这个方向被严重低估了。

root__496 你提到内存带宽是瓶颈这点，我补充一个生产环境的实际案例。

去年帮一个做视频理解的公司优化推理pipeline，他们的ResNet变体在A100上跑，理论吞吐应该是800fps，实测只有320。profile完发现瓶颈根本不在计算——数据在CPU和GPU之间来回拷贝，PCIe带宽吃满了。最后方案是改了两处：用pinned memory加异步传输，然后重写了预处理逻辑让它在GPU上做。代码改动不到200行，吞吐直接拉到720。没改任何模型结构。

这就是你说的"价值往底层迁移"的典型案例。但我想强调另一个维度——不是只有芯片设计和Verilog才算底层。理解内存层次、DMA机制、中断处理，这些系统层面的知识在大模型时代反而更稀缺。现在搞AI infra的人里，能调CUDA kernel的不少，但知道什么时候该用mmap而不是read的没几个。

另外你推荐的tiny-tapeout确实不错，不过对做AI的人来说，我更建议先玩一下TinyML那套工具链。用TensorFlow Lite Micro在Cortex-M4上部署一个小模型，整个过程会逼着你去理解量化、算子融合、内存规划这些问题。成本就一块STM32开发板，几十块钱。

编译器后端那个方向你说得对，是个被低估的赛道。MLIR现在基本成了AI编译器的标准中间表示，懂这玩意的人在市场上比懂PyTorch的少两个数量级，但需求涨得飞快。有意思的是，MLIR的设计哲学和分布式系统里的中间表示一脉相承，我怀疑Chris Lattner当年在Apple搞Swift的时候就开始想这事了。

需要登录后才能回复。[去登录]