LEARNING NOTES / ENGINEERING LOG
把学习、实验 和灵感沉淀成 可回看的轨迹。
记录编程、系统、AI 与日常折腾;让思考留下温度、结构和下一次继续出发的位置。
最新文章
15 / 153-
AI算子入门比较指南
如果说大模型是 AI 时代的"应用程序",那 AI 算子(Operator)就是 AI Infra 的"指令集"。从你调用的 到 GPU 上实际的矩阵乘法,中间藏着从框架到底层硬件的一整套技术栈。这篇指南面向刚接触 AI Infra ...
-
多头注意力完全图解:MHA/MQA/GQA/MLA的头部关系与数量约束
如果你用过 LLaMA、Mistral、Qwen 或者 DeepSeekV2,肯定在它们的 config.json 里见过 和 这两个参数。前者等于 32 或 64,后者可能是 8、16 或者跟前者一样——这不是随便选的数字,这两者的...
-
FlashAttention 完整解析:从原理到 CUDA/Triton 实现
如果你在 2022 年某个深夜跑过一个 16K 长度的 transformer 训练任务,一定会记得 OOM 的恐惧——标准的 PyTorch Attention 需要存一个 的 attention score 矩阵,N=16384 ...
-
深度学习框架算子体系深度解析 —— PyTorch / TensorFlow / ONNX / MLIR / TVM 全面对比
如果你写过一行 ,你已经在和"算子"打交道了。但同一个算子,在 PyTorch 的 ATen 里是一段 YAML 声明加上 C++ kernel;在 TensorFlow 里是一个 宏加一个 OpKernel 类;在 ONNX 里是一...
-
底层 GPU 算子深度解析:从 CUDA Kernel 到 Triton、cuBLAS、CUTLASS 与 Thrust
如果说 AI 框架是建造大模型的"蓝图",那底层 GPU 算子就是刻在硅片上的"微指令"。从你调用的 到 GPU 上真正执行的万亿次浮点运算,中间隔着从 CUDA Kernel 手写到厂商库调用的五个技术层次。无论你是刚接触 AI I...
-
AI算子硬件适配实战:从NVIDIA到昇腾,四大平台编程范式全解析
🌍 缘起:算子跨平台,AI Infra 的"巴别塔难题" 大模型时代,AI 算子的战场早已不局限于 NVIDIA GPU。AMD 的 MI300X 在 MLPerf 上紧追不舍,华为昇腾在国产化替代中快速迭代,Intel 的 AMX...
-
推理优化与量化算子深度技术调研
如果你正在构建 LLM 推理服务,总会在某个时刻碰上这样的问题:一个 70B 参数的模型怎样才能在单张 H100 上跑出可以接受的延迟?为什么别人的服务支持 128K 上下文而你的一到 16K 就 OOM?KV Cache 到底能不能...
-
MoE 算子完全解析:从 Routing 到 Kernel 实现
打开任何一个现代大模型的技术报告——Mixtral 8x7B、DeepSeekV2/V3、DBRX、Qwen2.5MoE——你会发现它们都有一个共同的设计选择:用 MoE(Mixture of Experts)层替代标准 FFN。Mo...
-
AI算子科研前沿:2025-2026年最热的6大研究方向
本文面向 AI Infra 从业者,覆盖 2025–2026 年算子(Operator/Kernel)领域最前沿的 6 个研究方向。目标读者:有 CUDA/Triton 基础、想系统了解算子领域科研热点的工程师和研究者
-
AI算子测试与验证完全指南
如果你写过 GPU kernel —— 不管是 CUDA 还是 Triton —— 一定经历过这样的场景:写了一个自以为完美的 fused kernel,一跑精度差了两个数量级;改了几行 shared memory 访问模式,性能翻倍...
-
量化算子从入门到实践:INT8/INT4/FP8 全面指南
当你的 LLM 跑在 8×A100 上依然 OOM,当推理延迟死活压不进 100ms,当你想把 70B 模型塞进单张消费级显卡——量化(Quantization) 是解决这些问题最成熟的武器。从 INT8 的 Tensor Core ...
-
LLM 自动化测试用例生成:Agentless 思路的背景调研
缘起 我在思考一个问题:现在有很多用 LLM Agent 自动生成测试用例的研究,但大部分都是在调优 Agent 策略来提升质量。能不能反过来——用 Agentless(固定流程) 的思路,通过定义清晰的测试生成流水线,既保证效果、又...
-
LLM 评估体系专栏 #1:从「凭感觉」到自动化 Eval 管道
为什么需要一个评估专栏
-
B端企业入驻订单聚合系统:从设计到优化的完整复盘
项目背景 这是一个 B 端企业入驻管理的 Demo 项目——核心场景是:企业方提交入驻申请表单(商户信息/房源/商品/报表),运营方根据地理位置批量聚合处理,并统计提交成功率
-
Geohash 原理与实践:从 B 端地理聚合看空间编码
为什么聊 Geohash