AVAILABLE POSTS
可阅读文章
当前共 153 篇文章。
-
AI算子入门比较指南
-
多头注意力完全图解:MHA/MQA/GQA/MLA的头部关系与数量约束
-
FlashAttention 完整解析:从原理到 CUDA/Triton 实现
-
深度学习框架算子体系深度解析 —— PyTorch / TensorFlow / ONNX / MLIR / TVM 全面对比
-
底层 GPU 算子深度解析:从 CUDA Kernel 到 Triton、cuBLAS、CUTLASS 与 Thrust
-
AI算子硬件适配实战:从NVIDIA到昇腾,四大平台编程范式全解析
-
推理优化与量化算子深度技术调研
-
MoE 算子完全解析:从 Routing 到 Kernel 实现
-
AI算子科研前沿:2025-2026年最热的6大研究方向
-
AI算子测试与验证完全指南
-
量化算子从入门到实践:INT8/INT4/FP8 全面指南
-
LLM 自动化测试用例生成:Agentless 思路的背景调研
-
LLM 评估体系专栏 #1:从「凭感觉」到自动化 Eval 管道
-
B端企业入驻订单聚合系统:从设计到优化的完整复盘
-
Geohash 原理与实践:从 B 端地理聚合看空间编码
-
Pythagoras-Prover 深度解读:4B 小模型如何在定理证明上击败 671B 巨兽
-
Triton Autotune 实战踩坑笔记
-
Fused MLP — Operator Fusion 的思想与实践
-
LayerNorm & RMSNorm — 从数学到融合 Kernel
-
GPU Kernel 的 Tile、Grid、Wave 与 Launch Overhead
-
从 Triton 到 Ascend NPU — 跨后端 Kernel 开发路线图
-
Triton 进阶路线图:LayerNorm、Fused MLP 与 Autotune
-
Triton & Python 技巧录
-
自演进 Skill:当 AI Agent 学会「积累经验」—— 从微软两篇新论文看 Hermes 的实践
-
Triton GPU 编程入门(三):激活函数与 Memory-Bound 分析
-
FlashAttention:为什么它改变了 Transformer 推理的游戏规则
-
GPU 编程模型全景图:从 CUDA 到 Triton,理解算子的编译与抽象层次
-
Triton 矩阵乘法深度拆解:从内存层次到分块策略
-
Triton 性能调优方法论:Roofline、Profiling 与瓶颈诊断
-
GPU 算子 Profiling 实战指南:测什么、怎么看、如何定位瓶颈
-
Triton GPU 编程入门(四):Softmax 的两种写法与 Online 算法
-
Triton GPU 编程入门(一):从 Vector Add 到 GPU 执行模型
-
Triton GPU 编程入门(二):用「工人分卡片」理解算子、Grid 与并行模型
-
vLLM 源码剖析(一):从零搭建推理压测环境
-
LLM 如何理解大型代码仓库:主流策略与技术选型指南
-
python中的一些特别性质文件
-
Test Time Training
-
pip包管理机制
-
我的第一篇博客文章
-
动态图and静态图(DL Frameworks)
-
Optimizer in Neural Network
-
大语言模型的数值精度(llm percision)
-
最短路问题实战
-
Attention in an article
-
RoPE in LLM
-
高可用的AI application系统设计
-
Params in MindSpeed-MM Training&Finetune
-
高可用中的2PC,3PC以及幂等性概念
-
图的存储专项
-
Step into MoE
-
Dropout in Deep Learning
-
GPT关于进行LLM 训练的建议
-
Residual connection 残差连接学习
-
python中的一些注解解释
-
MindSpeed框架理解
-
高可用支付系统设计
-
RabbitMQ all covered
-
MongoDB learning
-
数据库分片(Database Sharding)
-
TypeScript基本理解和语法糖
-
Node.js+TypeScript实战入门
-
软件系统设计复习(NJUSE25)
-
26届找暑期实习小结
-
How to Understand T2V Models?(Open-Sora MAINLY)
-
JVM垃圾回收
-
SpringBoot(Cloud)中,application.yml和bootstrap.yml的关联?
-
Data Structure & Algorithm Template
-
Preparation for MySQL&Redis
-
面向应用的计算机网络
-
软件系统设计——设计模式
-
操作系统八股化复习
-
Preparation for Java
-
MySQL basics operations
-
Redis实际运用
-
Step into Java and Python
-
通配符与正则匹配
-
嵌入式速通
-
C++ KEY POINTS(NJU SE 2024)
-
HCI systems(人机交互系统)(2024 NJU SE)
-
Valorant Attacking GUIDE
-
数理逻辑(2024SE)
-
rustling 分部分总结
-
Smart Contract Generation with LLM
-
Traits and Generics in RUST
-
Something Written For Freshmen
-
Linear Algebra basics
-
人机交互(SE 2024)
-
操作系统设计和实现(NJU SE)
-
C++ new features
-
机器学习(NJUSE Machine Learning)
-
池化思想与C++线程池
-
数学建模——2023年C题解析
-
pedal to the metal——HLSL
-
How to use Conan2——the perfect package manager for c++
-
AHP层次分析法
-
Basics of C++ (including OOP and Standard Library)
-
数学建模——2020年C题解析
-
数学建模——2019C题解析
-
软工二总结(缩略答案)
-
NJU SE OS
-
经典并发处理问题的多种解法
-
PV信号量与管程操作
-
高级纹理技术
-
特征工程(Feature Engineering)
-
决策树(decision tree)
-
Ray Marching
-
体积光渲染
-
Mathsmatics Modeling
-
C++ templates精粹
-
深度探索c++对象模型
-
CG专栏之——菲涅尔方程与折射率
-
CG专栏之——加速结构
-
Moer框架解析与材质实现
-
C++中的几个“左与右”
-
重构:改善既有代码的设计
-
虚函数in cpp
-
60MIN 熟悉pytorch基础
-
数据管理基础
-
SpringBoot key parts
-
BxDFs
-
GAMES001 图形学数学基础
-
真实感图形学专题整理
-
STL库解析
-
GAMES202记录
-
Ray Tracing in a weekend
-
Solidity智能合约编写学习(含prompt构建)
-
操作系统
-
数据结构Final汇总
-
COA23 homework
-
ICS Notes
-
计组机试盘点
-
LATEX入门
-
计算几何
-
GAMES101框架代码与作业解析
-
Computer Graphics
-
背包问题全解
-
软件分析(退不了课了)
-
What is GDB and how to use it
-
编译原理
-
计算机组织结构
-
How to write makefile and CMakeLists.txt
-
C PLUS PLUS(OOP part)
-
计算机网络
-
VScode的一些使用技巧
-
Java进阶模块
-
捣鼓一台Chromebook
-
关于脚本权限的问题
-
Data Structure in Java&Cpp
-
Leetcode刷题笔记
-
线性代数笔记
-
Nginx专栏
-
成型!论SSL协议配置https
-
VScode WSL配置