2026-06-29

AI算子硬件适配实战：从NVIDIA到昇腾，四大平台编程范式全解析

2026-06-29 AI算子硬件适配CUDAROCmAscendIntel编译器

🌍 缘起：算子跨平台，AI Infra 的"巴别塔难题"

大模型时代，AI 算子的战场早已不局限于 NVIDIA GPU。AMD 的 MI300X 在 MLPerf 上紧追不舍，华为昇腾在国产化替代中快速迭代，Intel 的 AMX 矩阵扩展让 CPU 也能高效跑推理——**硬件百花齐放的背后，是 AI Infra 工程师绕不开的"巴别塔难题"**：同一个 matmul，在 NVIDIA 上用 Tensor Core 的 WMMA API，在 AMD 上用 Matrix Core 的 MFMA 指令，在昇腾上用 Cube Unit 的立方体运算，在 Intel 上走 AMX TILE 寄存器——每种硬件都有自己的编程语言、内存模型和加速单元，写一套算子锁一个平台。

这篇博客源于我们团队在多硬件算子适配上的真实调研。我们将从四大硬件平台的编程范式出发，深入到统一编译框架（Triton/MLIR/TVM BYOC），最后给出多平台适配策略清单。无论你是需要将 CUDA 算子迁移到 AMD、要在昇腾上写高性能 kernel，还是在评估统一编译方案，这篇文章都会提供一手技术参考。

⚡ 第一节：NVIDIA GPU 平台 — 行业基准，一切从这里开始

CUDA Core vs Tensor Core

NVIDIA GPU 的核心计算单元分为两类——这是理解一切 GPU 算子的起点。

维度	CUDA Core	Tensor Core
本质	通用标量/向量计算单元	专用矩阵乘加单元
精度	FP32/FP64 等全精度	FP16/BF16/INT8/INT4 等混合精度
每时钟周期操作	1 个标量操作	一个 4×4 矩阵乘加（64 个 FMA）
编程方式	标准 CUDA C++	WMMA API / PTX mma 指令
适用场景	通用并行计算	深度学习的矩阵运算核心

核心差异：Tensor Core 将一个 4×4 矩阵乘加（D = A×B + C）封装为单条指令，在一个时钟周期内完成 64 个 FMA 操作。而 CUDA Core 每个周期只能执行 1 个标量 FMA。Volta 引入第一代 Tensor Core（仅 FP16），Turing 扩展至 INT8/INT4/INT1，Ampere 加入稀疏 Tensor Core（2:4 结构化稀疏），Hopper 引入 FP8 和第四代 Tensor Core。

WMMA API（Warp-level Matrix Multiply-Accumulate）

CUDA 9.0 引入了 WMMA API，允许开发者在 warp 级别进行矩阵运算：

#include <mma.h>
using namespace nvcuda;

// 声明 tile 分片
wmma::fragment<wmma::matrix_a, 16, 16, 16, half, wmma::row_major> a_frag;
wmma::fragment<wmma::matrix_b, 16, 16, 16, half, wmma::col_major> b_frag;
wmma::fragment<wmma::accumulator, 16, 16, 16, float> c_frag;

// 加载数据到 fragment（寄存器）
wmma::load_matrix_sync(a_frag, d_A, 16);
wmma::load_matrix_sync(b_frag, d_B, 16);
wmma::fill_fragment(c_frag, 0.0f);

// 执行矩阵乘加（warp 内所有线程协作）
wmma::mma_sync(c_frag, a_frag, b_frag, c_frag);

// 存储结果
wmma::store_matrix_sync(d_C, c_frag, 16, wmma::mem_row_major);

编程要点：

隐式 warp barrier 同步
tile 尺寸固定为 16×16×16（M×N×K）
每个线程持有 fragment（寄存器），32 线程共享 256 元素的 tile
PTX 级别对应 mma.sync 指令

Hopper 架构特色

TMA（Tensor Memory Accelerator） — H100 引入的硬件单元，用于异步张量数据搬运：

支持 1D~5D 张量的异步传输（Global Memory ↔ Shared Memory）
硬件管理地址生成和边界检查，释放寄存器压力
通过 cp.async.bulk 指令使用，支持多播（multicast）到多个 SM
与软件流水线（software pipeline）深度集成

WGMMA（Warp Group Matrix Multiply-Accumulate）：

将 Tensor Core 操作扩展至 warp group 级别（2 个 warp = 64 线程）
更大的 tile 尺寸（如 64×256×32），减少循环迭代次数
与 TMA 配合实现计算-搬运完全重叠

DPX（Dynamic Programming Acceleration）：

新增专用指令加速动态规划算法（如 Smith-Waterman、Needleman-Wunsch）
用于基因组学、路径规划等非矩阵运算场景

CUDA Graph

原理：将多个 kernel launch 打包为一张静态图，一次性提交给 GPU，消除 CPU 侧的 launch 开销。

两种构建方式：

显式 API：手动创建图节点和边（cudaGraphAddKernelNode）

Stream Capture 自动录制（推荐）：

cudaStreamBeginCapture(stream, cudaStreamCaptureModeGlobal);
kernelA<<<grid, block, 0, stream>>>();
kernelB<<<grid, block, 0, stream>>>();
cudaStreamEndCapture(stream, &graph);
cudaGraphInstantiate(&execGraph, graph);
cudaGraphLaunch(execGraph, stream);

推理场景价值：

PyTorch 通过 torch.cuda.CUDAGraph 封装
推理引擎（vLLM、TensorRT-LLM）使用"分桶"策略——为不同 batch size 预录多张图
限制：图拓扑必须静态，不能有依赖 tensor 值的条件分支；capture 期间不能同步；需要 warmup 触发 lazy 初始化

适用场景：大量小算子的推理工作负载，每个 kernel 执行时间与 launch 开销相当时收益最大。

🔧 第二节：AMD ROCm 平台 — CUDA 兼容路线，开源生态的追赶者

HIP 编程模型

HIP（Heterogeneous-compute Interface for Portability）是 ROCm 的核心编程模型，目标是 API 级别的 CUDA 兼容。

HIP vs CUDA 对比

概念	CUDA	HIP
线程	thread	work-item
线程块	block	workgroup
网格	grid	grid
warp	warp	wavefront（64 threads on AMD）
共享内存	`__shared__`	`__shared__`
全局内存	`__global__`	`__global__`
设备函数	`__device__`	`__device__`
同步	`__syncthreads()`	`__syncthreads()`
编译器	nvcc	hipcc（基于 Clang/LLVM）

代码兼容性示例：

// HIP 代码 — 几乎与 CUDA 相同，仅头文件不同
#include <hip/hip_runtime.h>
__global__ void saxpy(float a, float *x, float *y, int n) {
    int i = hipBlockIdx_x * hipBlockDim_x + hipThreadIdx_x;
    if (i < n) y[i] = a * x[i] + y[i];
}

hipify 工具：自动将 CUDA 源码转换为 HIP 源码，支持大多常见 CUDA API 的自动翻译。

ROCm 软件栈层次

深度学习框架 (PyTorch/TensorFlow)
       ↓
   HIP 编程接口
       ↓
   ROCr 运行时 (HSA 基础架构)
       ↓
   ROCk 内核驱动
       ↓
   AMD GPU 硬件

高性能算子库

组件	功能	CUDA 对标
rocBLAS	BLAS 线性代数	cuBLAS
rocThrust	并行算法模板库	Thrust
MIOpen	深度学习卷积/池化等	cuDNN
rocFFT	FFT 计算	cuFFT
rocRAND	随机数生成	cuRAND
RCCL	集合通信	NCCL
Tensile	张量计算内核生成	cuBLAS 内核

Composable Kernel（CK）模板化设计

CK 是 ROCm 的核心算子开发框架，通过 C++ 模板在编译期生成高性能 kernel。

设计思想：

DeviceGemmMultipleD_Xdl_CShuffle<  // 模板化 kernel 实例
    // 1. 数据类型
    F16, F16, F16, F32,            // A, B, D, E 的数据类型
    // 2. 数据布局
    RowMajor, ColMajor, RowMajor,   // A, B, D 的存储布局
    // 3. 额外操作
    PassThrough, PassThrough,      // 元素级前/后处理操作
    // 4. 性能调优参数
    M16, N16, K16,                 // tile 尺寸
    GemmSimd,                      // 流水线策略
    CLustered                      // 跨 wave 调度
> gemm_instance;

CK-Tile 的新概念（CK 1.0+）：

TilePartitioner：将问题规模映射到 GPU 层次
GemmPipeline：基于 tile 的计算流水线
流水线策略：管理内存中的数据布局（坐标变换）
尾部处理：算子流水线完成后的后缀操作

优势：

编译期模板实例化，零运行时开销
支持算子融合（如 GEMM + Bias + ReLU 融合为一个 kernel）
支持多架构代码生成（通过模板特化适配不同 GPU）
开源且可扩展

🔩 第三节：华为昇腾 Ascend NPU 平台 — 达芬奇架构，国产化的硬核之路

达芬奇架构（Da Vinci Architecture）

昇腾 AI 处理器的核心架构，每个 AI Core 包含：

计算单元	功能	类比
Cube Unit（立方体单元）	INT8/FP16 矩阵乘加（GEMM）	NVIDIA Tensor Core
Vector Unit（向量单元）	逐元素运算（激活函数、归一化）	CUDA Core
Scalar Unit（标量单元）	控制流和地址计算	——
Unified Buffer (UB)	片上高速 SRAM（~几 MB）	Shared Memory
L0/L1 Buffer	更小更快的本地缓存	L1 Cache

数据搬运路径：

Global Memory (HBM) → L2 Cache → Unified Buffer → L0 → Cube/Vector

Ascend C 编程模型

Ascend C 是 CANN 7.0+ 推出的新一代算子开发语言，基于 C++17 扩展。

三层抽象模型

抽象层	存储位置	作用	关键 API
Global	HBM（全局内存）	存放输入/输出张量	`global_tensor`
Local	Unified Buffer (UB)	片上高速缓存，暂存分块数据	`local_tensor`
Pipeline	——	控制数据搬运与计算流水线	`pipeline` / `DataCopyPipe`

编程范式

#include "kernel_operator.h"
using namespace AscendC;

constexpr int32_t BLOCK_NUM = 8;     // AI Core 数量
constexpr int32_t TILE_NUM = 8;      // 每个 Core 处理的 tile 数

// 核函数入口
__aicore__ void vector_add(GM put_in, GM put_in2, GM put_out) {
    // 获取当前核 ID
    uint32_t blockId = GetBlockId();
    uint32_t blockSize = (totalElements + GetBlockNum() - 1) / GetBlockNum();

    // 片上内存分配
    LocalTensor<float> inLocal = LocalTensor<float>(BLOCK_LENGTH);
    LocalTensor<float> outLocal = LocalTensor<float>(BLOCK_LENGTH);

    // 初始化数据管道
    DataCopyPipe pipeIn, pipeOut;

    // 主计算循环：搬运 → 计算 → 写回
    for (uint32_t i = 0; i < blockSize; i += BLOCK_LENGTH) {
        DataCopy(inLocal, put_in + startIdx + i, BLOCK_LENGTH);
        Add(outLocal, inLocal, put_in2 + startIdx + i, BLOCK_LENGTH);
        DataCopy(put_out + startIdx + i, outLocal, BLOCK_LENGTH);
    }
}

关键特性：

显式内存管理：手动分配和释放 UB 内存
流水线并行：通过 pipeline API 实现计算与搬运重叠
内置高性能 API：CopyIn、CopyOut、Cube、Vector 等
孪生调试：CPU 仿真调试 + NPU 真实运行

CANN 算子开发流程（TBE DSL vs TIK vs Ascend C）

在 Ascend C 出现之前，TBE 是主要算子开发框架，基于 TVM 扩展。

维度	TBE DSL	TBE TIK	Ascend C
语言	Python + DSL	Python TIK	C++17 扩展
抽象级别	高（黑盒）	中低	中（可控性强）
调度控制	自动优化	手动控制	显式管理
性能上限	中	高	极高（接近理论峰值）
调试支持	有限	有限	IDE 调试支持
学习成本	低	中	中

DSL 示例（快速但黑盒）：

@register_op_compute("add_dsl")
def add_dsl_compute(x1, x2, y, kernel_name="add_dsl"):
    res = tbe.vadd(x1, x2)    # 单行 API 调用
    return res

TIK 示例（手动控制调度）：

with tik_instance.for_range(0, BLOCK_NUM, block_num=BLOCK_NUM) as i:
    data = tik_instance.Tensor("float16", (N,), name="data", scope=tik.scope_ubuf)
    tik_instance.data_move(data, gm_input[i * N], 0, 1, N // 16, 0, 0)
    tik_instance.vec_add(N // 16, data, data, 1, 8, 8, 8)
    tik_instance.data_move(gm_output[i * N], data, 0, 1, N // 16, 0, 0)

CANN 算子完整构成（四个交付件）：

算子原型定义（.cc/.h）：输入输出描述、shape 校验
算子适配插件（.cc）：对接不同 AI 框架（TensorFlow/PyTorch）
算子信息库（.ini）：算子属性、计算资源需求
算子实现（.py/.cpp）：实际计算逻辑

算子编译运行流程：

算子代码 → TBE 编译器 → .o + .json（算子 kernel）
                                           ↓
FE（Fusion Engine）→ 图编译 → 离线模型 (.om)
                                           ↓
Runtime → AI Core / AI CPU → 执行

🖥️ 第四节：英特尔平台 — CPU 也疯狂，AMX 让矩阵运算不再专属 GPU

oneAPI DPC++ / SYCL

oneAPI 是英特尔的统一编程模型，核心是 SYCL（基于 C++ 的异构编程标准）。

SYCL 编程模型：

#include <sycl/sycl.hpp>

void vector_add(const float* a, const float* b, float* c, int n) {
    sycl::queue q;
    q.submit([&](sycl::handler& h) {
        sycl::accessor acc_a{a, h, sycl::read_only};
        sycl::accessor acc_b{b, h, sycl::read_only};
        sycl::accessor acc_c{c, h, sycl::write_only};

        h.parallel_for(num_items, [=](auto i) {
            acc_c[i] = acc_a[i] + acc_b[i];
        });
    });
}

核心概念：

queue：提交任务到设备
buffer/accessor：数据管理抽象
handler：命令组处理器
device_selector：设备选择（CPU/GPU/FPGA）

跨平台能力：

Intel CPU/GPU/iGPU
NVIDIA GPU（通过 Codeplay 插件）
AMD GPU（通过 Codeplay 插件）
FPGA

oneDNN（原 MKL-DNN）

oneDNN 是面向深度神经网络的高性能原语库。

支持的硬件原语：

操作类型	CPU 加速	GPU 加速
卷积 (Convolution)	AVX-512 / AMX	Xe Matrix Extensions (XMX)
矩阵乘 (GEMM/MatMul)	AMX TILE + TMUL	XMX
池化 (Pooling)	AVX-512	——
归一化 (Batch/Layer Norm)	AVX-512	——
激活函数 (ReLU/Sigmoid等)	AVX-512	——

AMX（Advanced Matrix Extensions）

AMX 是 Intel 第四代/第五代至强处理器内置的矩阵加速硬件。

架构组成：

TILE 寄存器：8 个 2D 寄存器（每个最大 16行×64字节 = 1KB）
TMUL（Tile Matrix Multiply Unit）：与 TILE 连接的矩阵乘加速引擎

性能对比：

指令集	每周期 INT8 操作数	每周期 BF16 操作数
AVX-512 VNNI	256	——
AMX	2048	1024

使用方式（通过 oneDNN 自动调度，无需手动编写 AMX 指令）：

PyTorch：torch.cpu.amp.autocast() 自动使用 BF16 + AMX
TensorFlow：TF_ENABLE_ONEDNN_OPTS=1 + ONEDNN_DEFAULT_FPMATH_MODE=BF16
量化推理：通过 oneDNN INT8 原语自动利用 AMX

OpenVINO 算子 IR

OpenVINO 是 Intel 推理优化工具套件，核心是中间表示（IR）。

IR 文件结构：

.xml：网络拓扑结构、层/算子定义、参数
.bin：权重和偏置的二进制数据

模型转换流程：

PyTorch/TF/ONNX → Model Optimizer → IR (.xml + .bin) → Inference Engine → CPU/GPU/VPU

硬件适配机制：

AUTO 设备选择：自动选择 CPU、GPU、VPU 或组合（HETERO）
算子映射层：将 IR 算子映射到各硬件的实现
支持插件式硬件后端扩展

🔬 第五节：统一编译框架 — 写一次 kernel，跑遍所有平台

Triton 硬件后端适配

OpenAI Triton 是基于 tile 的 Python DSL 编译器，核心是算子级高性能代码生成。

Triton 编译流程

Python DSL (triton.jit)
       ↓
   Triton IR (Python AST 降级)
       ↓
   MLIR Triton Dialect           ← 核心：MLIR 中间表示
       ↓
   MLIR 通用 Dialect (Arith/SCF/GPU/Vector)
       ↓
   LLVM IR / NVVM IR
       ↓
   目标机器码 (PTX/AMD GCN/SPIR-V)

硬件后端适配方案

Triton 官方支持：

NVIDIA GPU：通过 LLVM/NVVM 生成 PTX
AMD GPU：通过 LLVM AMDGPU 后端生成 GCN 码

第三方后端适配（自研芯片）：

推荐路径：将 Triton Dialect lowering 到已有通用 MLIR Dialect（Vector/GPU），再利用社区后端生成代码
深度路径：定义自己的硬件 Dialect，实现 Triton Dialect → 自定义 Dialect 的转换规则
需实现：Pattern Rewrite、Dialect Conversion、Runtime 接口

Triton 编程模型：

import triton
import triton.language as tl

@triton.jit
def matmul_kernel(a_ptr, b_ptr, c_ptr, M, N, K, BLOCK_SIZE: tl.constexpr):
    pid = tl.program_id(0)
    pid_m = pid // (N // BLOCK_SIZE)
    pid_n = pid % (N // BLOCK_SIZE)

    offs_am = pid_m * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
    offs_bn = pid_n * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
    offs_k = tl.arange(0, BLOCK_SIZE)

    a = tl.load(a_ptr + offs_am[:, None] * K + offs_k[None, :])
    b = tl.load(b_ptr + offs_k[:, None] * N + offs_bn[None, :])
    c = tl.dot(a, b)  # 自动使用 Tensor Core
    tl.store(c_ptr + offs_am[:, None] * N + offs_bn[None, :], c)

与 TVM/XLA 的核心差异：

维度	Triton	TVM	XLA
设计哲学	算子优先、Python 原生	端到端编译、跨平台	静态图优化
编程体验	Python DSL，算法思维	多层 IR（Relay/TE/TIR）	HLO IR
硬件适配	MLIR Dialect 栈	BYOC / TOPI 代码生成	LLVM + 专用后端
生态定位	PyTorch 算子加速器	多框架通用编译器	TF/JAX 专属编译器

MLIR Lowering — AI 编译器的"共识底座"

MLIR（Multi-Level Intermediate Representation）是 LLVM 项目下的编译器基础设施框架。

核心概念：

Dialect（方言）：一组操作的集合，代表特定抽象层次
Operation（操作）：计算/控制流的基本单元
Pass（优化 pass）：IR 转换和优化的驱动

AI 相关的关键 Dialect 层次：

高级抽象层：
  TensorFlow Dialect / Torch-MLIR
        ↓
  TOSA (可移植算子集) / MHLO (StableHLO)
        ↓
  Linalg (线性代数泛化) / SCF (结构化控制流)
        ↓
  Vector / GPU Dialect
        ↓
  LLVM Dialect
        ↓
  目标机器码

MLIR 在算子适配中的价值：

多层 IR 降低跨硬件难度：上层 Dialect 可逐步 lowering 到底层
可插拔后端：不同硬件只需实现从 Vector/GPU Dialect → LLVM → 目标机这一步
Triton Dialect 映射：Triton 的 MLIR 重构使其从"单后端编译器"变为"编译器框架"

TVM BYOC（Bring Your Own Codegen）框架

BYOC 框架允许硬件厂商将自研加速器的编译软件栈集成到 TVM 中。

架构流程：

Relay IR（TVM 的计算图 IR）
       ↓
   图分割 (Partitioning)     ← 按算子支持范围切分子图
       ↓
   异构计算图 (Heterogeneous Graph)
       ↓
   不同后端：CPU/GPU/加速器
       ↓
   Codegen + Runtime Module

核心步骤：

Pattern 匹配注册：定义加速器支持的算子模式（pattern_table）
图分割（Partitioning）：将 Relay 图切分为"加速器子图"和"CPU 回退子图"
代码生成（Codegen）：
- C Codegen 路径：生成 C 代码（对接已有 C/C++ 库）
- Graph Engine 路径：生成 JSON/Protobuf（对接厂商推理引擎）
运行时集成（Runtime Module）：实现 GetFunction/SaveToBinary/LoadFromBinary

已对接的商业加速器：

Intel OpenVINO / oneDNN
NVIDIA TensorRT
ARM Ethos-N NPU
Xilinx Vitis-AI（FPGA）
Qualcomm Hexagon DSP

BYOC 的核心价值：

解耦"通用优化"与"厂商特定优化"
厂商只需约千行代码即可接入
无需修改 TVM 核心代码，保持上游兼容

📊 第六节：多平台对比总结 — 一张表看清所有差异

编程模型一览

维度	NVIDIA CUDA	AMD ROCm/HIP	华为 Ascend C	Intel oneAPI/SYCL
语言	C++ 扩展	C++ 扩展 (HIP)	C++17 扩展	C++ 标准 (SYCL)
核心抽象	thread/block/grid	work-item/workgroup/grid	block/tile/pipeline	queue/handler/accessor
内存模型	global/shared/local/reg	global/LDS/private	HBM/UB/L0/reg	buffer/accessor
矩阵加速	Tensor Core (WMMA)	Matrix Core (MFMA)	Cube Unit	AMX / XMX
编译器	nvcc → PTX → SASS	hipcc → LLVM → GCN	Ascend C Compiler	DPC++ → LLVM → target
开源程度	闭源	开源	部分开源 (CANN)	开源

算子开发范式对比

开发范式	代表平台	抽象层级	性能上限	开发效率
底层指令内联	CUDA PTX, AMX asm	最低	最高	最低
高层库调用	cuDNN, rocBLAS, oneDNN	最高	中	最高
模板化 Kernel	CK, CUTLASS	中	高	中
DSL 描述	Triton, TBE DSL	中	中高	高
统一编程模型	SYCL, HIP	中	中高	中高
编译器 IR	MLIR Dialect, TVM Relay	中低	高	中

关键差异矩阵（适配关注点）

关注点	NVIDIA	AMD	华为	Intel
Warp/线程束大小	32	64 (wavefront)	无 warp 概念 (AI Core)	SIMD width 可变
共享内存大小	48~228 KB/SM	64~128 KB/CU	UB ~几 MB/AI Core	L1 cache
矩阵乘 tile	16×16×16 (WMMA)	16×16×16 (MFMA)	自定义 (Cube)	16×64 (AMX TILE)
编程兼容性	—— (基准)	HIP 源码级兼容 CUDA	独立 API	SYCL 兼容多种后端
调试工具	Nsight, cuda-gdb	ROCm-gdb, rocprof	MindStudio	Intel VTune, Advisor
生态成熟度	★★★★★	★★★☆☆	★★★☆☆	★★★★☆

编译器/编译框架汇总

框架	定位	目标用户	硬件覆盖
Triton	算子级编译器	AI 研究员、算子开发者	NVIDIA, AMD, 自研芯片(扩展)
TVM	端到端模型编译器	推理部署工程师	CPU/GPU/加速器(超过20种)
MLIR	编译器基础设施	编译器开发者	任何硬件(需实现 Dialect)
XLA	框架内编译器	TF/JAX 用户	GPU/TPU/CPU
Torch-MLIR	PyTorch→MLIR 桥	PyTorch 编译器开发者	对接 MLIR 生态

🎯 下一步：多硬件适配策略建议

综合以上分析，我们总结出四条经过验证的适配路径：

快速迁移路径：优先使用 HIP（CUDA→AMD）或 SYCL（CUDA→Intel），最小化代码改动。如果你的团队已经有一批 CUDA 算子，hipify 可以帮你自动转换 90% 以上的代码，剩余 10% 主要处理 wavefront 大小差异和特定 API 的微调。
高性能路径：使用 Triton DSL 开发一次、多后端编译。配合 FlagTree 等增强编译器，Triton 正在从"NVIDIA 专用 DSL"变为真正的跨平台方案。注意 Triton 的 AMD 后端已官方支持，昇腾适配也正在社区推进中。
极致优化路径：使用统一编译框架（MLIR Dialect/TVM BYOC）+ 各平台底层库。如果你的团队有编译器工程师，在 MLIR 层面定义自己的 Dialect 是最高性价比的方案——你只需要关注从通用 Dialect（Vector/GPU）到目标硬件的最后一段 lowering。
国产芯片路径：关注昇腾 Ascend C 生态和 FlagOS 社区的统一方案。Ascend C 作为 C++17 扩展，编程风格贴近现代 C++ 习惯，加上 CANN 的孪生调试能力和中文文档支持，对国内团队来说学习曲线相对平缓。

编译生态的核心趋势：MLIR 已成为 AI 编译器的"共识底座"——Triton、TVM、TensorFlow 都在向其靠拢。无论你选择哪条硬件适配路径，理解 MLIR 的 Dialect 层次结构都将是值得的长期投资。