molqzone

Eigen 与 CMSIS-DSP 在 Cortex-M4F 上的矩阵性能实测

2026-02-17T00:00:00.000Z

前言

在嵌入式 MCU 开发中，矩阵运算是处理信号处理、控制算法及姿态解算等任务的核心。如何在高资源受约束的硬件上实现更高效的矩阵计算，始终是开发者关注的焦点。

在 C 语言生态中，CMSIS-DSP 库作为 ARM 官方提供的标准，针对 Cortex-M 系列内核进行了深度指令级优化（如 SIMD、FPU 加速）；而在 C++ 领域，Eigen 则以其高度抽象的模板元编程技术和优雅的语法享誉业界。那么，当“极致的硬件优化”遇上“高度的代码抽象”，两者在性能表现上孰优孰劣？本文旨在通过在 Cortex-M4 平台上的实测数据，深度对比这两个设计哲学迥异的数学库，探讨它们在实际嵌入式场景下的效率差异。

实验环境

硬件平台：STM32F407ZGT6（Cortex-M4F）
编译器：ST ARM Clang 19.1.6+st.10
数学库版本：Eigen 3.4.90 / CMSIS-DSP v1.17.0-4-g334ed5891

内核视角

Cortex-M4F 具备单精度 FPU，并支持以 MAC 为代表的 DSP 指令路径。放到矩阵运算语境中，两种路线的差异会非常直观：

CMSIS-DSP 的 arm_mat_mult_f32 更接近“人工精调算子”，依赖手写内核、循环展开与寄存器级调度。
Eigen 更接近“模板表达 + 编译器兑现”，依赖模板展开后由编译器完成内联、常量传播与指令选择。

因此，这组基准测试本质上是在比较手工优化上限与编译器自动优化上限在 Cortex-M4F 上的分界点。

公平性控制

两侧矩阵在内存里的存放顺序统一行主序
输入/输出矩阵全静态分配，避免动态分配抖动
DWT 周期计数，扣除计时本底
测量关键区使用临界区，降低中断干扰

核心计算

矩阵生成

矩阵样本使用线性同余发生器（LCG）state = state * 1664525 + 1013904223 生成伪随机序列，再取高 24 bit 映射到 [-1, 1) 浮点区间。为保证求逆测试稳定可执行，FillInvertibleMatrix 会在随机矩阵基础上对角线加 n，提升对角占优特性，降低奇异矩阵出现概率。

std::uint32_t LcgRng::NextU32()
{
  state_ = state_ * 1664525U + 1013904223U;
  return state_;
}

float LcgRng::NextFloatSigned()
{
  const std::uint32_t u24 = (NextU32() >> 8U) & 0x00FFFFFFU;
  const float unit = static_cast(u24) * (1.0F / 16777216.0F);
  return (unit * 2.0F) - 1.0F;  // [-1, 1)
}

void LcgRng::FillMatrix(float* dst, std::size_t n)
{
  const std::size_t elements = n * n;
  for (std::size_t i = 0; i < elements; ++i)
  {
    dst[i] = NextFloatSigned();
  }
}

void LcgRng::FillInvertibleMatrix(float* dst, std::size_t n)
{
  FillMatrix(dst, n);
  for (std::size_t row = 0; row < n; ++row)
  {
    dst[row * n + row] += static_cast(n);  // 对角增强，提升可逆性
  }
}

Eigen 实现

本文构建统一使用 EIGEN_NO_DEBUG 与 EIGEN_MPL2_ONLY，避免调试断言与无关特性对结果造成干扰。

// 针对不同的矩阵大小，3/4/6/8/10/16/32 走 fixed, 64 走 dynamic
template 
void EigenMultiplyFixed(const float* a, const float* b, float* out)
{
  using MatrixType = Eigen::Matrix;
  const Eigen::Map matrix_a(a);
  const Eigen::Map matrix_b(b);
  Eigen::Map matrix_out(out);
  matrix_out.noalias() = matrix_a * matrix_b;
}

void EigenMultiplyDynamic(std::size_t n, const float* a, const float* b, float* out)
{
  using DynamicMatrix = Eigen::Matrix;
  const Eigen::Map matrix_a(a, static_cast(n),
                                                  static_cast(n));
  const Eigen::Map matrix_b(b, static_cast(n),
                                                  static_cast(n));
  Eigen::Map matrix_out(out, static_cast(n),
                                       static_cast(n));
  matrix_out = matrix_a.lazyProduct(matrix_b);
}

template 
void EigenInverseFixed(const float* src, float* out)
{
  using MatrixType = Eigen::Matrix;
  const Eigen::Map matrix_src(src);
  Eigen::Map matrix_out(out);
  matrix_out = matrix_src.inverse();
}

CMSIS-DSP 实现

CMSIS-DSP 使用了 ARM_MATH_LOOPUNROLL 宏，以便在 M4F 平台上更激进地展开关键循环。

arm_status RunCmsisMultiply(std::size_t n, const float* a, const float* b, float* out)
{
  arm_matrix_instance_f32 matrix_a{};
  arm_matrix_instance_f32 matrix_b{};
  arm_matrix_instance_f32 matrix_out{};

  arm_mat_init_f32(&matrix_a, static_cast(n), static_cast(n),
                   const_cast(a));
  arm_mat_init_f32(&matrix_b, static_cast(n), static_cast(n),
                   const_cast(b));
  arm_mat_init_f32(&matrix_out, static_cast(n),
                   static_cast(n), out);

  return arm_mat_mult_f32(&matrix_a, &matrix_b, &matrix_out);
}

arm_status RunCmsisInverse(std::size_t n, float* src_mutable, float* out)
{
  arm_matrix_instance_f32 matrix_src{};
  arm_matrix_instance_f32 matrix_out{};

  arm_mat_init_f32(&matrix_src, static_cast(n),
                   static_cast(n), src_mutable);
  arm_mat_init_f32(&matrix_out, static_cast(n),
                   static_cast(n), out);

  return arm_mat_inverse_f32(&matrix_src, &matrix_out);
}

反汇编抽样验证

为了避免只看跑分结论，这里补一段与基线一致构建（C1）的反汇编抽样。

编译参数（摘录）

-O3 -flto -mcpu=cortex-m4 -mfpu=fpv4-sp-d16 -mfloat-abi=hard -DNDEBUG

抽样结果

实验代码中 BenchmarkMath::RunEigenMultiply 和动态乘法路径的 gebp_kernel 里，主序列是 vmul.f32 + vadd.f32
在 Eigen 主热点路径中，没有看到直接的 vmla.f32 指令
fmaf 函数本身是 vfma.f32（地址 0x080007fe），但在这个构建里属于辅助调用路径，而不是主展开内核形态
指令计数（同一抽样范围）：
- RunEigenMultiply：vmul.f32=191、vadd.f32=159、vfma.f32=0、vmla.f32=0
- gebp_kernel：vmul.f32=45、vadd.f32=49、vfma.f32=0、vmla.f32=0

这意味着本文结论应理解为：在当前编译器版本和参数下，Eigen 的矩阵乘法主要依赖编译器生成的 vmul+vadd 序列，而不是稳定的 vmla/vfma 直出。这也正是 ARM Clang 版本变化会带来波动的原因之一。

编译条件

用途	编译参数
基线发布	`-O3 -flto -DNDEBUG`
去跨单元优化	`-O3 -DNDEBUG`（no LTO）
激进浮点优化	`-O3 -flto -ffast-math -DNDEBUG`
禁循环展开	`-O3 -flto -fno-unroll-loops -DNDEBUG`
调试友好	`-Og -g -flto -DNDEBUG`
尺寸极限	`-Oz -flto -DNDEBUG`

-Ofast -flto -DNDEBUG 与 -O3 -flto -ffast-math -DNDEBUG 现象几乎重合，因此没有纳入统计

可视化

测试流程

flowchart LR
  A[编译条件组合] --> B[矩阵尺寸集合]
  B --> C[矩阵数据生成]
  C --> D[Warm-up 预热]
  D --> E[Eigen DWT 计时]
  D --> F[CMSIS-DSP DWT 计时]
  E --> G[误差校验与异常剔除]
  F --> G
  G --> H[3轮汇总与几何均值]
  H --> I[可视化与拐点分析]

基线绝对周期图（`-O3 -flto -DNDEBUG`）

单图概览

不同编译条件下的矩阵求逆曲线（Eigen/CMSIS）

不同编译条件下的矩阵乘法曲线（Eigen/CMSIS）

总结

3 轮汇总后可以得到一个稳定结论：主拐点出现在 N = 8 附近（-Oz 例外更早，在 N = 3 即接近持平）。

编译参数	几何均值 (E/C)	乘法首次达到 `E/C >= 1` 的尺寸
`-O3 -flto -DNDEBUG`	0.754	8
`-O3 -DNDEBUG`（no LTO）	0.769	8
`-O3 -flto -ffast-math -DNDEBUG`	0.731	8
`-O3 -flto -fno-unroll-loops -DNDEBUG`	0.740	8
`-Og -g -flto -DNDEBUG`	0.810	8
`-Oz -flto -DNDEBUG`	0.957	3

可见：在 Cortex-M4F 上，Eigen 与 CMSIS-DSP 的优劣主要由矩阵规模与优化目标共同决定。对于 N < 8 的微小矩阵，Eigen 更容易依靠模板展开、全内联和常量传播摊薄调用与索引开销；当 N >= 8 进入常规矩阵区间后，CMSIS-DSP 的内核级调度与手写算子优势开始稳定体现，且在求逆场景中更明显；而在 -Oz 这类尺寸优先策略下，两者差距会显著收敛，本质上是通过牺牲峰值性能换取代码体积收益。落到算法选型上，可优先将姿态解算、标定这类 3x3~6x6 小矩阵场景交给 Eigen，将中等状态量 EKF、RLS 等 8 阶以上且求逆频繁的场景交给 CMSIS-DSP；若同一工程同时覆盖两类热点，按路径混用并在目标编译参数下复测通常更稳妥。

One More Thing: 产物大小

对比口径

固定编译参数：-O3 -flto -DNDEBUG（同一工程、同一链接脚本）
仅切换两个开关：BENCHMARK_ENABLE_EIGEN、BENCHMARK_ENABLE_CMSIS
.text 用于观察代码体积变化
Flash 估算 = .text + .rodata + .data
RAM 静态占用 = .data + .bss
统计工具：starm-size -A

实验结果

组合	Eigen	CMSIS-DSP	`.text` (B)	Flash 估算 (B)	RAM 静态占用 (B)	相对 baseline 增量（Flash / RAM）
baseline（两库都关闭）	OFF	OFF	59264	60116	63628	0 / 0
仅 Eigen	ON	OFF	90528	91380	80032	+31264 / +16404
仅 CMSIS-DSP	OFF	ON	66128	66980	96396	+6864 / +32768
Eigen + CMSIS-DSP	ON	ON	99808	100660	112800	+40544 / +49172

这个口径下可见，Eigen 在本项目里的主要开销更偏向 Flash（模板实例化导致 .text 增量较大），CMSIS-DSP 的主要开销更偏向静态 RAM（本工程配置下 .bss 增量更明显）。两库同时启用时，占用接近两者增量叠加。

这里的 RAM 增量是“当前 benchmark 固件实现”的总增量，包含库函数可达后被保留的静态工作缓冲区，不等同于“库源码本体独立打包大小”。

手把手教你配置 STM32CubeIDE for VSCode 下基于 OpenOCD 的调试配置

2025-11-22T00:00:00.000Z

如果你在使用 STM32CubeIDE for VSCode 插件，可能会发现它默认的烧录工具只完美支持正版 STLink。市面上几十块钱的仿制 STLink 经常出现连接不稳定、烧录失败、甚至无法识别的"玄学"问题。

为了彻底解决这个问题，我们推荐使用 DAPLink 调试器配合 OpenOCD。这不仅能解决烧录问题，还能让你拥有一套适用于几乎所有 ARM 芯片（不仅限于 STM32）的通用开发环境。本教程将以 STM32CubeIDE for VSCode 生成的项目为基础，教你如何"外挂" OpenOCD 来接管烧录和调试工作。

本教程虽然以 STM32CubeIDE for VSCode 为例，但同样适用于任何基于 OpenOCD 的工具链配置，只需要稍作修改。

[!warning]

本教程涉及 Scoop 的安装。安装 Scoop 前需要检查自己的用户文件夹是否含有中文，如果有中文会导致安装后无法正常使用，且卸载复杂的后果。可以修改默认用户文件夹或重装系统，建议重装系统。

硬件准备

选购 DAPLink

市场上 5-20 元的 DAPLink 基本就可以满足日常使用需求。可以买一个淘宝九块九的 PowerWriter 2 Lite，性价比高。

[!tip]

Why DAPLink？

DAPLink 是 ARM 官方推出的开源调试协议。与 STLink（仅支持 STM32）不同，DAPLink 几乎可以覆盖所有 ARM 内核的设备，通用性更强。

检查驱动 (WinUSB)

大多数 DAPLink 插上就能用。但为了确保 OpenOCD 能通过 libusb 访问它，建议检查一下：

插上调试器。
右键此电脑，在右键菜单选择 管理。打开设备管理器，看是否有 CMSIS-DAP 或 WinUSB 设备。

安装 OpenOCD

OpenOCD 可以通过 Scoop 安装或者在 GitHub Release 直装（直装后建议添加 OpenOCD 到环境变量）。

推荐使用 Scoop 安装 OpenOCD，方便后续的维护

在开始菜单搜索 PowerShell，启动 PoweShell
安装 Scoop

Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
Invoke-RestMethod -Uri https://get.scoop.sh | Invoke-Expression

安装 OpenOCD

scoop install openocd

安装完成后，检查 OpenOCD 是否正确安装

openocd --version

若显示版本号说明安装成功。如：

Open On-Chip Debugger 0.12.0 (2023-01-14-23:37)
Licensed under GNU GPL v2
For bug reports, read
        http://openocd.org/doc/doxygen/bugs.html

[!tip]

你的电脑无法直接对芯片说："把这个程序写进你的 Flash 里"，所以我们需要引入一个程序用来把用户的调试操作转换成芯片能听懂的指令，这个程序在这儿教程中就是 OpenOCD。它一边听懂电脑发出的命令（GDB协议），一边控制 USB 调试器发出高低电平（JTAG/SWD协议），像"牵线木偶"一样控制芯片。它的核心价值就是用一套软件，桥接不同调试器（DAPLink/STLink）与不同芯片，让烧录和调试变得通用。

配置烧录功能

VSCode 本身只是一个编辑器，并不懂烧录，我们需要写一个"任务说明书"告诉它该怎么做。

创建烧录任务

在VSCode中打开你的项目
按 Ctrl + Shift + P，输入 Tasks: Configure Task
选择 Create tasks.json file from template → Others
完全替换文件内容如下（注意看注释修改芯片型号）:

{
    "version": "2.0.0",
    "tasks": [
        {
            "label": "Flash Target",
            "type": "shell",
            "command": "openocd",
            "args": [
                "-f", "interface/cmsis-dap.cfg", // 使用 DAPLink
                "-f", "target/stm32f1x.cfg", // 根据你的芯片修改！例如 stm32f4x.cfg, stm32h7x.cfg
                // 下面这行代码会自动获取 STM32CubeIDE 插件编译出的 elf 文件路径,如果环境不是基于 STM32CubeIDE for VSCode 则需要将环境变量替换为具体可执行文件位置，具体可以问 AI
                "-c", "program ${command:st-stm32-ide-debug-launch.get-projects-binary-from-context1} verify reset exit"
            ],
            "group": {
                "kind": "build",
                "isDefault": true
            },
            "presentation": {
                "echo": true,
                "reveal": "always"
            }
        }
    ]
}

开始烧录

配置完成后，按 Ctrl + Shift + P，输入 "Run Task"，选择 "Flash Target" 即可开始烧录。

添加一键烧录按钮

不想每次按快捷键？装个插件做个按钮。

Ctrl + Shift + X，打开扩展页，搜索 Task Buttons 并安装

Ctrl + , 打开设置页，在 Extensions -> VsCodeTaskButtons 找到 Tasks，选择 Edit in settings.json

在 settings.json 追加：

    "VsCodeTaskButtons.tasks": [
        {
            "label": "$(play) Flash Target",
            "task": "Flash Target",
            "tooltip": "Flash the ordered MCU"
        }
    ],

[!tip]

task.json 本质上是一张"自动化任务说明书"

VSCode 只懂得编辑文字。你想让它帮你做点"额外的事"，比如烧录程序，但它自己完全不知道"烧录"是什么。

但是 VSCode 会自己去读 .vscode 文件夹下的 task.json。比如我们配置的 task.json 上面详细写着：

任务名称："烧录程序"

具体步骤："请调用电脑里的 openocd 这个工具，并把这些参数（比如调试器类型、芯片型号、程序文件位置）一字不差地传给它。"

所以，task.json 解决的核心问题是──在 VSCode 这个图形界面里架起一座桥梁，连接友好的图形界面和底层强大的命令行工具。

如果感兴趣，你可以借助 AI 去了解我们配置的 task.json 上的每一个参数究竟告诉 VSCode 怎么正确执行这个任务。

配置调试功能

安装 Everything

可以从微软官方商店搜索，或者使用 WinGet 安装。

使用 WinGet 安装 Everything

按刚刚的步骤打开 PowerShell，安装 Everything
winget install voidtools.Everything

确认 arm-none-eabi-gdb 位置

我们需要找到调试器（GDB）的位置：

使用 Everything 搜索 arm-none-eabi-gdb.exe，找到路径包含 gnu-tools-for-stm32 的那个结果
通常路径类似：AppData/Local/stm32cube/bundles/gnu-tools-for-stm32/13.3.1+st.9/bin/arm-none-eabi-gdb.exe
在目标文件右键，在右键菜单中选择 复制为路径，将路径保存好

[!tip]

什么是 GDB？

GDB 是连接你的源代码和芯片实际运行的"桥梁调试器"，它负责和程序对话。它解决了在嵌入式开发中"代码如何真正在芯片上执行"的黑盒问题。

当程序在芯片上运行时，GDB 允许你"暂停时间"——查看变量当前值、分析函数调用关系、跟踪程序执行流程。没有 GDB，调试就像蒙着眼睛找错误；有了 GDB，你可以精确观察程序每一步的行为。

简单说：OpenOCD 让电脑能"接触"到芯片，而 GDB 让开发者能"理解"芯片上正在发生什么。

安装 Cortex Debug 扩展

Ctrl + Shift + X，打开扩展页，搜索 Cortex Debug 并安装

Ctrl + Shift + D，打开运行或调试页，点击 create a launch.json file，这会在你的项目根目录下的 .vscode 文件夹新建一个 launch.json。你也可以自己手动创建。

点击 create a launch.json file 后，在上方选项选择第一项，然后下拉框选择 Cortex Debug: OpenOCD。或者你也可以打开 launch.json 文件，点击右下角的 Add Configuration...，同样选择 Cortex Debug: OpenOCD。

补全配置，添加 GDB 路径：

{
    // Use IntelliSense to learn about possible attributes.
    // Hover to view descriptions of existing attributes.
    // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
    "version": "0.2.0",
    "configurations": [
        {
            "cwd": "${workspaceRoot}",
            "executable": "${command:st-stm32-ide-debug-launch.get-projects-binary-from-context1}",
            "name": "Debug with OpenOCD",
            "request": "launch",
            "type": "cortex-debug",
            "servertype": "openocd",
            "configFiles": [
            	"interface/cmsis-dap.cfg",
            	"target/stm32f1x.cfg"
            ],
            "searchDir": [],
            "runToEntryPoint": "main",
            "showDevDebugOutput": "none",
            "gdbPath": ".../AppData/Local/stm32cube/bundles/gnu-tools-for-stm32/13.3.1+st.9/bin/arm-none-eabi-gdb" // 填入刚刚找到的路径
        }

    ]
}

保存配置后，运行与调试页应该会出现 Debug with OpenOCD 选项，点击运行三角形即可开始调试。

[!tip]

什么是 launch.json？

如果说 task.json是"烧录说明书"，那么 launch.json就是"调试说明书"。它告诉 VSCode 如何启动调试会话：设置断点、查看变量、单步执行等。

常见问题

报错 `target not found`

检查连线（SWDIO, SWCLK, GND, 3.3V）是否接好。
检查 target/stm32f1x.cfg 是否选对了系列（F1, F4, H7 配置文件不同）。

GDB 报错 `No such file or directory`

检查 launch.json 里的 gdbPath 路径是否写错，尤其是斜杠的方向。

参考教程

视频教程

Linux 环境下的 CH32 + LibXR 开发环境搭建

2025-11-16T00:00:00.000Z

笔者最近在研究国产单片机。大家对国产单片机的固有印象可能还停留在一比一复刻 STM32，但是随着国产单片机产业的蓬勃发展，各个国产单片机也在自己的产品中做出了自己的特色，其中沁恒家的 RISC-V 系列单片机我最近比较感兴趣（因为沁恒真的敢送）。

说到沁恒，相信大家对他们家 CH340 这款经典的 USB 转串口芯片并不陌生。而在单片机领域，沁恒同样展现出强大的技术实力，尤其在USB功能方面独树一帜：既有经济实用、集成 USB2.0 接口的 V203 系列，也有搭载高速 480MHz USB PHY 的 V307 系列，为嵌入式开发者提供了丰富的选择。

LibXR 是一个功能强大的跨平台 C++ 开发框架，集成了丰富的外设驱动、数据结构、通信中间件、操作系统封装和数学工具库。它为 CH32 系列单片机提供了一个兼容层，不仅对 CH32 标准库进行了高层次的抽象封装，还修复了原库中的一些已知问题，大大提升了开发效率和代码质量。

本文将详细介绍如何在Linux环境下搭建基于 CH32 单片机和 LibXR 库的完整开发环境，帮助开发者快速上手这一优秀的开发组合。

环境准备

1. 获取项目模板

LibXR 官方提供了现成的项目模板，支持 CH32V307 和 CH32V203 两种型号，已预配置好构建脚本和调试配置，无需手动设置。

# 克隆对应芯片的模板项目
git clone https://github.com/xrobot-org/CH32V307_LibXR_Template.git
# 或者选择 CH32V203 模板
# git clone https://github.com/xrobot-org/CH32V203_LibXR_Template.git

# 初始化 LibXR 子模块
git submodule add https://github.com/Jiu-xiao/libxr

2. 安装调试工具链

CH32 芯片需要专用的调试工具。从MounRiver 官网下载 Linux 版工具链：

访问下载页面，选择 Linux 平台
在"工具链和调试器"栏目下载 MRS_Toolchain_Linux_x64_Vxxx.tar.xz
解压到合适的目录（建议 ~/Development/ 目录下）

# 创建开发目录并解压工具链
mkdir -p ~/Development/
cd ~/Development/
tar -xf MRS_Toolchain_Linux_x64_Vxxx.tar.xz  # 根据实际文件名调整

工具链说明：

专用 OpenOCD：用于 CH32 芯片烧录和调试（开源版本无法支持 CH32）
RISC-V Embedded GCC：沁恒提供的编译器，支持 WCH 扩展指令集，但对 C++ 标准支持不完整（LibXR 官方不推荐此编译器）

3. 编译推荐编译器

LibXR 推荐使用上游 RISC-V 工具链，具有完整的 C++ 标准支持，可以正常使用 Eigen 等现代 C++ 库。

3.1 获取源码

git clone https://github.com/riscv-collab/riscv-gnu-toolchain.git
cd riscv-gnu-toolchain

3.2 配置编译选项

针对 CH32 芯片特性进行配置：

./configure --prefix=~/Development/riscv-ch32 \
            --with-arch=rv32imacf_zicsr_zifencei \
            --with-abi=ilp32f

配置说明：

--prefix：指定安装目录
--with-arch：目标架构，兼容 CH32 指令集（不包含 WCH 私有扩展）
--with-abi：应用程序二进制接口，支持单精度浮点

3.3 开始编译

make -j$(nproc)  # 使用多核编译加速

编译完成后，工具链将安装到 ~/Development/riscv-ch32/ 目录。

VSCode 开发环境配置

1. 安装必要插件

在 VSCode 中安装以下插件：

C/C++：代码智能提示和语法高亮（注意：clangd 对 RISC-V 支持有限）
CMake Tools：CMake 项目管理和构建
Cortex Debug：OpenOCD 调试支持

2. 配置编译器

使用快捷键 Ctrl + Shift + P
搜索并选择 CMake: Configure
在编译器列表中选择刚刚编译的 RISC-V 工具链：/home/keruth/Development/riscv-ch32/bin/riscv32-unknown-elf-gcc

3. 配置调试器

打开设置界面（Ctrl + ,）
切换到 Workspace 选项卡
导航至 Extensions → Cortex Debug → External GDB Servers
找到 Cortex-debug: Openocd Path 配置项
点击 Edit in settings.json，添加以下配置：

{
    "cortex-debug.openocdPath": "/home/keruth/Development/mrs-toolchain/OpenOCD/OpenOCD/bin/openocd"
}

验证开发环境

1. 编译测试

在 VSCode 中：

打开命令面板（Ctrl + Shift + P）
选择 CMake: Build 或点击状态栏的构建按钮
确认编译过程无错误完成

2. 调试测试

使用 WCHLinkE 连接 CH32 开发板到电脑
打开调试界面（Ctrl + Shift + D）
选择模板项目预设的调试配置
点击运行按钮，确认能够正常烧录和调试

如果编译和调试都能正常工作，说明开发环境已经搭建完成，可以开始你的 CH32 + LibXR 开发之旅了！

STM32H7 HAL 库开发中的 DMA 传输失败问题的解决方案

2025-07-29T00:00:00.000Z

引言

最近我尝试在 STM32H723ZGT6 上使用 STM32CubeMX + CMake + GCC 方案配置 ADC1 的 DMA Circular Mode，发现在我的 STM32CubeMX 的参数配置正确的情况下仍然配置不成功。现象是可以进入 ADC1 对应的 DMA1_Stream0_IRQHandler 中断函数，但是无法进入 HAL_ADC_ConvCpltCallback。经过排查发现系统稳定地在 DMA 中断中报告传输错误（TEIF - Transfer Error Interrupt Flag）。下面是我的错误验证代码：

void DMA1_Stream0_IRQHandler(void)
{
  /* USER CODE BEGIN DMA1_Stream0_IRQn 0 */
    if (__HAL_DMA_GET_FLAG(&hdma_adc1, DMA_FLAG_TEIF0_4)) {
        log_e("DMA1 Stream0 transfer error occurred"); // 此处报错
    }
  /* USER CODE END DMA1_Stream0_IRQn 0 */
  HAL_DMA_IRQHandler(&hdma_adc1);
  /* USER CODE BEGIN DMA1_Stream0_IRQn 1 */

  /* USER CODE END DMA1_Stream0_IRQn 1 */
}

常规的调试手段，如排查 MPU 配置、管理 D-Cache 一致性，乃至验证外设时钟与模拟电源，均无法解决问题。从这个现象可以看出，这个坑并非来自 ADC 或 DMA 外设本身的功能缺陷，而是两者在特定工作模式下，触发了系统级深层次的硬件冲突。幸运的是，最终我在社区的帮助下解决了这一问题。

问题根源

这个问题的关键在于 STM32H7 系列并非一个简单的单总线 MCU，而是一个拥有复杂多总线主控和多内存域的 SoC。

由上图可见，STM32H7 被分成三国鼎立的局面，分别是 D1 域、D2 域和 D3 域：

D1域：性能核心。包含 CPU 内核和高速 AXI SRAM（始于0x24000000），是 CPU 存取数据的主战场。
D2域：外设集群。包含 ADC、通用定时器以及 DMA1/DMA2 控制器。
D3域：辅助系统。包含部分低速外设和一块独立的 SRAM（RAM_D3，始于0x38000000）。

一个复杂的多层总线矩阵（Bus Matrix）负责连接所有主控和内存/外设。当一个位于 D2 域的主控（如 DMA1），需要访问 D1 域的从属单元（如 AXI SRAM）时，其访问请求必须经由总线矩阵进行路由和仲裁。

问题的核心即在于此：D1 域的 AXI SRAM 是为 CPU 内核性能最大化而设计的，CPU 对其拥有极高的访问优先权和带宽。当 DMA 控制器作为一个"外部"主控，试图高频地向这块 SRAM 写入数据时，极易与 CPU 的指令操作在总线矩阵层面发生总线竞争，导致无法访问到这部分内存。在这种高负载的跨域访问场景下，硬件仲裁逻辑的复杂性可能导致 DMA 的访问周期被过度延长甚至失败，从而产生总线错误，最终被 DMA 控制器报告为 TEIF。

解决方案

常规的 MPU 配置，例如将 AXI SRAM 区域的属性设置为可共享、非缓存，是在策略层面告知系统如何处理该内存。这只能解决访问权限和缓存一致性问题，但无法解决硬件物理拓扑层面固有的总线竞争问题。因此，根治此问题的方案必须从系统架构层面为 DMA 缓冲区重定向内存。

链接器脚本是定义最终可执行文件内存布局的蓝图。它允许开发者精确控制每一个代码段和数据段在物理内存中的位置。默认情况下，所有变量（包括 DMA 缓冲区）都被链接器放置在名为RAM的内存区域，即 D1 域的 AXI SRAM。我们的策略是，将 DMA 缓冲区从高冲突的 D1 域 AXI SRAM，迁移到访问路径更简单、总线竞争更小的 D3 域 RAM_D3。

第一步：在链接器脚本中声明专用内存段

STM32CubeMX 会在项目根目录下自动生成一个STM32H723XG_FLASH.ld 文件，且此后生成项目不会再覆盖。我们在文件的 SECTIONS 块中，新增一个输出段定义，将其明确指向RAM_D3物理内存区域。

/* In STM32H723XG_FLASH.ld, inside SECTIONS { ... } */
.ram_d3 (NOLOAD) :
{
  . = ALIGN(4);
  *(.ram_d3)
  *(.ram_d3*)
  . = ALIGN(4);
} >RAM_D3

此定义创建了一个名为 .ram_d3 的输出段，并规定它应被放置在 MEMORY 块中定义的 RAM_D3 区域。(NOLOAD) 属性指明该段为非初始化数据，无需在启动时从 Flash 加载（适配 DMA 缓冲区）。

第二步：在 C 代码中应用该内存段

随后，在 C 代码中定义 DMA 缓冲区时，我们使用 GCC 的 attribute 指令，告诉编译器将此特定变量放入我们刚刚创建的输入段中。

#define ADC_BUFFER_SIZE 256

// 使用属性指令将此缓冲区变量精确链接到 .ram_d3 段
ALIGN_32BYTES(static uint16_t adc_dma_buffer[ADC_BUFFER_SIZE]) __attribute__((section(".ram_d3")));

通过上面两步，我们就成功实现了 DMA 缓冲区的物理内存重定向，规避了总线竞争带来的 TEIF 问题。从前我从来没有修改过甚至没有接触过 .ld 文件，想要用上更强大的主控的代价，也许就是要关注更复杂的细节。

补充说明

2025-11-16 补充：

事实上，这个问题只有在 STM32CubeMX 生成的 CMake 环境下才会被触发。根本原因在于 STM32CubeMX 生成的默认链接脚本将所有变量分配到了 D1 域的 AXI SRAM 中，这种默认的内存布局配置直接导致了跨域总线访问冲突，从而引发 DMA 传输错误。在其他开发环境或使用不同链接脚本配置的情况下，此问题可能不会出现。

验证效果

使用 OpenOCD 烧录程序，可以看到 RAM_D3 区域的内存占用增加了：

参考

手把手教你移植 CMSIS-DSP 到 STM32CubeMX 生成的 CMake 项目

2025-07-20T00:00:00.000Z

在使用 STM32 系列单片机进行信号处理的过程中，我们往往会选择 ARM 提供的 CMSIS-DSP 库。CMSIS-DSP库涵盖了嵌入式信号处理的大部分常用算法函数，同时针对 Cortex-M 核心做了手工汇编优化，还提供了统一的接口。目前使用 CMSIS-DSP 库有以下几种方案：

Keil 项目 + 封装好的 CMSIS-DSP 库 CMSIS-Pack
STM32CubeMX CMake 项目 + Software Components
STM32CubeMX CMake 项目 + CMSIS-DSP 源码

其中后两种方案更现代化，可以适配 STM32 for Visual Studio Code、CLion 等现代开发环境。而现在（2025 年 7 月）通过 Software Components 安装的 DSP Library 版本还停留在 v1.4.0，这是 2013 年 1 月发布的 CMSIS-DSP 版本，距今已超过十年。这十年里 ARM 为 CMSIS-DSP 追加了更多Cortex-M 架构的支持，新增了窗函数等功能模块。而第三种方案直接从 GitHub 上抓取源码，版本最新，功能最全面。但是需要一些 CMake 配置，没有第二种方案直接快捷。而这篇文章的使命就是带你将 GitHub 上的 CMSIS-DSP 源码加入到 STM32CubeMX 生成的 CMake 项目中。（下图是第二种方法通过 Software Components 配置 CMSIS-DSP）

第一步：从 GitHub 下载源码并解压

我们有许多种下载源码的办法，其中每一种都需要科学上网：

安装 Git 后在命令行输入（无需解压）：

git clone https://github.com/ARM-software/CMSIS-DSP.git

在 Release 页的 Assets 里找到 Source code (zip) 下载
在 Code 窗口选择 Download ZIP

第二步：将源码加入到自己的项目中

直接将解压下来的文件复制到项目文件夹中。我删除目录的版本号后复制到了项目文件夹下的Drivers文件夹下，下面是我现在的项目结构：

Project/
├── .gitattributes          # Git属性文件，用于定义特定路径的属性
├── .gitignore              # Git忽略文件，指定哪些文件或目录不被版本控制
├── .mxproject              # STM32CubeMX项目文件，存储IDE特定的配置
├── *.ioc       # STM32CubeMX配置文件，核心文件，定义了MCU的引脚、时钟和中间件配置
├── build/                  # 编译输出目录，存放编译生成的目标文件和可执行文件（如.elf, .bin）
├── cmake/                  # 可能包含自定义的CMake脚本或模块
├── CMakeLists.txt          # 主CMake构建脚本，定义了整个项目的构建规则
├── CMakePresets.json       # CMake预设文件，用于配置常用的构建选项
├── Core/                   # 核心代码目录
│   ├── Inc/                # 存放核心代码的头文件 (.h)，例如 main.h, stm32h7xx_it.h
│   └── Src/                # 存放核心代码的源文件 (.c)，例如 main.c, stm32h7xx_it.c
├── Drivers/                # 驱动程序目录
│   ├── CMSIS/              # ARM Cortex微控制器软件接口标准，包含MCU核心访问文件
│   ├── CMSIS-DSP/          # CMSIS提供的数字信号处理库
│   └── STM32*xx_HAL_Driver/ # ST官方提供的硬件抽象层(HAL)驱动库，用于简化对MCU外设的操作
├── LICENSE                 # 项目的开源许可证文件
├── Middlewares/            # 中间件目录，例如FreeRTOS, FatFS, USB等
├── README.md               # 项目说明文件，使用Markdown格式
├── startup_*xx.s   # 启动文件(汇编)，MCU上电后最先执行的代码，用于初始化堆栈和中断向量表
├── *_FLASH.ld    # 链接器脚本(Linker Script)，告诉链接器如何组织代码和数据在内存中的布局
└── USB_DEVICE/             # USB设备库相关文件

第三步：将 CMSIS-DSP 目录加入到项目 CMakeLists 中

[!WARNING] STM32CubeMX v6.15.0 前，项目 CMakeLists 中非 User defined 注释下的内容会在生成时被覆盖。v6.15.0 版本更新后，用户可以自由更改 CMakeLists.txt，STM32CubeMX 只会在项目第一次生成时构建 CMakeLists.txt 模板。本教程的操作依赖自由更改 CMakeLists.txt，故请确认自己的 STM32CubeMX 是否为 v6.15.0 及更高版本！

CMSIS-DSP 根目录下有一个引用了整个库的 CMakeLists.txt，我们需要将其加入到我们的项目构建中：

# Add CMSIS-DSP sources
add_subdirectory(Drivers/CMSIS-DSP)

同时我们需要在 target_link_libraries 中加入 CMSISDSP 库，保证项目链接到 CMSIS-DSP 库

# Add linked libraries
target_link_libraries(${CMAKE_PROJECT_NAME}
    stm32cubemx

    # Add user defined libraries
        CMSISDSP
)

理论上到这里就已经结束了，但是我们此时编译会发现报错：找不到cmsis_compiler.h。这是因为 CMSIS-DSP 依赖 CMSIS-Core，而 CMSIS-Core 是 STM32CubeMX 生成时携带的，就在Drivers/CMSIS里。（CMSIS-Core 的路径可以通过在项目中找哪里有cmsis_compiler.h来找到）如果我们在项目 CMakeLists.txt 加入：

# Add include paths
target_include_directories(${CMAKE_PROJECT_NAME} PRIVATE
    # Add user defined include paths
        /Drivers/CMSIS/Include
)

会发现依然报错，因为 CMSIS-DSP 库中的内容并不受项目的 CMakeLists.txt 管理，而是由库中的 CMakeLists.txt 管理。山重水复疑无路，回头看 CMSIS-DSP 的 README，才发现答案人家已经给出了——

第四步：在 CMakePresets.json 加入 CMSISCORE 定义

在 README 中写到：

CMSIS-DSP is dependent on the CMSIS Core includes. So, you should define CMSISCORE on the cmake command line. The path used by CMSIS-DSP will be ${CMSISCORE}/Include.

因此我们需要给 CMake 传入 CMSISCORE 的定义。传入的方法就是在CMakePresets.json中找到"default"项，在其中的"cacheVariables"加入 CMSIS-Core 的路径：

"configurePresets": [
    {
        "name": "default",
        "hidden": true,
        "generator": "Ninja",
        "binaryDir": "${sourceDir}/build/${presetName}",
        "toolchainFile": "${sourceDir}/cmake/gcc-arm-none-eabi.cmake",
     "cacheVariables": {
         "CMSISCORE": "${sourceDir}/Drivers/CMSIS"
     }
 }
]

此时清除缓存重新编译，会看到 CMSIS-DSP 库已经正常引入到了我们的项目中。大功告成！