内核崩溃不用慌，kdump工具来帮忙-53博客资源网

在Linux系统运维过程中，内核崩溃堪称令人棘手的突发故障，一旦发生不仅会导致服务中断、业务停摆，还可能因故障现场转瞬即逝，给问题排查带来极大阻碍。无论是服务器运行峰值下的资源溢出、驱动程序兼容性冲突，还是内核自身BUG触发的崩溃，都可能让运维人员陷入“无据可查”的困境，进而延长故障恢复时间，造成不必要的损失。而kdump作为Linux系统内置的内核崩溃转储工具，正是应对这类危机的“救命利器”。

它通过预留内存区域运行备用内核，在主内核崩溃瞬间快速捕获崩溃现场的完整内存镜像，为故障排查留存关键证据。借助kdump生成的core dump文件，运维人员可精准定位崩溃原因，无论是内核态死锁、内存越界，还是硬件异常触发的故障，都能有据可依、高效排查。掌握kdump的部署与使用方法，能让运维工作从被动应对转为主动防控，大幅缩短故障排查周期，保障系统稳定运行。接下来，就让我们一同探索kdump工具的核心能力与实操技巧，从容化解内核崩溃难题。

一、什么是 kdump

在 Linux 系统的世界里，kdump 可是一位默默守护系统稳定的 “幕后英雄”，当系统遭遇诸如内核崩溃、死机、死锁等严重灾难时，它能挺身而出，记录下关键的系统运行信息，对于系统管理员和开发人员来说，kdump 生成的这些信息就像是一把解开系统故障谜团的钥匙。

简单来说，kdump 是一种用于 Linux 系统的崩溃转储工具和服务。当系统正常运行时，kdump 会在系统启动阶段就做好准备工作，预留出一部分物理内存，这部分内存就像是为特殊时刻准备的 “秘密基地”，专门用于加载一个备用内核，我们通常称它为 “kdump 内核” 或 “崩溃内核（crash kernel）” 。一旦主内核遇到了无法处理的严重错误，比如内核代码中出现了内存管理错误、死锁等软件问题，或是硬件故障（像内存错误、磁盘故障等）导致内核无法正常工作，又或是加载了不兼容的内核模块或驱动程序引发崩溃，此时 kdump 就会被触发。

系统会迅速切换到之前预留内存中的 kdump 内核，这个 kdump 内核肩负重任，它会将主内核崩溃时整个系统内存的运行状态和数据信息，包括内核数据结构、进程堆栈、内存映射、寄存器状态等，完整地收集起来，并存储到一个核心转储文件中，一般这个文件被命名为 vmcore。收集工作完成后，系统将自动重启，尽力恢复到可用状态。而这个 vmcore 文件就成为了后续深入分析系统崩溃原因的关键，就如同飞机的 “黑匣子”，为技术人员提供了系统崩溃瞬间的详细记录。

二、kdump 工作原理

kdump 能够在系统崩溃时精准捕获关键信息，背后有着一套复杂而精妙的工作原理，涉及多个核心组件和技术的协同运作。

2.1双内核协作机制

kdump 的运行依赖于两个内核的密切配合：生产内核（Production Kernel）和捕获内核（Capture Kernel）。在系统正常运行期间，生产内核就像是一位勤劳的管家，负责管理系统的各种资源，处理应用程序的请求，调度 CPU、管理内存、控制硬件设备等工作，保障整个系统有条不紊地运行。而捕获内核则像是一位时刻待命的 “急救员”，静静地 “潜伏” 在系统中。它在系统启动时就被加载到预留的内存区域，但此时它处于休眠状态，不会干扰生产内核的正常工作。

一旦生产内核遭遇无法挽回的严重错误，触发崩溃，kdump 机制就会立即启动。系统会迅速将控制权从生产内核转移到捕获内核手中。这个切换过程非常关键，它需要确保生产内核崩溃时的内存状态和各种关键信息不会丢失。捕获内核一旦接管系统，就会开始执行它的核心任务 —— 收集生产内核崩溃时的内存数据，为后续的故障分析提供最原始、最关键的资料。

2.2 kexec 技术关键作用

在 kdump 的工作流程中，kexec 技术扮演着举足轻重的角色。简单来说，kexec 是一种允许在已经运行的内核基础上，直接加载并启动另一个内核的机制，而不需要经过传统的 BIOS（基本输入输出系统）启动过程。这就好比在一辆正在行驶的汽车上，不停车直接更换发动机，并且新发动机能够迅速接管车辆的运行。

在 kdump 中，当生产内核正常运行时，kexec 会提前将捕获内核加载到预留的内存区域。这个过程就像是提前把 “急救员” 和他的装备安置在一个随时可以出动的位置。当生产内核崩溃时，kexec 能够快速引导系统切换到捕获内核，避免了系统完全重启所带来的时间消耗和数据丢失风险。

因为传统的重启过程需要重新进行 BIOS 自检、加载引导程序、初始化硬件设备等一系列复杂操作，这不仅耗时较长，而且在重启过程中，生产内核崩溃时的现场信息很可能会被覆盖或丢失。而 kexec 通过直接切换内核，大大缩短了系统从崩溃到捕获内核接管的时间，确保了内存转储信息的完整性和准确性，为后续的故障分析提供了有力支持。

2.3内存预留与数据保存

为了确保捕获内核在系统崩溃时能够正常工作，系统在启动时就需要为其预留一部分内存，这部分预留内存被称为 “crashkernel” 。在配置系统启动参数时，通过设置 “crashkernel” 参数来指定预留内存的大小和位置。例如 “crashkernel=256M” 表示预留 256MB 的内存用于捕获内核。预留内存的大小需要根据系统的实际情况进行合理配置，如果预留过小，可能导致捕获内核无法正常加载或内存转储信息不完整；如果预留过大，则会浪费系统的内存资源，影响系统正常运行时的性能。

当捕获内核接管系统后，它会将生产内核崩溃时的内存转储信息保存到一个名为 vmcore 的文件中。这个文件包含了生产内核崩溃瞬间的内存状态、内核数据结构、进程堆栈信息等关键内容。捕获内核会通过特定的机制，将内存中的数据按照一定的格式和顺序写入到 vmcore 文件中。在一些系统中，会使用 makedumpfile 工具来协助完成内存数据的保存工作，它可以对内存数据进行过滤、压缩等处理，以便更高效地保存和传输。保存好的 vmcore 文件就成为了后续分析系统崩溃原因的重要依据，技术人员可以通过各种专业的分析工具，对 vmcore 文件进行深入剖析，从而找出系统崩溃的根源。

三、实战 kdump 配置与使用

了解了 kdump 的基本概念和工作原理后，接下来我们就进入实战环节，看看如何在 Linux 系统中配置和使用 kdump，让它成为我们排查系统故障的得力助手。

3.1前期准备工作

在开始配置 kdump 之前，首先要确保系统中安装了必要的工具，其中最关键的就是 kexec – tools 。kexec – tools 提供了在运行的内核上加载和启动另一个内核的工具，这是 kdump 实现的基础。不同的 Linux 发行版安装 kexec – tools 的方式略有不同：

（1）在基于 Red Hat 系的系统（如 RHEL、CentOS 等）中，可以使用 yum 命令进行安装：复制

sudo yum install kexec - tools1.

（2）在 Debian 系的系统（如 Debian、Ubuntu 等）中，则使用 apt – get 命令：复制

sudo apt - get install kexec - tools1.

安装完成后，可以通过kexec – v命令查看 kexec 的版本信息，确认是否安装成功。

3.2内核参数配置

配置 kdump 的关键一步是为捕获内核预留内存，这需要通过修改内核启动参数来实现。在大多数 Linux 系统中，我们需要编辑 GRUB 配置文件，通常位于/etc/default/grub 。打开该文件，找到GRUB_CMDLINE_LINUX这一行，在其中添加crashkernel参数，例如：复制

GRUB_CMDLINE_LINUX="crashkernel=256M quiet"1.

这里的crashkernel=256M表示预留 256MB 的内存给捕获内核。quiet参数则用于在系统启动时减少不必要的输出信息，使启动过程更加简洁。如果系统内存较大，也可以采用动态预留内存的方式，以更灵活地分配内存资源，例如：复制

GRUB_CMDLINE_LINUX="crashkernel=256M-2G:256M,2G-:512M quiet"1.

这个配置表示当系统内存小于 2GB 时，预留 256MB 内存；当系统内存大于等于 2GB 时，预留 512MB 内存。修改完 GRUB 配置文件后，需要更新 GRUB 配置，使其生效：

（1）对于基于 BIOS 的系统（使用 grub2），执行以下命令：复制

sudo grub2 - mkconfig - o /boot/grub2/grub.cfg1.

（2）对于 UEFI 系统，命令可能如下：复制

sudo grub2 - mkconfig - o /boot/efi/EFI/redhat/grub.cfg1.

更新完成后，重启系统，新的内核参数就会生效。可以通过cat /proc/cmdline命令查看内核启动参数，确认crashkernel参数是否正确设置。

3.3 kdump 服务配置

kdump 的服务配置主要通过/etc/kdump.conf文件来完成。打开该文件，我们可以看到一些默认的配置项，其中几个关键的配置项如下：

①path：指定生成的 vmcore 文件的保存路径，例如：复制

path /var/crash1.

这表示将 vmcore 文件保存在/var/crash目录下。如果需要将文件保存到其他位置，只需修改这里的路径即可。

②core_collector：用于指定内存转储的工具和参数，默认使用makedumpfile工具，例如：复制

core_collector makedumpfile - c - l - message - level 1 - d 311.

其中，-c表示对转储文件进行压缩，以减小文件大小；-l表示使用–all – low选项，转储所有低端内存；-message – level 1设置消息级别；-d 31表示过滤掉一些不需要的内存页，31是一个组合值，表示过滤零页、缓存页、缓存私有页、用户页和空闲页等。这些参数可以根据实际需求进行调整。

③default：指定在生成转储文件后的默认操作，常见的选项有reboot（重启系统）和halt（停止系统），例如：复制

default reboot1.

这表示在生成 vmcore 文件后，系统将自动重启。

3.4启动与验证

完成上述配置后，就可以启动 kdump 服务了。在大多数 Linux 系统中，可以使用 systemctl 命令来启动和管理 kdump 服务：复制

sudo systemctl start kdump.service
sudo systemctl enable kdump.service1.2.

第一条命令用于启动 kdump 服务，第二条命令则设置 kdump 服务在系统开机时自动启动。启动服务后，可以通过systemctl status kdump.service命令查看服务的运行状态，确保服务正常启动。

为了验证 kdump 配置是否成功，我们可以手动触发一次系统崩溃。需要注意的是，这会导致系统立即重启，所以请务必在测试环境中进行操作。在终端中执行以下命令：复制

echo 1 > /proc/sys/kernel/sysrq
echo c > /proc/sysrq - trigger1.2.

第一条命令启用了系统请求（SysRq）功能，第二条命令则触发了系统崩溃。系统崩溃后会自动重启，重启完成后，进入之前在/etc/kdump.conf中设置的保存路径（如/var/crash），如果配置成功，应该可以看到一个以当前时间命名的子目录，里面包含生成的 vmcore 文件。例如：复制

ls /var/crash/202412011530/
kexec_cmd  vmcore1.2.

其中，vmcore就是我们期待的内核崩溃转储文件，它记录了系统崩溃时的关键信息，为后续的故障分析提供了重要依据。

四、kdump 在故障排查中的应用

当系统发生崩溃后，kdump 生成的 vmcore 文件就像是一座蕴含丰富信息的宝库，而要从这座宝库中挖掘出系统崩溃的真相，就需要借助各种强大的分析工具。

在众多分析 vmcore 文件的工具中，crash 工具堪称佼佼者，它是专门为分析 Linux 内核崩溃转储文件而设计的强大工具。通过 crash 工具，技术人员可以深入剖析 vmcore 文件，获取系统崩溃时的详细信息。比如，使用bt命令可以查看内核线程的堆栈回溯，清晰地展示系统崩溃时函数的调用顺序，帮助我们定位问题出在哪个函数或代码路径上；ps命令则能显示系统进程信息，让我们了解崩溃时各个进程的状态，判断是否有异常进程导致了系统崩溃；vm命令用于显示虚拟内存信息，有助于分析内存使用情况，排查是否存在内存泄漏、内存访问违规等问题。例如，当我们使用crash /usr/lib/debug/lib/modules/$(uname -r)/vmlinux /var/crash/vmcore命令加载 vmcore 文件和对应的内核调试符号文件后，就可以在 crash 环境中执行各种命令进行分析。

除了 crash 工具，GDB（GNU 调试器）也可以用于分析 vmcore 文件。GDB 是一个通用的调试工具，它提供了丰富的调试功能，如设置断点、单步执行、查看变量值等。在分析 vmcore 文件时，GDB 可以帮助我们查看内核数据结构、寄存器状态等信息。不过，相比 crash 工具，GDB 在分析内核崩溃转储文件方面的专业性稍逊一筹，它的优势更多体现在对用户空间程序的调试上。但在某些情况下，结合 GDB 和 crash 工具，可以更全面地分析系统崩溃问题。

下面我们通过一个实际的系统崩溃案例，来详细了解如何使用 kdump 和分析工具定位问题根源。

在某生产环境的服务器上，运行着一个关键的业务应用，突然有一天，服务器毫无征兆地崩溃了，业务中断，造成了不小的损失。好在系统之前配置了 kdump，在系统崩溃后，kdump 成功捕获了内存信息，生成了 vmcore 文件。技术人员首先使用 crash 工具加载 vmcore 文件和内核调试符号文件：

crash /usr/lib/debug/lib/modules/$(uname -r)/vmlinux /var/crash/202412011530/vmcore1.

进入 crash 环境后，执行bt命令查看堆栈回溯：

crash> bt
PID: 1234   TASK: ffffa17747992100  CPU: 0  COMMAND: "app_process"
#0
 [ffffa16bf706f4f8] machine_kexec at ffffffff97669504
#1
 [ffffa16bf706f558] __crash_kexec at ffffffff97729d32
#2
 [ffffa16bf706f628] crash_kexec at ffffffff97729e28
#3
 [ffffa16bf706f640] oops_end at ffffffff97dbc818
#4
 [ffffa16bf706f668] die at ffffffff97631c0b
#5
 [ffffa16bf706f698] do_general_protection at ffffffff97dbc0f2
#6
 [ffffa16bf706f6d0] general_protection at ffffffff97dbb758
[exception RIP: some_function+50]
RIP: ffffffffc0ef5ced  RSP: ffffa16bf706f780  RFLAGS: 00010213
RAX: ffa16cccaaa7b8ff  RBX: ffa16cccaaa7b6ff  RCX: fffa16bf706f948
RDX: 0002000000000000  RSI: ffffa16bf706f8d0  RDI: ffa16cccaaa7b6ff
RBP: ffffa16bf706f798   R8: 0000000000000000   R9: 0000000000000000
R10: ffffa14fde02b530  R11: 0000000000002000  R12: fffa16bf706f8d0
R13: ffffa16bf706f8d0  R14: ffffa16bf706f808  R15: fffffffffc0ef5ef0
ORIG_RAX: ffffffffffffffff  CS: 0010  SS: 0018
#7
 [ffffa16bf706f7a0] related_function at ffffffffc0ef5f3e [app_module]
#8
 [ffffa16bf706f7c8] another_function at ffffffffc0cc347b [system_module]
...

从堆栈回溯信息中可以看出，崩溃发生在some_function函数中，而且该函数属于业务应用的一个模块app_module 。进一步分析发现，是由于在some_function函数中对一个指针进行了空指针解引用操作，导致了系统崩溃。

为了更深入了解崩溃时进程的状态，技术人员使用ps命令查看进程信息：

crash> ps -p 1234
PID: 1234   TASK: ffffa17747992100  CPU: 0  COMMAND: "app_process"
...1.2.3.

通过ps命令，确认了崩溃的进程正是运行关键业务应用的app_process 。并且查看该进程打开的文件描述符等信息后，发现该进程在崩溃前正在访问一些重要的业务数据文件，很可能是在数据处理过程中出现了问题。

经过一番深入分析，最终确定是由于业务应用代码中的一个逻辑错误，在特定的业务场景下，导致传入some_function函数的指针为空，从而引发了空指针解引用，最终导致系统崩溃。找到问题根源后，开发人员迅速对代码进行了修复，重新部署了应用，服务器恢复正常运行，业务也得以顺利开展。

通过这个案例可以看出，kdump 结合强大的分析工具，如 crash，在排查系统崩溃问题时具有非常重要的作用，能够帮助技术人员快速、准确地定位问题根源，为系统的稳定运行提供有力保障。

文章版权归作者所有，未经允许请勿转载。

THE END

Linux知识

内核崩溃不用慌，kdump工具来帮忙

一、什么是 kdump

二、kdump 工作原理

2.1双内核协作机制

2.2 kexec 技术关键作用

2.3内存预留与数据保存

三、实战 kdump 配置与使用

3.1前期准备工作

3.2内核参数配置

3.3 kdump 服务配置

3.4启动与验证

四、kdump 在故障排查中的应用

从系统卡顿到性能飞升：Linux 水位配置实战解析

不止于概念：在C语言中实践Linux进程与线程的创建

内核崩溃不用慌，kdump工具来帮忙

搞懂 Linux Shell 编程，看这篇就够了！

打破 Linux 性能瓶颈：cgroups/taskset 进程负载控制

苹果正在模仿 Linux

请登录后发表评论