如何调试Linux程序崩溃？

说实话，调试Linux程序崩溃这事儿，就像侦探破案一样刺激。每次遇到程序突然崩溃，那种想要揪出幕后黑手的冲动就特别强烈。记得有次我调试一个服务程序，半夜突然崩溃，要不是靠core文件分析，估计得通宵找bug。

用好core文件这个”案发现场”

core文件简直就是程序崩溃后留下的”案发现场”，里面记录着程序临终前的完整状态。不过我发现很多人第一次用core调试时都会遇到坑——系统默认可能禁用了core文件生成。这时候就需要先用ulimit -c unlimited解除限制，不然程序崩溃后连个”遗言”都没留下，那才叫真的抓瞎。

设置core文件路径也是个技术活。我习惯用echo "core-%e-%p" > /proc/sys/kernel/core_pattern这样的格式，这样生成的core文件会包含程序名和进程ID，多个程序崩溃时不会互相覆盖。有一次我就因为没设置这个，三个服务同时崩溃产生的core文件混在一起，那叫一个头大。

gdb调试实战技巧

拿到core文件后，用gdb分析才是重头戏。gdb program core这个命令我估计用过的人都知道，但真正能玩转gdb的人其实不多。比如bt命令查看调用栈当然是最基本的，但有时候栈信息被破坏怎么办？这时候info registers查看寄存器状态就特别有用。

我有个小窍门：在gdb里用set follow-fork-mode child可以跟踪子进程，这对于调试多进程程序特别管用。还有watch命令设置数据观察点，当某个变量被修改时自动中断，这在找内存越界问题时简直是神器。

那些容易被忽略的调试工具

除了gdb，Linux下还有很多调试利器。比如strace跟踪系统调用，有时候程序崩溃前会有些异常的系统调用，这就是重要线索。valgrind检查内存泄漏更是必备工具，虽然运行速度慢了点，但能发现很多隐藏很深的内存问题。

说到这个，我想起有个项目用了第三方库，偶尔会随机崩溃，用gdb看core文件也找不到明显问题。后来用valgrind一查，发现是库里有处内存读写越界，这种问题要不是用专业工具，光靠猜得猜到什么时候去？

调试Linux程序崩溃确实需要耐心和经验，但每次成功定位问题后的成就感也是实实在在的。关键是养成好的调试习惯：及时生成core文件、善用各种调试工具、保持清晰的排查思路。这样下次再遇到程序崩溃，你就不会慌乱了。

如何调试Linux程序崩溃？

用好core文件这个”案发现场”

gdb调试实战技巧

那些容易被忽略的调试工具

推荐话题

发表回复取消回复

用好core文件这个”案发现场”

gdb调试实战技巧

那些容易被忽略的调试工具

推荐话题

发表回复 取消回复

发表回复取消回复