cpu负载突刺问题排查

如题所述

第1个回答 2022-07-25

通过监控工具巡检自己的服务发现服务cpu load存在周期性变高的现象，如图：

机器的cpu核数是4核，最高点明显超过了4，但是cpu使用率没有明显变高，如图：

cpu有突刺的现象是gc时引起的，这里先不做赘述；

那么是什么原因引起的cpu load变高呢？？？，又该如何解决呢？

一、引起load变高的原因有哪些：
1.磁盘io繁忙，网络io繁忙
2.线程上下文切换频繁
3.cpu繁忙

二、根据上面提出的三个原因去寻找解决方案

由上面三张图对比可以看出负载升高的时候，磁盘io以及网络io并没有任何变化还是保持和之前一样，说明不是io影响的。

使用命令：pidstat -w -p <pid>

由以图可以看出来，每秒自愿上下文切换（voluntary context switches）的次数为0（cswch ）；
被系统强制调度导致，每秒非自愿上下文切换（non voluntary context switches）的次数（nvcswch）的次数也为0；
说明不是线程频繁切换导致的

从最上面的cpu整体使用率看到并不是很高，那么应该不是cpu繁忙导致的；
继续向下排查，
pidstat查看java线程内详细信息，可发现用户态cpu使用率很高，长时间占用CPU，导致等待线程增多；

结合服务业务发现：
该服务是批量拉去kafka消息，然后使用线程池进行消费，而这个线程池使用的拒绝策略为CallerRunsPolicy，也就是当线程池执行不过来，并且阻塞队列也满的时候就会默认使用主线程来进行处理；
继续排查确认：
1.通过命令top -Hp pid 查看进程下最耗费cpu的线程
2.printf “%x\n” 得到线程的16进制
3.jstack 进程｜grep 线程id 获取线程状态
执行以上步骤的到文件，观察发现，最繁忙的线程就是kafka线程

1、减少一批消息的拉去数量，使当前线程池足够消费；
2、增大线程池数量的核心线程数（这种需要判断当前服务是io密集型还是cpu密集型，此方案选用）
3、更改业务逻辑，减少rpc，尽量减少业务处理，加快消费速度；
以上三种方式可以一起使用，也可以部分使用；

1.先减少批量拉取的消息数，观察load是否有降低；

2.因为我的业务服务是网络io密集型，所以我适当增大了业务线程池的核心线程数；

3.最后再来看业务逻辑层面是否存在优化的空间；
前两步结束后，负载已经降低到正常范围时，最后一步业务逻辑优化可选择性的去做；

相似回答

服务cpu突刺问题答：这里首先排查前2个原因：1.因为我们的业务是出行相关的，那么早晚高峰的时候才是业务高峰期，然而早晚高峰的cpu使用率并没有升高，所以排除1；2.机器就更不可能了，如果机器原因的话，cpu会一直处于最高状态不应该是突刺现象所以也排除 3.gc导致到cpu突刺：由以上图片可以看到cpu突刺升高时，确实对应...

CPU温度瞬间升高,电脑很卡,怎么回事答：问题原因和解决办法如下:一：病毒可以导致计算机速度变慢。可使用高版本的杀病毒软件，如“ “金山毒霸”。时刻监视系统运行情况（包括网络情况），一旦发现病毒，它们就会立刻报警，并自动杀毒。由于新病毒每天都在诞生，所以我们还要注意经常升级反病毒软件。二：Windows操作系统变庞大 三：后来安装了新的硬...

...在线看视频或者玩游戏的时候会出现很卡的现象,CPU使用率很高,这是问...答：※※CPU散热不良,经常出现的问题就是CPU的散热器固定卡子脱落,CPU散热器与CPU接触之间有异物,CPU风扇长时间使用后散热器积尘太多,这些情况都会导致CPU散热不良,积聚温度过高而自动重启。 ※※还有就是CPU下面的测温探头损坏或P4CPU内部的测温电路损坏,主板上的BIOS有BUG在某一特殊条件下测温不准,这些都会引起主机在...

计算机常见故障及处理方法?答：第一种,就是“看、听、摸、闻”,这是一种比较实用的方法,不过只能排查出比较典型或比较明显的故障。“看”就是观察电脑有没有出现火花、电源线或数据线有没有松动、是否存在断线或碰线等情况,这些问题能引起很直观的小故障,如光驱无法启动、硬盘不转进入不了系统,或者是不能开机等。“听”就是听电脑配件发出...

为什么手机卡的要死答：如果您使用的是华为手机，升级系统后短时间内出现卡顿，属于正常现象，如果并非刚升级完出现，请按照以下方案排查：1. 检查手机是否正在下载、复制、传输等操作如果手机正在执行上传下载（文件、图片、视频、应用等）、复制（文件管理拷贝数据等）、传输（“手机克隆”、Huawei Share等）等操作时感觉到卡顿...

笔记本i3 350 cpu在低负载时会出声?答：对，这个是cpu自动变频的噪音，有些人会特别敏感，滋滋的电流声，那个是电感发出来的声音。其实就是供电模块设计没有达到要求导致的（比如用料）。其实这个问题很普遍，thinkpad x200系列也经常受到这个问题困扰。假如想去掉这种声音，就把电源调成一直开着就好了。当然，cpu也不会再变频了。

电脑每隔一会就响一下,就咔的一下,这是怎么回事答：这个可能行很多，这里把能够想到的可能一一列举，只有楼主自己一一排查了 1、扫描整理修复一下你的磁盘，如果是机械噪音大多是硬盘问题。2、在控制面板--声音和音频设备---声音--声音方案---无声，确定OK！3、一个不断使电脑发出“当”或者“咚”的声音的病毒解决方案：重启计算机进入安全模式下(开...

大家正在搜

linuxcpu负载过高排查线上cpu负载过高如何排查 java程序cpu负载过高排查 linux cpu负载过高怎么办线上常见问题排查之CPU过高 cpu负载过高怎么解决 cpu老是负载高 cpu负载很高 cpu负载过高什么原因