100% ядро ​​CPU убивает соединения с сервером

Мой сервер работает под управлением Centos 6.9 (64 ГБ ОЗУ) и nginx, проблема в том, что каждые 10 минут случаются случайные 100% всплески процессора ядра в htop, генерируемые «events / 10» и «ksoftirqd / 10». Я не знаю, как узнать, какой именно процесс вызывает эту проблему.

Это мой /proc/interrupts

$ cat /proc/interrupts
            CPU0       CPU1       CPU2       CPU3       CPU4       CPU5       CPU6       CPU7       CPU8       CPU9       CPU10      CPU11      CPU12      CPU13      CPU14      CPU15
   0:      77897          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-edge      timer
   1:          2          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-edge      i8042
   8:          1          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-edge      rtc0
   9:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-fasteoi   acpi
  12:          4          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IO-APIC-edge      i8042
  56:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      aerdrv
  63:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
  64:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
  65:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      xhci_hcd
  66: 1426061273          0          0          0          0          0          0          0          0          0          0    1914508          0          0          0          0   PCI-MSI-edge      ahci
  67:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   PCI-MSI-edge      ahci
  68: 3084636512          0          0          0          0          0          0          0          0          0   10149560          0          0          0          0          0   PCI-MSI-edge      eth0
 NMI:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Non-maskable interrupts
 LOC: 1972128636  528409367 3519065090 2616991376 2762882221 3577269786 2407615998 2889069038 1939478243 2270996522 1940319131 2244314760 2033706214 2339089941 2303043400 2629954396   Local timer interrupts
 SPU:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Spurious interrupts
 PMI:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Performance monitoring interrupts
 IWI:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   IRQ work interrupts
 RES: 1349612979 1979915818 1044674069  463586597 1410841781  641984863 3396971132 3062175502 2189512469 2034852778 1686264346 1571882114 1410891335 1330892006 1273321645 1195645068   Rescheduling interrupts
 CAL:    1771384    1771300    1775694    1780259    1778017    1782331    1761855    1755630    1758801    1759472    1770034    1773352    1775468    1779579    1778401    1778652   Function call interrupts
 TLB: 1295395722  623515438  528231713  457109575  438669843  412327240  413878597  392015004  399091958  373918339  391267007  362582716  383312220  348908971  376811042  337426419   TLB shootdowns
 TRM:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Thermal event interrupts
 THR:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Threshold APIC interrupts
 MCE:          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0   Machine check exceptions
 MCP:      77730      77730      77730      77730      77730      77730      77730      77730      77730      77730      77730      77730      77730      77730      77730      77730   Machine check polls
 ERR:          0
 MIS:          0

Это мой /proc/cpuinfo

processor       : 0
vendor_id       : AuthenticAMD
cpu family      : 23
model           : 1
model name      : AMD Ryzen 7 PRO 1700X Eight-Core Processor
stepping        : 1
cpu MHz         : 2200.000
cache size      : 512 KB
physical id     : 0
siblings        : 16
core id         : 0
cpu cores       : 8
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 13
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nonstop_tsc extd_apicid aperfmperf pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw skinit wdt tce topoext perfctr_core perfctr_nb perfctr_l2 arat xsaveopt npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold fsgsbase bmi1 avx2 smep bmi2 rdseed adx
bogomips        : 6786.47
TLB size        : 2560 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm hwpstate eff_freq_ro [13] [14]

Надеюсь, вы можете мне помочь, эти шипы делают сервер действительно нестабильным (даже при выключенном nginx и большей части программного обеспечения) Я также уже пробовал установить irqbalance, но он просто переключил процессор, который работал на 100%, с первого на одиннадцатый. Я также заставил хост переключить мои диски на другую машину с той же архитектурой, но это тоже не сработало.

Я уже сделал это, температура и прочее в порядке, я также заставил хоста поставить диски на другой сервер того же типа без каких-либо различий. Я просто хочу знать, какие шаги я могу предпринять, чтобы ТОЧНО узнать, какой процесс / программное обеспечение делает это возможным.

SensitiveGuy 11.06.2018 22:19

Корпус процессора при 29 * C, материнская плата: 37 ° C

SensitiveGuy 11.06.2018 22:22

Я уже знаю, что ksoftirqd вызывает скачок процессора ядра (проверено с помощью htop, top, ps aux), но я не знаю, какое программное обеспечение, процесс или проблема вызывают такой резкий скачок. Это только начало происходить несколько дней назад. Я ничего не трогал в системных файлах centos и не обновлял ПО. Я действительно не знаю, как это отладить.

SensitiveGuy 11.06.2018 22:30

Я вижу, что ahci и eth0 в вашем /proc/interrupts имеют довольно высокие числа на CPU 0. Это может указывать на то, что ваша сеть используется в большей степени (или больше, чем обычно). Чтобы отладить это, вы можете отслеживать использование сети и посмотреть, сможете ли вы выяснить, какой процесс периодически так много использует сеть.

Joshua Detwiler 11.06.2018 22:36

Вы случайно не знаете какую-либо команду, которая помогла бы мне отслеживать использование сети (относящуюся к каждому процессу)?

SensitiveGuy 11.06.2018 22:37

Я просто искал: iftop и netstat

Joshua Detwiler 11.06.2018 22:38

Stack Overflow - это сайт для вопросов по программированию и разработке. Этот вопрос кажется не по теме, потому что он не о программировании или разработке. См. О каких темах я могу спросить здесь в Справочном центре. Возможно, лучше спросить Суперпользователь или Обмен стеков Unix и Linux.

jww 11.06.2018 23:34
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
2
7
156
0

Другие вопросы по теме