Использовать _mm_pause() или _tpause() для цикла занятости?

Моя спин-блокировка, очевидно, имеет цикл занятости, в то время как блокировку не удается получить:

while(try_lock() == false)
{
    // Use _mm_pause() or _tpause() here?
}

Я заметил, что у меня нет _mm_pause() внутри цикла. Я понимаю, что пропуск этого параметра может привести к снижению производительности в отношении барьеров/ограждений/упорядочения памяти?

Прежде чем добавить _mm_pause(), я обнаружил _tpause():

https://www.felixcloutier.com/x86/tpause

Однако из руководства Intel Intrinsics Guide его использование кажется немного более сложным.

Я хотел бы максимизировать производительность/не беспокоиться о энергопотреблении.

Какой мне следует использовать, и если это _t_pause(), то как его правильно использовать? Я не могу найти ни одного примера использования, даже на Github.

Архитектура будет представлять собой модели Intel Xeon 2022+.

Обновлено:

Я только что заметил _mm_pause() задержка 140 циклов?!

К сожалению, я не заметил задержки для _tpause().

«Я понимаю, что пропуск этого параметра может привести к снижению производительности в отношении барьеров/ограждений/упорядочения памяти?» да, потому что строка кэша извлекается потоком часто без причины и без паузы. Это вызывает конфликт в строке кэша (и, конечно же, приводит к перенасыщению сети L3 мусором). Это может быть очень критично, если строка кэша используется не только для спин-блокировки (ложное совместное использование + конкуренция). Наилучшее время зависит от количества ядер, обращающихся к одной и той же строке кэша, задержки кэша L3 и вероятности разблокировки спин-блокировки.

— 30.07.2024 14:42

Хотя 140 циклов кажется много. Следует иметь в виду, что задержка при перемещении строки кэша с одного ядра на другое также значительна, особенно на серверах Xeon. Минимум несколько десятков циклов (обязательно 25-90 циклов).

— 30.07.2024 14:52

Да, и имейте в виду, что спин-блокировка может быть очень вредной (например, взаимоблокировка из-за инверсии приоритета) даже для производительности, включая задержку (например, ожидание очень длительного такта, когда поток, снимающий блокировку, не запланирован). Как правило, это очень плохая идея, если у вас нет полного контроля над машиной (например, привязка потоков, запуск других приложений, настройка ядра и т. д.) и вы точно не знаете, что делаете. Они являются очень распространенным источником недетерминированных скрытых взаимоблокировок и проблем с производительностью (хотя в первую очередь они должны улучшать производительность)...

— 30.07.2024 15:06

В процессоре с гиперпоточностью tpause может более полно передать физическое ядро другому логическому ядру на более длительный срок. Так что, возможно, задержка будет хуже, но, возможно, и пропускная способность лучше, по крайней мере, если другое ядро делает что-то полезное, а не ожидает вращения.

— 30.07.2024 21:43

c++ performance optimization x86

30.07.2024 01:29

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Из этого патча для Linux:

/*
 * On Intel the TPAUSE instruction waits until any of:
 * 1) the TSC counter exceeds the value provided in EDX:EAX
 * 2) global timeout in IA32_UMWAIT_CONTROL is exceeded
 * 3) an external interrupt occurs
 */

Похоже, TPAUSE предназначен для режима сна с оптимизацией энергопотребления, а не для вращения с малой задержкой. Для этого вам следует использовать PAUSE.

Кроме того, PAUSE задержка и поведение сильно зависят от микроархитектуры, поэтому вам следует проверить/сравнить его с реальной целью. Если у вас процессор Xeon 2022+, то это маловероятно на микроархитектуре Skylake (которая была представлена примерно в 2015 году).

30.07.2024 04:15

Другие вопросы по теме

Как эффективно проверить, появляется ли x перед y в списке

Найдите строку в матрице A, которая является ближайшей к матрице B

Как определить перекрывающуюся последовательность слов в двух текстах

Действительно ли рабочая нагрузка для pthreads должна быть в мс, чтобы pthreads приносила пользу?

Почему мое решение Python для проблемы захваченного дождя работает так медленно?

Вложенные операторы переключения для аргументов шаблона

Производительность коллекции .Net для особого случая использования

Как я могу эффективно фильтровать и агрегировать данные в Pandas DataFrame с несколькими условиями?

Ускорение кода Python для больших наборов данных

Оптимизация кода Python быстрее, чем за 4 секунды

Использовать _mm_pause() или _tpause() для цикла занятости?

Ответы 1

Другие вопросы по теме

Похожие вопросы