Почему обрабатывать отсортированный массив быстрее, чем несортированный?

Question

Почему обрабатывать отсортированный массив быстрее, чем несортированный?

22512

Вот кусок кода на С++, который кажется очень своеобразным. По какой-то странной причине сортировка данных чудом делает код почти в шесть раз быстрее.

#include <algorithm>
#include <ctime>
#include <iostream>

int main()
{
    // Generate data
    const unsigned arraySize = 32768;
    int data[arraySize];

    for (unsigned c = 0; c < arraySize; ++c)
        data[c] = std::rand() % 256;

    // !!! With this, the next loop runs faster
    std::sort(data, data + arraySize);

    // Test
    clock_t start = clock();
    long long sum = 0;

    for (unsigned i = 0; i < 100000; ++i)
    {
        // Primary loop
        for (unsigned c = 0; c < arraySize; ++c)
        {
            if (data[c] >= 128)
                sum += data[c];
        }
    }

    double elapsedTime = static_cast<double>(clock() - start) / CLOCKS_PER_SEC;

    std::cout << elapsedTime << std::endl;
    std::cout << "sum = " << sum << std::endl;
}

Без std::sort(data, data + arraySize); код запускается через 11.54 секунды.
С отсортированными данными код запускается за 1,93 секунды.

Вначале я думал, что это может быть просто аномалия языка или компилятора. Поэтому я попробовал это на Java.

import java.util.Arrays;
import java.util.Random;

public class Main
{
    public static void main(String[] args)
    {
        // Generate data
        int arraySize = 32768;
        int data[] = new int[arraySize];

        Random rnd = new Random(0);
        for (int c = 0; c < arraySize; ++c)
            data[c] = rnd.nextInt() % 256;

        // !!! With this, the next loop runs faster
        Arrays.sort(data);

        // Test
        long start = System.nanoTime();
        long sum = 0;

        for (int i = 0; i < 100000; ++i)
        {
            // Primary loop
            for (int c = 0; c < arraySize; ++c)
            {
                if (data[c] >= 128)
                    sum += data[c];
            }
        }

        System.out.println((System.nanoTime() - start) / 1000000000.0);
        System.out.println("sum = " + sum);
    }
}

С несколько похожим, но менее экстремальным результатом.

Моя первая мысль заключалась в том, что сортировка приводит данные в кеш, но потом я подумал, как это глупо, потому что массив только что сгенерирован.

Что происходит?
Почему быстрее обрабатывается отсортированный массив, чем несортированный массив?
Код суммирует некоторые независимые термины, и порядок не имеет значения.

GManNickG 27 июнь 2012, в 14:02

Источник

157

Только для записи. На Windows / VS2017 / i7-6700K 4GHz нет никакой разницы между двумя версиями. Это занимает 0,6 с в обоих случаях. Если количество итераций во внешнем цикле увеличивается в 10 раз, то время выполнения увеличивается в 10 раз и до 6 с в обоих случаях.
mp31415 15 нояб. 2017, в 20:45
45

@ user194715: любой компилятор, использующий cmov или другую реализацию без ветвей (например, автоматическую векторизацию с pcmpgtd ), будет иметь производительность, не зависящую от данных ни на одном процессоре. Но если он ветвистый, он будет зависеть от сортировки на любом процессоре с нестандартным спекулятивным выполнением. (Даже высокопроизводительные центральные процессоры используют предсказание ветвлений, чтобы избежать появления пузырей извлечения / декодирования на взятых ветвях; штраф за промах меньше).
Peter Cordes 26 дек. 2017, в 07:14
115

Woops ... re: Обвал и Призрак
KyleMit 05 янв. 2018, в 14:21
19

@KyleMit это как-то связано с обоими? Я мало читал об обоих
mohitmun 10 янв. 2018, в 06:26
25

@mohitmun, оба из этих недостатков безопасности вписываются в широкую категорию уязвимостей, классифицируемых как атаки « заражение ветвями »
KyleMit 10 янв. 2018, в 14:26
8

Пробовал это с массивом 200M на горячей точке JVM 1.8. Нет разницы для отсортированных и несортированных. Есть объяснения?
Sachin Verma 17 янв. 2018, в 18:15
8

@SachinVerma От головы до головы: 1) JVM может быть достаточно умным, чтобы использовать условные движения. 2) Код связан с памятью. 200M слишком велик, чтобы поместиться в кэш процессора. Таким образом, производительность будет ограничена пропускной способностью памяти вместо ветвления.
Mysticial 17 янв. 2018, в 21:57
6

@ Мистик, около 2). Я думал, что таблица прогнозирования отслеживает шаблоны (независимо от фактических переменных, которые были проверены для этого шаблона) и изменяет вывод прогноза на основе истории. Не могли бы вы дать мне причину, почему сверхбольший массив не выиграл бы от предсказания ветвления?
Sachin Verma 24 янв. 2018, в 06:39
8

@SachinVerma Да, но когда массив такой большой, в игру вступает еще больший фактор - пропускная способность памяти. Память не плоская . Доступ к памяти очень медленный, и пропускная способность ограничена. Чтобы упростить вещи, существует только так много байтов, которые могут быть переданы между процессором и памятью за фиксированный промежуток времени. Простой код, подобный приведенному в этом вопросе, вероятно, достигнет этого предела, даже если он замедлен из-за неправильных прогнозов. Этого не происходит с массивом 32768 (128 КБ), поскольку он помещается в кэш L2 ЦП.
Mysticial 24 янв. 2018, в 16:31
7

Существует новый недостаток безопасности под названием BranchScope: cs.ucr.edu/~nael/pubs/asplos18.pdf
Veve 27 март 2018, в 09:53
3

Для записи, ваши данные не нужно сортировать, а только разбивать на части, что намного быстрее.
screwnut 03 май 2018, в 23:12
5

Другое наблюдение состоит в том, что вам не нужно сортировать массив, но вам просто нужно разбить его на части со значением 128. Сортировка - это n * log (n), тогда как разбиение является просто линейным. По сути, это всего лишь один шаг этапа быстрой сортировки с выбранной сводной точкой 128. К сожалению, в C ++ есть только функция nth_element, которая разбивает по позициям, а не по значению.
Šimon Hrabec 11 май 2018, в 12:45
6

@ ŠimonHrabec А как насчет std :: partition ()?
demonkoryu 27 июнь 2018, в 12:21
3

Действительно, std :: partition - правильный ответ. Спасибо
Šimon Hrabec 28 июнь 2018, в 12:48
3

@ mp31415 Есть ли какое-то объяснение, почему это все же занимает время, несмотря на то, что предсказание ветвления все еще используется?
rahs 08 сен. 2018, в 15:51
4

FWIW: средний разработчик никогда не получает опыта работы с такими уникальными аппаратными проблемами, как эта. Прогноз ветвления даже не известен среднему разработчику.
Dylan 12 дек. 2018, в 19:15
1

@ mp31415 В Linux с Intel i3-7020U (4) @ 2,3 ГГц ускорение совершенно противоположное, когда речь заходит о языке. Время выполнения для C ++ сокращается с 29,7285 до 10,3184 (почти в 3 раза). Но когда я использую Java, он идет с 13,3513 до 3,2957 (почти 4 раза).
Prajwal Dhatwalia 18 март 2019, в 08:29

Показать ещё 15 комментариев

Теги:

c++

java

optimization

performance

branch-prediction

26 ответов

4005

Прогнозирование ветвей.

С отсортированным массивом условие data[c] >= 128 является первым false для строки значений, а затем становится true для всех последующих значений. Это легко предсказать. При несортированном массиве вы платите за затраты на разветвление.

Daniel Fischer 27 июнь 2012, в 14:53

89

Предсказание ветвлений работает лучше на отсортированных массивах по сравнению с массивами с разными шаблонами? Например, для массива -> {10, 5, 20, 10, 40, 20, ...} следующий элемент в массиве из шаблона - 80. Будет ли ускорен этот тип массива с помощью предсказания перехода в какой следующий элемент 80 здесь, если шаблон следует? Или это обычно помогает только с отсортированными массивами?
Adam Freeman 23 сен. 2014, в 18:58
106

Таким образом, в основном все, что я обычно узнал о big-O, выходит за окно? Лучше понести стоимость сортировки, чем стоимость ветвления?
Agrim Pathak 30 окт. 2014, в 07:51
115

@AgrimPathak Это зависит. Для не слишком больших входных данных алгоритм с более высокой сложностью быстрее, чем алгоритм с более низкой сложностью, когда константы меньше для алгоритма с более высокой сложностью. Где точка безубыточности может быть трудно предсказать. Кроме того, сравните это , местность важна. Big-O важен, но это не единственный критерий эффективности.
Daniel Fischer 30 окт. 2014, в 10:14
54

Когда происходит прогноз отрасли? Когда язык узнает, что массив отсортирован? Я думаю о ситуации с массивом, который выглядит следующим образом: [1,2,3,4,5, ... 998,999,1000, 3, 10001, 10002]? это неясное 3 увеличит время работы? Это будет так же долго, как несортированный массив?
Filip Bartuzi 09 нояб. 2014, в 13:37
51

@FilipBartuzi Предсказание ветвлений происходит в процессоре ниже уровня языка (но язык может предлагать способы сообщить компилятору о вероятности, поэтому компилятор может испускать подходящий для этого код). В вашем примере отклонение 3 приведет к ошибочному прогнозированию ветвления (для соответствующих условий, когда 3 дает результат, отличный от 1000), и, следовательно, обработка этого массива, вероятно, займет пару десятков или сотен наносекунд дольше, чем отсортированный массив, вряд ли когда-нибудь заметный. То, что стоит времени, - это высокий уровень неправильных прогнозов, одно неправильное прогнозирование на 1000 не очень много.
Daniel Fischer 09 нояб. 2014, в 13:49
0

@AdamFreeman - Сортировка важна здесь только потому, что в этом коде она увеличивает предсказание ветвления до 100% успеха.
Peter Wone 01 май 2015, в 04:02
1

Я бы порекомендовал взглянуть на: en.wikibooks.org/wiki/Optimizing_C%2B%2B/Writing_efficient_code/…, где представлено хорошее обсуждение с примерами этой темы, включая некоторые, которые не упоминаются ни в каких комментариях, которые я видел по этому вопросу. ,
Dr t 25 май 2017, в 17:51
0

@DanielFischer знает ли компилятор, какой массив отсортирован, а какой нет?
आनंद 15 сен. 2017, в 14:16
1

@AnandTyagi Как заметил Питер Воне, дело не в том, что компилятор знает, какой массив отсортирован или нет. Представьте себе предельно простой предсказатель ветвления, который идет по тому же пути, что и предыдущая итерация, например, поезд идет влево, если в прошлый раз он шел налево, и наоборот. Для отсортированного массива 256 дюймов (без учета неопределенной первой итерации) прогноз будет верным от 2-128, неправильным для 129, а затем корректным для 130-256. Теперь это ужасный предсказатель ветвления, который будет работать только в этой конкретной ситуации, но действительно хороший предсказатель должен все же справиться с этим.
knickum 13 окт. 2017, в 21:43

Показать ещё 7 комментариев

2911

Причина, по которой производительность резко повышается при сортировке данных, заключается в том, что штраф за предсказание ветвлений устранен, как прекрасно объяснено в ответе Mysticial.

Теперь, если мы посмотрим на код

if (data[c] >= 128)
    sum += data[c];

мы можем обнаружить, что смысл этой конкретной ветки if... else... состоит в том, чтобы добавить что-то, когда условие выполнено. Этот тип ветки может быть легко преобразован в оператор условного перемещения, который будет скомпилирован в инструкцию условного перемещения: cmovl, в системе x86. Ветвление и, следовательно, потенциальное наказание за предсказание ветвления удаляются.

В C, таким образом, C++, оператор, который будет напрямую (без какой-либо оптимизации) компилироваться в инструкцию условного перемещения в x86, является троичным оператором ...?... :... ...?... :... Поэтому мы переписываем приведенное выше утверждение в эквивалентное:

sum += data[c] >=128 ? data[c] : 0;

Поддерживая читабельность, мы можем проверить коэффициент ускорения.

Для Intel Core i7 -2600K @3,4 ГГц и режима выпуска Visual Studio 2010 эталонный тест (формат скопирован из Mysticial):

x86

//  Branch - Random
seconds = 8.885

//  Branch - Sorted
seconds = 1.528

//  Branchless - Random
seconds = 3.716

//  Branchless - Sorted
seconds = 3.71

x64

//  Branch - Random
seconds = 11.302

//  Branch - Sorted
 seconds = 1.830

//  Branchless - Random
seconds = 2.736

//  Branchless - Sorted
seconds = 2.737

Результат является надежным в нескольких тестах. Мы получаем значительное ускорение, когда результат ветвления непредсказуем, но мы немного страдаем, когда он предсказуем. Фактически, при использовании условного перемещения производительность остается одинаковой независимо от шаблона данных.

Теперь давайте посмотрим более подробно, исследуя сборку x86 они генерируют. Для простоты мы используем две функции max1 и max2.

max1 использует условную ветвь, if... else...:

int max1(int a, int b) {
    if (a > b)
        return a;
    else
        return b;
}

max2 использует троичный оператор ...?... :... ...?... :...:

int max2(int a, int b) {
    return a > b ? a : b;
}

На компьютере x86-64 GCC -S создает сборку ниже.

:max1
    movl    %edi, -4(%rbp)
    movl    %esi, -8(%rbp)
    movl    -4(%rbp), %eax
    cmpl    -8(%rbp), %eax
    jle     .L2
    movl    -4(%rbp), %eax
    movl    %eax, -12(%rbp)
    jmp     .L4
.L2:
    movl    -8(%rbp), %eax
    movl    %eax, -12(%rbp)
.L4:
    movl    -12(%rbp), %eax
    leave
    ret

:max2
    movl    %edi, -4(%rbp)
    movl    %esi, -8(%rbp)
    movl    -4(%rbp), %eax
    cmpl    %eax, -8(%rbp)
    cmovge  -8(%rbp), %eax
    leave
    ret

max2 использует намного меньше кода из-за использования инструкции cmovge. Но реальный выигрыш в том, что max2 не включает переходы по max2, jmp, что может привести к значительному max2 производительности, если прогнозируемый результат max2.

Так почему же условный ход работает лучше?

В типичном процессоре x86 выполнение инструкции делится на несколько этапов. Грубо говоря, у нас разные аппаратные средства для разных этапов. Поэтому нам не нужно ждать окончания одной инструкции, чтобы начать новую. Это называется конвейерной обработкой.

В случае ветвления следующая инструкция определяется предыдущей, поэтому мы не можем выполнить конвейеризацию. Мы должны либо ждать, либо предсказывать.

В случае условного перемещения выполнение команды условного перемещения делится на несколько этапов, но более ранние этапы, такие как Fetch и Decode, не зависят от результата предыдущей инструкции; только последние этапы нуждаются в результате. Таким образом, мы ждем часть времени выполнения одной инструкции. Вот почему версия условного перемещения медленнее, чем ветвь, когда предсказание легко.

Книга " Компьютерные системы: перспектива для программиста", второе издание, объясняет это подробно. Вы можете проверить Раздел 3.6.6 для Условных Инструкций Перемещения, всю Главу 4 для Архитектуры процессора и Раздел 5.11.2 для специальной обработки для Штрафов Предсказания и Ошибочного предсказания.

Иногда некоторые современные компиляторы могут оптимизировать наш код для сборки с большей производительностью, иногда некоторые компиляторы не могут (рассматриваемый код использует собственный компилятор Visual Studio). Зная разницу в производительности между ветвлением и условным перемещением, когда он непредсказуем, может помочь нам написать код с лучшей производительностью, когда сценарий становится настолько сложным, что компилятор не может их оптимизировать автоматически.

WiSaGaN 28 июнь 2012, в 03:51

123

Нет уровня оптимизации по умолчанию, если вы не добавите -O в командные строки GCC. (И вы не можете иметь худший английский, чем мой;)
Yann Droneaud 28 июнь 2012, в 14:04
77

Мне трудно поверить, что компилятор может оптимизировать троичный оператор лучше, чем эквивалентный оператор if. Вы показали, что GCC оптимизирует троичный оператор для условного перемещения; Вы не показали, что это не делает то же самое для оператора if. В самом деле, согласно Мистическим выше, GCC делает оптимизировать Условный оператор к условному ходу, что бы сделать этот ответ совершенно неправильно.
BlueRaja - Danny Pflughoeft 30 июнь 2012, в 15:29
3

@ BlueRaja-DannyPflughoeft Это неоптимизированная версия. Компилятор НЕ оптимизировал троичный оператор, он просто перевел его. GCC может оптимизировать, если-тогда, если дан достаточный уровень оптимизации, тем не менее, этот показывает силу условного перемещения, и ручная оптимизация имеет значение.
WiSaGaN 30 июнь 2012, в 16:08
87

@WiSaGaN Код ничего не демонстрирует, потому что ваши две части кода компилируются в один и тот же машинный код. Крайне важно, чтобы люди не понимали, что выражение if в вашем примере отличается от terenary в вашем примере. Это правда, что вы признаете сходство в своем последнем абзаце, но это не стирает тот факт, что остальная часть примера вредна.
Justin L. 11 окт. 2012, в 03:12
0

Например, я понятия не имею, скомпилированы ли тесты в верхней части вашего поста с оптимизацией или нет. Очевидно, это важно. Если есть разница в скорости при компиляции с оптимизацией, это было бы интересно, особенно если бы вы могли объяснить разницу, указав на различия в сгенерированном коде.
Justin L. 11 окт. 2012, в 03:18
0

@JustinL. Код OP не может быть оптимизирован компилятором VS2010, тест проводился в режиме релиза.
WiSaGaN 11 окт. 2012, в 03:23
45

@WiSaGaN Мое отрицательное голосование определенно превратится в повышательное, если вы измените свой ответ, чтобы удалить вводящий в заблуждение пример -O0 и показать разницу в оптимизированном asm на двух ваших -O0 примерах.
Justin L. 11 окт. 2012, в 04:13
0

@WiSaGaN Что вы имеете в виду, что это нельзя оптимизировать, это было сделано в режиме релиза? Вы можете указать оптимизацию, которая будет использоваться в конфигурации вашего решения / проекта, независимо от того, какой «режим» вы создадите, если только они волшебным образом не убрали его из VS2010 ... msdn.microsoft.com/en-us/library/fwkeyyhe.aspx
UpAndAdam 13 сен. 2013, в 20:12
46

@UpAndAdam На момент тестирования VS2010 не может оптимизировать исходную ветку в условное перемещение даже при указании высокого уровня оптимизации, в то время как gcc может.
WiSaGaN 14 сен. 2013, в 15:18
1

@ WiSaGaN понял, спасибо, не понимал, что это всего лишь недолгая оптимизация, которую VS может сделать в целом. Из вашего комментария это звучало так, как будто это связано с режимом компиляции. Как вы можете догадаться, я не очень тяжелый Windows и пользователь VS больше
UpAndAdam 16 сен. 2013, в 14:43
5

Этот троичный операторный трюк прекрасно работает на Java. Прочитав ответ Mystical, я подумал, что можно сделать для Java, чтобы избежать ложного предсказания ветвления, поскольку в Java нет ничего эквивалентного -O3. троичный оператор: 2.1943 с и оригинал: 6.0303 с.
Kin Cheung 01 сен. 2015, в 05:51

Показать ещё 9 комментариев

2000

Если вам интересно, что еще больше оптимизаций, которые могут быть сделаны с этим кодом, рассмотрите следующее:

Начиная с исходного цикла:

for (unsigned i = 0; i < 100000; ++i)
{
    for (unsigned j = 0; j < arraySize; ++j)
    {
        if (data[j] >= 128)
            sum += data[j];
    }
}

С перестановкой цикла мы можем безопасно изменить этот цикл на:

for (unsigned j = 0; j < arraySize; ++j)
{
    for (unsigned i = 0; i < 100000; ++i)
    {
        if (data[j] >= 128)
            sum += data[j];
    }
}

Затем вы можете видеть, что условие if является постоянным во время выполнения цикла i, поэтому вы можете вытащить if out:

for (unsigned j = 0; j < arraySize; ++j)
{
    if (data[j] >= 128)
    {
        for (unsigned i = 0; i < 100000; ++i)
        {
            sum += data[j];
        }
    }
}

Затем вы увидите, что внутренний цикл может быть свернут в одно единственное выражение, если предположить, что модель с плавающей запятой допускает ее (например,/fp: fast)

for (unsigned j = 0; j < arraySize; ++j)
{
    if (data[j] >= 128)
    {
        sum += data[j] * 100000;
    }
}

Это на 100 000 раз быстрее, чем раньше

vulcan raven 03 июль 2012, в 02:57

252

Если вы хотите обмануть, вы можете также вывести умножение за пределы цикла и выполнить sum * = 100000 после цикла.
Jyaif 11 окт. 2012, в 01:48
63

@Michael - я считаю, что этот пример на самом деле является примером оптимизации циклически-инвариантного подъема (LIH), а НЕ цикла подкачки . В этом случае весь внутренний цикл не зависит от внешнего цикла и поэтому может быть выведен из внешнего цикла, после чего результат просто умножается на сумму по i равную одной единице = 1e5. Это не имеет никакого значения для конечного результата, но я просто хотел установить рекорд, так как это такая часто посещаемая страница.
Yair Altman 04 март 2013, в 12:59
44

Хотя не в простом духе перестановки циклов, внутреннее if в этой точке может быть преобразовано в: sum += (data[j] >= 128) ? data[j] * 100000 : 0; который компилятор может уменьшить в cmovge или эквивалентный.
Alex North-Keys 15 май 2013, в 11:57
32

Внешний цикл должен сделать время, затрачиваемое внутренним циклом, достаточно большим для профилирования. Так почему бы вам не поменять местами. В конце эта петля будет удалена в любом случае.
saurabheights 22 июнь 2016, в 15:45
22

@saurabheights: Неверный вопрос: почему бы компилятору НЕ поменять цикл. Микробенчмарки это сложно;)
Matthieu M. 29 дек. 2016, в 13:58
1

@MatthieuM .: Я согласен с вами, но компилятор может оптимизировать его. Не уверен, что так, но я не эксперт по оптимизации компиляции. Но если вы правы, это не сделает недействительным замечание вулкана «Это в 100 000 раз быстрее, чем раньше».
saurabheights 29 дек. 2016, в 14:53
0

Если вы сделаете 'i' энергозависимым, компилятору будет сложно оптимизировать все, что связано с внешним циклом. Внутреннее содержимое все равно будет оптимизировано.
CygnusX1 10 нояб. 2018, в 12:24

Показать ещё 5 комментариев

1671

Несомненно, некоторые из нас будут интересоваться способами идентификации кода, который является проблематичным для процессора-предсказателя CPU. Инструмент Valgrind cachegrind имеет синтаксис ветвления-предсказателя, который активируется с помощью флага --branch-sim=yes. Запустив его по примерам в этом вопросе, количество внешних циклов, уменьшенных до 10000 и скомпилированных с помощью g++, дает следующие результаты:

Сортировка:

==32551== Branches:        656,645,130  (  656,609,208 cond +    35,922 ind)
==32551== Mispredicts:         169,556  (      169,095 cond +       461 ind)
==32551== Mispred rate:            0.0% (          0.0%     +       1.2%   )

Unsorted:

==32555== Branches:        655,996,082  (  655,960,160 cond +  35,922 ind)
==32555== Mispredicts:     164,073,152  (  164,072,692 cond +     460 ind)
==32555== Mispred rate:           25.0% (         25.0%     +     1.2%   )

Свернув в линейный вывод, созданный cg_annotate, мы видим для рассматриваемого цикла:

Сортировка:

          Bc    Bcm Bi Bim
      10,001      4  0   0      for (unsigned i = 0; i < 10000; ++i)
           .      .  .   .      {
           .      .  .   .          // primary loop
 327,690,000 10,016  0   0          for (unsigned c = 0; c < arraySize; ++c)
           .      .  .   .          {
 327,680,000 10,006  0   0              if (data[c] >= 128)
           0      0  0   0                  sum += data[c];
           .      .  .   .          }
           .      .  .   .      }

Unsorted:

          Bc         Bcm Bi Bim
      10,001           4  0   0      for (unsigned i = 0; i < 10000; ++i)
           .           .  .   .      {
           .           .  .   .          // primary loop
 327,690,000      10,038  0   0          for (unsigned c = 0; c < arraySize; ++c)
           .           .  .   .          {
 327,680,000 164,050,007  0   0              if (data[c] >= 128)
           0           0  0   0                  sum += data[c];
           .           .  .   .          }
           .           .  .   .      }

Это позволяет вам легко идентифицировать проблемную строку - в несортированной версии строка if (data[c] >= 128) вызывает 164 050 007 неверно предсказанных условных ветвей (Bcm) в рамках модели ветвления-предсказателя cachegrind, тогда как она вызывает только 10 006 в отсортированной версии.

В качестве альтернативы, в Linux вы можете использовать подсистему счетчиков производительности для выполнения той же задачи, но с собственной производительностью с использованием счетчиков CPU.

perf stat ./sumtest_sorted

Сортировка:

 Performance counter stats for './sumtest_sorted':

  11808.095776 task-clock                #    0.998 CPUs utilized          
         1,062 context-switches          #    0.090 K/sec                  
            14 CPU-migrations            #    0.001 K/sec                  
           337 page-faults               #    0.029 K/sec                  
26,487,882,764 cycles                    #    2.243 GHz                    
41,025,654,322 instructions              #    1.55  insns per cycle        
 6,558,871,379 branches                  #  555.455 M/sec                  
       567,204 branch-misses             #    0.01% of all branches        

  11.827228330 seconds time elapsed

Unsorted:

 Performance counter stats for './sumtest_unsorted':

  28877.954344 task-clock                #    0.998 CPUs utilized          
         2,584 context-switches          #    0.089 K/sec                  
            18 CPU-migrations            #    0.001 K/sec                  
           335 page-faults               #    0.012 K/sec                  
65,076,127,595 cycles                    #    2.253 GHz                    
41,032,528,741 instructions              #    0.63  insns per cycle        
 6,560,579,013 branches                  #  227.183 M/sec                  
 1,646,394,749 branch-misses             #   25.10% of all branches        

  28.935500947 seconds time elapsed

Он также может создавать аннотацию исходного кода с дизассемблированием.

perf record -e branch-misses ./sumtest_unsorted
perf annotate -d sumtest_unsorted

 Percent |      Source code & Disassembly of sumtest_unsorted
------------------------------------------------
...
         :                      sum += data[c];
    0.00 :        400a1a:       mov    -0x14(%rbp),%eax
   39.97 :        400a1d:       mov    %eax,%eax
    5.31 :        400a1f:       mov    -0x20040(%rbp,%rax,4),%eax
    4.60 :        400a26:       cltq   
    0.00 :        400a28:       add    %rax,-0x30(%rbp)
...

Подробнее см. руководство по производительности.

caf 12 окт. 2012, в 07:24

63

Это страшно, в несортированном списке должна быть 50% вероятность попадания в адд. Каким-то образом предсказание ветвлений имеет только 25% промахов, как это может быть лучше, чем промах 50%?
TallBrianL 09 дек. 2013, в 04:00
108

@ tall.b.lo: 25% от всех ветвей - в цикле две ветви, одна для data[c] >= 128 (которая, как вы предлагаете, имеет 50% промахов) и одна для условия цикла c < arraySize который имеет ~ 0% промахов.
caf 09 дек. 2013, в 04:29

1160

Я просто прочитал этот вопрос и его ответы, и я чувствую, что ответ отсутствует.

Обычный способ устранить предсказание ветвления, который, как мне показалось, особенно хорошо работает в управляемых языках, - это поиск в таблице вместо использования ветвления (хотя в этом случае я его не проверял).

Этот подход работает в целом, если:

это небольшая таблица и, скорее всего, будет кешироваться в процессоре, и
вы работаете в довольно узком цикле и/или процессор может предварительно загрузить данные.

Фон и почему

С точки зрения процессора, ваша память работает медленно. Чтобы компенсировать разницу в скорости, в ваш процессор встроена пара кешей (кеш L1/L2). Итак, представьте, что вы делаете свои хорошие вычисления и выясните, что вам нужен кусок памяти. Процессор выполнит операцию загрузки и загрузит часть памяти в кеш, а затем использует кеш для выполнения остальных вычислений. Поскольку память относительно медленная, эта "загрузка" замедлит вашу программу.

Как и прогнозирование ветвлений, это было оптимизировано в процессорах Pentium: процессор предсказывает, что ему нужно загрузить часть данных, и пытается загрузить их в кеш, прежде чем операция действительно попадет в кеш. Как мы уже видели, предсказание ветвления иногда идет ужасно неправильно - в худшем случае вам нужно вернуться назад и фактически ждать загрузки памяти, которая будет длиться вечно (другими словами: неудачное предсказание ветвления плохо, память загрузка после сбоя предсказания ветки просто ужасна!).

К счастью для нас, если схема доступа к памяти предсказуема, процессор загрузит ее в свой быстрый кеш, и все в порядке.

Первое, что нам нужно знать, это то, что мало? Хотя меньший размер, как правило, лучше, практическое правило заключается в том, чтобы придерживаться таблиц поиска размером <= 4096 байт. В качестве верхнего предела: если ваша справочная таблица больше 64 КБ, ее, вероятно, стоит пересмотреть.

Построение стола

Итак, мы выяснили, что можем создать небольшую таблицу. Следующее, что нужно сделать, это установить на место функцию поиска. Функции поиска обычно представляют собой небольшие функции, которые используют несколько основных целочисленных операций (и, или, xor, shift, add, remove и, возможно, умножение). Вы хотите, чтобы ваш ввод был переведен с помощью функции поиска в какой-то "уникальный ключ" в вашей таблице, который затем просто дает вам ответ на всю работу, которую вы хотели, чтобы он делал.

В этом случае:> = 128 означает, что мы можем сохранить значение, <128 означает, что мы избавимся от него. Самый простой способ сделать это - использовать 'И': если мы сохраняем это, мы И это с 7FFFFFFF; если мы хотим избавиться от него, мы И это с 0. Отметим также, что 128 - это степень 2 - так что мы можем пойти дальше и составить таблицу из 32768/128 целых чисел и заполнить ее одним нулем и большим количеством 7FFFFFFFF годов.

Управляемые языки

Вы можете удивиться, почему это хорошо работает на управляемых языках. В конце концов, управляемые языки проверяют границы массивов с помощью ветки, чтобы убедиться, что вы не ошиблись...

Ну, не совсем... :-)

Была проделана определенная работа по устранению этой ветки для управляемых языков. Например:

for (int i = 0; i < array.Length; ++i)
{
   // Use array[i]
}

В этом случае для компилятора очевидно, что граничное условие никогда не будет выполнено. По крайней мере компилятор Microsoft JIT (но я ожидаю, что Java делает подобные вещи) заметит это и вообще уберет проверку. Вау, это означает, что нет ветки. Точно так же это будет иметь дело с другими очевидными случаями.

Если у вас возникли проблемы с поиском на управляемых языках - ключ заключается в том, чтобы добавить & 0x[something]FFF к вашей функции поиска, чтобы сделать проверку границ предсказуемой, - и наблюдать, как она идет быстрее.

Результат этого дела

// Generate data
int arraySize = 32768;
int[] data = new int[arraySize];

Random random = new Random(0);
for (int c = 0; c < arraySize; ++c)
{
    data[c] = random.Next(256);
}

/*To keep the spirit of the code intact, I'll make a separate lookup table
(I assume we cannot modify 'data' or the number of loops)*/

int[] lookup = new int[256];

for (int c = 0; c < 256; ++c)
{
    lookup[c] = (c >= 128) ? c : 0;
}

// Test
DateTime startTime = System.DateTime.Now;
long sum = 0;

for (int i = 0; i < 100000; ++i)
{
    // Primary loop
    for (int j = 0; j < arraySize; ++j)
    {
        /* Here you basically want to use simple operations - so no
        random branches, but things like &, |, *, -, +, etc. are fine. */
        sum += lookup[data[j]];
    }
}

DateTime endTime = System.DateTime.Now;
Console.WriteLine(endTime - startTime);
Console.WriteLine("sum = " + sum);
Console.ReadLine();

atlaste 24 апр. 2013, в 08:18

50

Вы хотите обойти ветвь-предиктор, почему? Это оптимизация.
Dustin Oprea 24 апр. 2013, в 17:50
95

Потому что ни одна ветка не лучше, чем ветка :-) Во многих ситуациях это просто намного быстрее ... если вы оптимизируете, это определенно стоит попробовать. Они также используют его в f.ex. graphics.stanford.edu/~seander/bithacks.html
atlaste 24 апр. 2013, в 21:57
28

Как правило, таблицы поиска могут быть быстрыми, но запускали ли вы тесты для этого конкретного условия? Вы по-прежнему будете иметь условие ветвления в своем коде, только теперь оно перемещено в часть генерации справочной таблицы. Вы все еще не получили бы свой перфоманс
Zain Rizvi 19 дек. 2013, в 21:45
29

@ Зейн, если вы действительно хотите знать ... Да: 15 секунд с веткой и 10 секунд с моей версией. Несмотря на это, это полезный метод, чтобы узнать в любом случае.
atlaste 20 дек. 2013, в 18:57
36

Почему бы не sum += lookup[data[j]] где lookup - это массив с 256 записями, первые из которых равны нулю, а последние равны индексу?
Kris Vandermotten 12 март 2014, в 12:17
0

@KrisVandermotten +1 за это - я сделал ошибку, реализуя его, проверив индекс j; это должен был быть lookup[data[j]] как вы предлагаете вместо этого.
atlaste 17 март 2014, в 10:24
1

Вы говорите: «Было проделано довольно много работы по устранению этой ветки для управляемых языков». Конечно, но это не поможет с sum += lookup[data[j]]; , Однако, что поможет, так это то, что поиск никогда не выйдет за пределы в программе без ошибок, поэтому предиктор ветвления может предсказать ветвь идеально. А это значит скорость!
Kris Vandermotten 17 март 2014, в 17:17
0

@KrisVandermotten Да, это правильно. В этом случае также поможет использование правильного типа данных (например, byte[] data ); это полностью исключило бы ветвь, что означает большую скорость. :-) В основном я всегда предполагаю, что если (1) вы находитесь в тесном цикле с ограниченным количеством кода (например, здесь) и (2) если вы можете предсказать ветви с помощью «статического анализа кода», то процессор / JIT'ter выполнит свою работу правильно.
atlaste 18 март 2014, в 08:33
0

доступ к массиву означает операцию с указателем, например * (ptr + x) - верно? Оператор кожевенного завода должен быть быстрее здесь - верно?
A. Binzxxxxxx 26 окт. 2015, в 16:06
0

но метод поиска будет нуждаться в инструкции перехода для перехода к целевым кодам. это место имеет безусловный скачок, процессор всегда будет чистить свой конвейер в этом случае? что будет хуже, чем если бы прогноз, когда предсказание ударил. это правильно?
Chinaxing 13 май 2016, в 16:15

Показать ещё 8 комментариев

1144

Поскольку данные распределяются между 0 и 255 при сортировке массива, вокруг первой половины итераций не будет вводиться if -statement (ниже оператор if).

if (data[c] >= 128)
    sum += data[c];

Вопрос: что делает вышеуказанный оператор не выполняемым в некоторых случаях, как в случае отсортированных данных? Здесь идет "предиктор отрасли". Предиктор ветвления представляет собой цифровую схему, которая пытается угадать, к какой ветке (например, структура if-then-else) будет идти, прежде чем это будет известно наверняка. Целью прогнозирования ветвей является улучшение потока в конвейере команд. Отраслевые предсказатели играют решающую роль в достижении высокой эффективности!

Позвольте сделать заметку, чтобы лучше понять ее

Производительность if -statement зависит от того, имеет ли ее состояние предсказуемый шаблон. Если условие всегда истинно или всегда ложно, логика предсказания ветвления в процессоре будет забирать шаблон. С другой стороны, если шаблон непредсказуем, состояние if будет намного дороже.

Позволяет измерять производительность этого цикла при разных условиях:

for (int i = 0; i < max; i++)
    if (condition)
        sum++;

Ниже приведены тайминги цикла с разными истинно-ложными шаблонами:

Condition            Pattern                 Time (ms)

(i & 0×80000000) == 0    T repeated          322

(i & 0xffffffff) == 0    F repeated          276

(i & 1) == 0            TF alternating    760

(i & 3) == 0            TFFFTFFF…          513

(i & 2) == 0            TTFFTTFF…          1675

(i & 4) == 0            TTTTFFFFTTTTFFFF… 1275

(i & 8) == 0            8T 8F 8T 8F …     752

(i & 16) == 0            16T 16F 16T 16F … 490

A bad "true-false шаблон может сделать if -statement до шести раз медленнее, чем шаблон хороший! Конечно, какой шаблон хорош, а что плохой, зависит от точных инструкций, генерируемых компилятором и конкретным процессором.

Таким образом, нет никаких сомнений относительно влияния прогноза ветвления на производительность!

Saqlain 15 фев. 2013, в 07:47

46

Вы не показываете время «случайного» паттерна TF.
Mooing Duck 23 фев. 2013, в 02:31
17

@MooingDuck 'Потому что это не будет иметь значения - это значение может быть чем угодно, но оно все равно будет в пределах этих порогов. Так зачем показывать случайное значение, когда вы уже знаете пределы? Хотя я согласен с тем, что вы могли бы показать один из них для полноты картины и «просто ради этого».
cst1992 28 март 2016, в 12:58
18

@ cst1992: Сейчас его самый медленный выбор времени - TTFFTTFFTTFF, что, на мой взгляд, вполне предсказуемо. Случайность по своей природе непредсказуема, поэтому вполне возможно, что она будет еще медленнее и, таким образом, выходит за пределы, показанные здесь. OTOH, это может быть, что TTFFTTFF отлично попадает в патологический случай. Не могу сказать, так как он не показывал время наугад.
Mooing Duck 28 март 2016, в 18:27
15

@MooingDuck По-человечески, «TTFFTTFFTTFF» - это предсказуемая последовательность, но мы говорим здесь о поведении предиктора ветвления, встроенного в CPU. Предиктором ветвления является не распознавание образов на уровне AI; это очень просто Когда вы просто чередуете ветви, это не очень хорошо предсказывает. В большинстве кода ветки идут одинаково почти все время; рассмотрим цикл, который выполняется тысячу раз. Ветвь в конце цикла возвращается к началу цикла 999 раз, а затем в тысячный раз происходит нечто иное. Обычно очень хорошо работает предсказатель ветвлений.
steveha 20 июль 2016, в 21:07
14

@steveha: Я думаю, что вы делаете предположения о том, как работает предсказатель ветвления ЦП, и я не согласен с этой методологией. Я не знаю, насколько продвинут этот предсказатель ветвления, но мне кажется, что он гораздо более продвинут, чем вы. Вы, вероятно, правы, но измерения определенно были бы хорошими.
Mooing Duck 20 июль 2016, в 21:10
3

@MooingDuck Это правда, что я не эксперт в разработке процессоров. Но я приглашаю вас прочитать страницу Википедии о предсказателях ветвей. Ни один из обсуждаемых проектов не может привязаться к шаблону TTFFTTFF ... и правильно предсказать. (За исключением, может быть, нейронной сети с достаточно продвинутой нейронной сетью, и я поставлю вам наличные деньги на то, что у вас нет вычислительного устройства с таким предиктором ветвления в его процессоре.) En.wikipedia.org/ вики / Branch_predictor
steveha 26 июль 2016, в 03:49
4

@steveha: двухуровневый адаптивный предиктор может без проблем использовать шаблон TTFFTTFF. «Варианты этого метода прогнозирования используются в большинстве современных микропроцессоров». Локальное предсказание ветвления и глобальное предсказание ветвления основаны на двухуровневом адаптивном предикторе, они также могут. «Глобальное прогнозирование ветвлений используется в процессорах AMD, а также в процессорах Intel Pentium M, Core, Core 2 и Silvermont на основе Atom». Также добавьте в этот список предиктор Соглашения, Гибридный предиктор, Прогнозирование косвенных переходов. Предиктор цикла не блокируется, но достигает 75%. Это оставляет только 2, которые не могут заблокировать
Mooing Duck 26 июль 2016, в 04:33
4

@MooingDuck: диаграмма в ответе Сурта ниже, я думаю, объясняет, почему TTFFTTFF на самом деле является «патологическим случаем» в примере Саклена.
Warren K 23 дек. 2016, в 22:32

Показать ещё 6 комментариев

1017

Один из способов избежать ошибок прогнозирования ветвлений - построить таблицу поиска и проиндексировать ее с использованием данных. Стефан де Бройн обсуждал это в своем ответе.

Но в этом случае мы знаем, что значения находятся в диапазоне [0, 255], и мы заботимся только о значениях> = 128. Это означает, что мы можем легко извлечь один бит, который скажет нам, хотим ли мы значения или нет: сдвигом данные вправо 7 бит, мы остаемся с 0 бит или 1 бит, и мы хотим только добавить значение, когда у нас есть 1 бит. Позвольте называть этот бит "бит решения".

Используя значение 0/1 бит решения как индекс в массиве, мы можем сделать код, который будет одинаково быстрым, будут ли данные отсортированы или не отсортированы. Наш код всегда будет добавлять значение, но когда бит решения равен 0, мы добавим значение где-то, на что нас не волнует. Здесь код:

// Test
clock_t start = clock();
long long a[] = {0, 0};
long long sum;

for (unsigned i = 0; i < 100000; ++i)
{
    // Primary loop
    for (unsigned c = 0; c < arraySize; ++c)
    {
        int j = (data[c] >> 7);
        a[j] += data[c];
    }
}

double elapsedTime = static_cast<double>(clock() - start) / CLOCKS_PER_SEC;
sum = a[1];

Этот код отнимает половину добавок, но никогда не имеет ошибки предсказания ветвления. Это значительно быстрее по случайным данным, чем версия с фактическим выражением if.

Но в моем тестировании явная таблица поиска была немного быстрее, чем это, вероятно, потому, что индексирование в таблицу поиска было немного быстрее, чем смещение битов. Это показывает, как мой код настраивается и использует таблицу поиска (невообразимо называемую lut для "LookUp Table" в коде). Здесь C++ код:

// declare and then fill in the lookup table
int lut[256];
for (unsigned c = 0; c < 256; ++c)
    lut[c] = (c >= 128) ? c : 0;

// use the lookup table after it is built
for (unsigned i = 0; i < 100000; ++i)
{
    // Primary loop
    for (unsigned c = 0; c < arraySize; ++c)
    {
        sum += lut[data[c]];
    }
}

В этом случае таблица поиска составляла всего 256 байтов, поэтому она прекрасно вписывалась в кеш, и все было быстро. Этот метод не сработает, если данные будут 24-битными значениями, и нам нужно только половину из них... таблица поиска будет слишком большой, чтобы быть практичной. С другой стороны, мы можем комбинировать два метода, показанные выше: сначала сдвинуть бит, а затем индексировать таблицу поиска. Для 24-битного значения, которое нам нужно только для значения верхней половины, мы могли бы перенести данные на 12 бит и оставить 12-битное значение для индекса таблицы. 12-разрядный индекс таблицы подразумевает таблицу из значений 4096, что может быть практичным.

EDIT: Одна вещь, которую я забыл положить.

Методика индексирования в массив вместо использования оператора if может использоваться для определения того, какой указатель использовать. Я видел библиотеку, которая реализовала двоичные деревья, и вместо двух указателей (pLeft и pRight или любого pRight) имела массив указателей длины-2 и использовал метод "бит решения", чтобы решить, к какому из них следует следовать. Например, вместо:

if (x < node->value)
    node = node->pLeft;
else
    node = node->pRight;

эта библиотека будет делать что-то вроде:

i = (x < node->value);
node = node->link[i];

Ссылка на этот код: Red Black Trees, Eternally Confuzzled

steveha 22 июль 2013, в 09:25

25

Правильно, вы также можете просто использовать бит напрямую и умножить ( data[c]>>7 - что также обсуждается где-то здесь); Я намеренно пропустил это решение, но, конечно, вы правы. Небольшое примечание: практическое правило для справочных таблиц состоит в том, что если он умещается в 4 КБ (из-за кэширования), он будет работать - желательно, чтобы таблица была как можно меньше. Для управляемых языков я бы увеличил это до 64 КБ, для низкоуровневых языков, таких как C ++ и C, я бы, вероятно, пересмотрел (это только мой опыт). Поскольку typeof(int) = 4 , я бы попробовал придерживаться до 10 бит.
atlaste 29 июль 2013, в 12:05
16

Я думаю, что индексирование со значением 0/1, вероятно, будет быстрее, чем целочисленное умножение, но я думаю, что если производительность действительно важна, вы должны профилировать ее. Я согласен с тем, что маленькие таблицы поиска необходимы, чтобы избежать нагрузки на кеш, но ясно, что если у вас больший кэш, вы можете справиться с большей таблицей поиска, поэтому 4 КБ - это скорее практическое правило, чем жесткое правило. Я думаю, что вы имели в виду sizeof(int) == 4 ? Это было бы верно для 32-разрядных. Мой двухлетний сотовый телефон имеет кэш-память L1 объемом 32 КБ, поэтому даже таблица поиска 4K может работать, особенно если значения поиска были байтами, а не целыми.
steveha 29 июль 2013, в 22:02
11

Возможно, я что-то упускаю, но в вашем методе j равен 0 или 1, почему бы вам просто не умножить свое значение на j перед его добавлением, а не использовать индексирование массива (возможно, следует умножить на 1-j а не на j )
Richard Tingle 04 март 2014, в 15:38
6

@steveha Умножение должно быть быстрее, я пытался найти его в книгах Intel, но не смог его найти ... в любом случае, сравнительный анализ также дает мне этот результат здесь.
atlaste 18 март 2014, в 08:45
10

@steveha PS: другой возможный ответ будет int c = data[j]; sum += c & -(c >> 7); который не требует умножения вообще.
atlaste 18 март 2014, в 08:52
0

Хороший ответ - так как справочная таблица может также обрабатывать сложные случаи, когда мы не можем легко обмануть с помощью битовых манипуляций
Falco 02 апр. 2014, в 15:15
0

Заин прав. «Если» просто скрыто в таблице поиска. Код быстрее, потому что таблица поиска скрыта за 100000 итераций. Нет ничего полезного в использовании таблицы поиска для этой проблемы.
Petter 04 июль 2014, в 14:56
0

i = (x < node->value); node = node->link[i]; не имеет явной ветви, но все равно содержит сравнение; это зависит от целевой архитектуры в отношении того, может ли это быть решено без ответвления или нет. Поскольку это можно сделать на x86 (с использованием CMOV или LAHF) и ARM (условное добавление или перемещение), которые являются единственными архитектурами, которые я использую, это, возможно, не важно!
Logan Pickup 27 окт. 2014, в 21:01
0

В какой архитектуре для выражения типа (x < node->value) потребуется ветвь для оценки? У всех архитектур, с которыми я знаком, есть регистр флагов, и просто извлечь желаемое значение флага. Я полагаю, что в Pentium 4 извлечение битов флага может быть медленным, поскольку IIRC не использует выделенное аппаратное обеспечение для переключения, а заимствует ALU для сдвига битов. Но я не знаю, где будет нужна фактическая ветвь. Хм, ваши примеры были условными ... идея в том, что как только вы извлекаете бит из флагов, вы можете просто использовать индексирование без ветвления.
steveha 27 окт. 2014, в 23:05
0

Сдвиг битов - это операция с нулевыми затратами в ARM, так что вы можете обнаружить, что бит-сдвинутая версия быстрее в ARM.
Luke Hutchison 28 фев. 2019, в 12:37

Показать ещё 8 комментариев

876

В отсортированном случае вы можете сделать это лучше, чем полагаться на успешное предсказание ветвления или любой теневой трюк без разветвления: полностью удалите ветку.

В самом деле, массив разбивается в смежной зоне с data < 128, а другой с data >= 128. Таким образом, вы должны найти точку раздела с дихотомическим поиском (используя сравнения Lg(arraySize) = 15), а затем выполнить прямое накопление из этой точки.

Что-то вроде (непроверено)

int i= 0, j, k= arraySize;
while (i < k)
{
  j= (i + k) >> 1;
  if (data[j] >= 128)
    k= j;
  else
    i= j;
}
sum= 0;
for (; i < arraySize; i++)
  sum+= data[i];

или, немного более запутанный

int i, k, j= (i + k) >> 1;
for (i= 0, k= arraySize; i < k; (data[j] >= 128 ? k : i)= j)
  j= (i + k) >> 1;
for (sum= 0; i < arraySize; i++)
  sum+= data[i];

Еще более быстрый подход, который дает приблизительное решение для отсортированного или несортированного: sum= 3137536; (предполагая действительно равномерное распределение, 16384 образцов с ожидаемым значением 191,5) :-)

Yves Daoust 24 июль 2013, в 08:41

23

sum= 3137536 - умная. Это, очевидно, не в этом вопрос. Вопрос в том, чтобы объяснить удивительные характеристики производительности. Я склонен сказать, что добавление выполнения std::partition вместо std::sort ценно. Хотя актуальный вопрос распространяется не только на синтетический тест.
sehe 24 июль 2013, в 16:31
12

@DeadMG: это действительно не стандартный дихотомический поиск по заданному ключу, а поиск по индексу разделения; требуется одно сравнение на одну итерацию. Но не полагайтесь на этот код, я не проверял его. Если вы заинтересованы в гарантированно правильной реализации, дайте мне знать.
Yves Daoust 24 июль 2013, в 20:37

707

Вышеприведенное поведение происходит из-за предсказания ветвей.

Чтобы понять предсказание ветвей, сначала нужно понять Трубопровод инструкций:

Любая инструкция разбивается на последовательность шагов, так что разные шаги могут выполняться параллельно параллельно. Этот метод известен как конвейер команд, и это используется для увеличения пропускной способности в современных процессорах. Чтобы лучше понять это, см. Пример в Википедии.

Как правило, современные процессоры имеют довольно длинные конвейеры, но для простоты можно рассмотреть только эти 4 шага.

IF - выбор команды из памяти
ID - декодировать инструкцию
EX - выполнить инструкцию
WB - Запись обратно в регистр CPU

4-этапный трубопровод в целом для 2 инструкций.

Возвращаясь к вышеуказанному вопросу, рассмотрим следующие инструкции:

                        A) if (data[c] >= 128)
                                /\
                               /  \
                              /    \
                        true /      \ false
                            /        \
                           /          \
                          /            \
                         /              \
              B) sum += data[c];          C) for loop or print().

Без предсказания ветвления произойдет следующее:

Для выполнения инструкции B или инструкции C процессору придется ждать, пока инструкция A не достигнет стадии EX в конвейере, так как решение перейти к инструкции B или инструкции C зависит от результата команды A. Таким образом, трубопровод будет выглядеть следующим образом.

, если условие возвращает true:

Если условие возвращает false:

В результате ожидания результата команды А общие циклы ЦП, проведенные в вышеуказанном случае (без предсказания ветвления, для истины и false) равны 7.

Итак, что такое предсказание ветвей?

Предисловие ветки будет пытаться угадать, к какой ветке (структура if-then-else) будет идти, прежде чем это будет известно наверняка. Он не будет ждать, пока инструкция А достигнет стадии EX конвейера, но она угадает решение и перейдет к этой инструкции (B или C в случае нашего примера).

В случае правильной догадки конвейер выглядит примерно так:

Если позже обнаружено, что предположение было неправильным, то частично выполненные инструкции отбрасываются, и конвейер начинается с правильной ветки с задержкой. Время, потраченное впустую в случае неверного предсказания ветки, равно количеству этапов в конвейере от этапа выборки до этапа выполнения. Современные микропроцессоры имеют довольно длинные конвейеры, так что задержка ложного предсказания составляет от 10 до 20 тактов. Чем длиннее конвейер, тем больше потребность в хорошем прогнозировании ветвей.

В OP-коде, в первый раз, когда условие условно, предсказатель ветвления не имеет никакой информации для прогнозирования базы, поэтому в первый раз он будет случайным образом выбирать следующую команду. Позже в цикле for он может основывать предсказание на истории. Для массива, отсортированного по возрастанию, существует три возможности:

Все элементы меньше 128
Все элементы больше 128
Некоторые начинающие новые элементы меньше 128, а затем становятся больше 128

Предположим, что предсказатель всегда будет считать истинную ветвь при первом запуске.

Итак, в первом случае он всегда будет считать истинную ветвь, поскольку исторически все ее предсказания верны. Во втором случае изначально он будет прогнозировать неправильно, но после нескольких итераций он будет правильно предсказать. В третьем случае он будет изначально предсказывать правильно до тех пор, пока элементы будут меньше 128. После этого он будет терпеть неудачу в течение некоторого времени и сам по себе, когда он увидит неудачу прогнозирования ветвления в истории.

Во всех этих случаях сбой будет меньше числа, и в результате всего несколько раз ему нужно будет отменить частично выполненные инструкции и начать с правильной ветки, что приведет к меньшему количеству циклов процессора.

Но в случае случайного несортированного массива предсказание должно будет отбросить частично выполненные инструкции и начать с правильной ветки большую часть времени и привести к большему количеству циклов ЦП по сравнению с отсортированным массивом.

Harsh Sharma 03 июль 2015, в 16:13

1

как две инструкции выполняются вместе? это сделано с отдельными ядрами процессора, или инструкция конвейера интегрирована в одно ядро процессора?
M.kazem Akhgary 11 окт. 2017, в 14:49
1

@ M.kazemAkhgary Это все внутри одного логического ядра. Если вам интересно, это хорошо описано, например, в Руководстве разработчика программного обеспечения Intel
Sergey.quixoticaxis.Ivanov 03 нояб. 2017, в 07:45

619

Официальным ответом будет

Intel - Избежание стоимости срединного Misprediction
Intel - реорганизация ветвей и циклов для предотвращения Mispredicts
Научные статьи - компьютерная архитектура прогнозирования ветвей
Книги: J.L. Hennessy, D.A. Паттерсон: Компьютерная архитектура: количественный подход.
Статьи в научных публикациях: T.Y. Yeh, Y.N. Пэтт сделал много из них по предсказаниям ветвей.

Вы также можете видеть из этой симпатичной диаграммы почему предиктор ветки путается.

Каждый элемент в исходном коде представляет собой случайное значение

data[c] = std::rand() % 256;

чтобы предиктор изменил стороны как удар std::rand().

С другой стороны, после его сортировки предиктор сначала перейдет в состояние, которое сильно не принято, и когда значения меняются на высокое значение, предиктор будет в три пробега через изменение полностью от сильно не принятого к сильному приняты.

Surt 11 окт. 2015, в 22:45

587

В той же строке (я думаю, что это не было подчеркнуто каким-либо ответом), полезно отметить, что иногда (особенно в программном обеспечении, где важна производительность - например, в ядре Linux), вы можете найти некоторые операторы if, такие как:

if (likely( everything_is_ok ))
{
    /* Do something */
}

или аналогичным образом:

if (unlikely(very_improbable_condition))
{
    /* Do something */    
}

Оба likely() и unlikely() являются фактически макросами, которые определяются с помощью чего-то вроде GCC __builtin_expect, чтобы помочь коду предсказания вставки компилятора в пользу условия, учитывающего информацию, предоставленную пользователем. GCC поддерживает другие встроенные функции, которые могут изменять поведение запущенной программы или выдавать инструкции низкого уровня, такие как очистка кеша и т.д. См. эту документацию, которая проходит доступные встроенные GCC.

Обычно такие виды оптимизации в основном используются в приложениях с жестким режимом реального времени или встраиваемых системах, где время выполнения имеет значение, и оно критично. Например, если вы проверяете какое-то условие ошибки, которое происходит только 1/10000000 раз, то почему бы не сообщить компилятору об этом? Таким образом, по умолчанию предсказание ветвления предполагает, что условие ложно.

rkachach 23 сен. 2015, в 15:58

558

Часто используемые логические операции в С++ производят много ветвей в скомпилированной программе. Если эти ветки находятся внутри циклов, и их трудно предсказать, они могут значительно замедлить выполнение. Булевы переменные сохраняются как 8-битные целые числа со значением 0 для false и 1 для true.

Булевы переменные переопределены в том смысле, что все операторы, которые имеют логические переменные в качестве входных, проверяют, имеют ли входы какое-либо другое значение, чем 0 или 1, но операторы, которые имеют Booleans в качестве вывода, могут не вызывать другого значения, чем 0 или 1. Это делает операции с булевыми переменными в качестве входных данных менее эффективными, чем необходимо. Рассмотрим пример:

bool a, b, c, d;
c = a && b;
d = a || b;

Это обычно реализуется компилятором следующим образом:

bool a, b, c, d;
if (a != 0) {
    if (b != 0) {
        c = 1;
    }
    else {
        goto CFALSE;
    }
}
else {
    CFALSE:
    c = 0;
}
if (a == 0) {
    if (b == 0) {
        d = 0;
    }
    else {
        goto DTRUE;
    }
}
else {
    DTRUE:
    d = 1;
}

Этот код далеко не оптимален. В случае неправильных прогнозов ветки могут занимать много времени. Булевы операции могут быть сделаны намного эффективнее, если известно с уверенностью, что операнды не имеют других значений, чем 0 и 1. Причина, по которой компилятор не делает такого предположения, состоит в том, что переменные могут иметь другие значения, если они не инициализированы или происходят из неизвестных источников. Вышеупомянутый код можно оптимизировать, если a и b были инициализированы до допустимых значений или если они исходят от операторов, которые производят логический вывод. Оптимизированный код выглядит следующим образом:

char a = 0, b = 1, c, d;
c = a & b;
d = a | b;

char используется вместо bool, чтобы можно было использовать побитовые операторы (& и |) вместо булевых операторов (&& и ||). Побитовые операторы - это одиночные инструкции, которые занимают только один такт. Оператор OR (|) работает, даже если a и b имеют другие значения, чем 0 или 1. Оператор AND (&) и оператор EXCLUSIVE OR (^) могут давать несогласованные результаты, если операнды имеют другие значения, чем 0 и 1.

~ не может использоваться для NOT. Вместо этого вы можете сделать Boolean NOT для переменной, которая, как известно, является 0 или 1, XOR'ing ее с помощью 1:

bool a, b;
b = !a;

можно оптимизировать для:

char a = 0, b;
b = a ^ 1;

a && b не может быть заменен на a & b, если b - это выражение, которое не должно быть оценено, если a false (&& не будет оценивать b, & будет). Аналогично, a || b не может быть заменен на a | b, если b - это выражение, которое не должно быть оценено, если a равно true.

Использование побитовых операторов более выгодно, если операнды являются переменными, чем если сравнивать операнды:

bool a; double x, y, z;
a = x > y && z < 5.0;

является оптимальным в большинстве случаев (если вы не ожидаете выражения && для генерации многих неверных предсказаний ветвления).

Maciej 10 окт. 2015, в 01:56

277

Это точно!...

Прогнозирование ветвей заставляет логику работать медленнее из-за переключения, которое происходит в вашем коде! Это похоже на то, что вы идете по прямой улице или улице с множеством повозок, наверняка, прямой будет сделан быстрее!...

Если массив отсортирован, ваше условие является ложным на первом шаге: data[c] >= 128, а затем становится истинным значением для всего пути до конца улицы. То, как вы добираетесь до конца логики быстрее. С другой стороны, используя несортированный массив, вам нужно много поворота и обработки, которые заставляют ваш код работать медленнее наверняка...

Посмотрите изображение, которое я создал для вас ниже. Какая улица будет закончена быстрее?

Таким образом, программно, предсказание ветвей заставляет процесс быть медленнее...

Также в конце хорошо знать, что у нас есть два вида предсказаний ветвей, которые будут влиять на ваш код по-разному:

1. Static

2. Dynamic

Статическое предсказание ветвления используется микропроцессором в первый раз возникает условная ветвь, а предсказание динамической ветки используется для последующих исполнений условного кода ветвления.

Чтобы эффективно писать свой код, чтобы воспользоваться этими правила при написании операторов if-else или switch, проверьте наиболее в первую очередь, с обычными делами и постепенным сокращением до минимума. Циклы не обязательно требуют специального заказа кода для статическое предсказание ветвления, поскольку только условие итератора цикла обычно используется.

Alireza 18 июнь 2017, в 12:57

259

Этот вопрос уже ответил много раз. Тем не менее, я хотел бы привлечь внимание группы к еще одному интересному анализу.

Недавно этот пример (немного модифицированный) также использовался в качестве способа продемонстрировать, как часть кода может быть профилирована внутри самой программы в Windows. По пути автор также показывает, как использовать результаты, чтобы определить, где код проводит большую часть своего времени как в отсортированном, так и в несортированном случае. Наконец, в части также показано, как использовать малоизвестную особенность HAL (Hardware Abstraction Layer), чтобы определить, насколько происходит неверное предсказание отрасли в несортированном случае.

Ссылка находится здесь: http://www.geoffchappell.com/studies/windows/km/ntoskrnl/api/ex/profile/demo.htm

ForeverLearning 12 янв. 2017, в 02:28

2

Это очень интересная статья (на самом деле, я только что все прочитал), но как она отвечает на вопрос?
Peter Mortensen 16 март 2018, в 12:47
2

@PeterMortensen Я немного озадачен вашим вопросом. Например, вот одна соответствующая строка из этого фрагмента: When the input is unsorted, all the rest of the loop takes substantial time. But with sorted input, the processor is somehow able to spend not just less time in the body of the loop, meaning the buckets at offsets 0x18 and 0x1C, but vanishingly little time on the mechanism of looping. Автор пытается обсудить профилирование в контексте кода, размещенного здесь, и в процессе пытается объяснить, почему отсортированный случай намного быстрее.
ForeverLearning 16 март 2018, в 15:37

156

Усиление прогноза ветвления!

Важно понимать, что неверное предсказание отрасли не замедляет программы. Стоимость пропущенного предсказания точно так же, как если бы предсказание ветвления не существовало, и вы ожидали, что оценка выражения решит, какой код будет выполняться (дальнейшее объяснение в следующем абзаце).

if (expression)
{
    // Run 1
} else {
    // Run 2
}

Всякий раз, когда существует оператор if-else\switch, выражение должно быть оценено для определения того, какой блок должен быть выполнен. В коде сборки, сгенерированном компилятором, вставлены условные branch.

Инструкция ветки может привести к тому, что компьютер начнет выполнение другой последовательности команд и, таким образом, отклонится от поведения по умолчанию выполнения команд по порядку (т.е. если выражение ложно, программа пропускает код блока if) в зависимости от при некотором условии, которое является оценкой выражения в нашем случае.

При этом компилятор пытается предсказать результат до того, как он будет фактически оценен. Он будет извлекать команды из блока if, и если выражение получится истинным, то замечательно! Мы получили время, необходимое для его оценки и прогресса в коде; если нет, то мы запускаем неправильный код, конвейер очищается, и выполняется правильный блок.

Визуализация:

Скажем, вам нужно выбрать маршрут 1 или маршрут 2. Ожидая, что ваш партнер проверит карту, вы остановились на ## и ждали, или вы можете просто выбрать маршрут1, и если вам повезет (маршрут 1 правильный маршрут), тогда вам не пришлось ждать, пока ваш партнер проверит карту (вы сохранили время, которое потребовалось бы ему, чтобы проверить карту), иначе вы просто вернетесь.

В то время как промывные трубопроводы очень быстрые, в настоящее время эта игра стоит того. Предсказание отсортированных данных или данных, которые меняются медленно, всегда проще и лучше, чем предсказать быстрые изменения.

 O      Route 1  /-------------------------------
/|\             /
 |  ---------##/
/ \            \
                \
        Route 2  \--------------------------------

Tony Tannous 04 авг. 2017, в 10:57

149

Как и то, что уже было упомянуто другими, то, что скрывается за тайной, - это предсказатель отрасли.

Я не пытаюсь что-то добавить, а объясняю концепцию по-другому. Существует краткое введение в вики, которое содержит текст и диаграмму. Мне нравится объяснение ниже, которое использует диаграмму для интуитивного развития Предиктора ветвей.

В компьютерной архитектуре предиктор ветвления - это цифровая схема, которая пытается угадать, каким образом пойдет ветвь (например, структура if-then-else), прежде чем это станет известно наверняка. Целью предиктора ветвления является улучшение потока в конвейере команд. Предсказатели ветвлений играют решающую роль в достижении высокой эффективной производительности во многих современных конвейерных микропроцессорных архитектурах, таких как x86.

Двустороннее ветвление обычно реализуется с помощью инструкции условного перехода. Условный переход может быть либо "не взят" и продолжен с первой ветвью кода, которая следует сразу после условного перехода, либо его можно "взять" и перейти в другое место в памяти программ, где находится вторая ветвь кода. сохраняются. Точно неизвестно, будет ли выполнен условный переход или нет, пока условие не будет вычислено и условный переход не пройдет этап выполнения в конвейере команд (см. Рис. 1).

На основе описанного сценария я написал демонстрационную анимацию, чтобы показать, как выполняются инструкции в конвейере в различных ситуациях.

Без предсказателя отрасли.

Без предсказания перехода процессор должен был бы ждать, пока инструкция условного перехода не пройдет этап выполнения, прежде чем следующая команда сможет перейти на этап выборки в конвейере.

В примере содержатся три инструкции, а первая - это инструкция условного перехода. Последние две инструкции могут идти в конвейер до тех пор, пока не будет выполнена команда условного перехода.

Для выполнения 3-х инструкций потребуется 9 тактов.

Используйте Branch Predictor и не делайте условный переход. Предположим, что прогноз не принимает условный переход.

Для выполнения 3-х инструкций потребуется 7 тактов.

Используйте Branch Predictor и сделайте условный прыжок. Предположим, что прогноз не принимает условный переход.

Для выполнения 3-х инструкций потребуется 9 тактов.

Время, которое теряется в случае неправильного предсказания ветвления, равно числу этапов в конвейере от этапа выборки до этапа выполнения. Современные микропроцессоры, как правило, имеют довольно длинные конвейеры, поэтому задержка неверного прогнозирования составляет от 10 до 20 тактов. В результате, увеличение длины конвейера увеличивает потребность в более продвинутом предикторе ветвления.

Как видите, у нас нет причин не использовать Branch Predictor.

Это довольно простая демонстрация, которая разъясняет самую основную часть Branch Predictor. Если эти картинки раздражают, пожалуйста, удалите их из ответа, и посетители также могут получить демо из git

Gearon 06 нояб. 2017, в 18:05

103

Это о предсказании ветки. Что это?

Предиктор ветвления является одной из древних технологий повышения производительности, которые все еще имеют отношение к современным архитектурам. В то время как простые методы прогнозирования обеспечивают быстрый поиск и эффективность использования энергии, они страдают от высокой частоты ошибочного предсказания.
С другой стороны, предсказания комплексных ветвей - либо нейронные, либо варианты двухуровневого предсказания ветвей - обеспечивают лучшую точность предсказания, но они потребляют больше энергии, а сложность возрастает экспоненциально.
В дополнение к этому в сложных методах прогнозирования время, затрачиваемое на прогнозирование ветвей, само по себе очень велико - от 2 до 5 циклов, что сопоставимо с временем выполнения фактических ветвей.
Прогнозирование отрасли - это, по сути, проблема оптимизации (минимизации), в которой акцент делается на достижение минимально возможной скорости промаха, низкое энергопотребление и низкую сложность с минимальными ресурсами.

На самом деле существует три разных типа ветвей:

Форвардные условные ветки - на основе состояния времени выполнения ПК (программный счетчик) изменяется, чтобы указать на адрес вперед в потоке команд.

Отказоустойчивые ветки - ПК изменяется на обратную сторону в потоке команд. Филиал основан на некоторых условиях, таких как ветвление назад к началу цикла программы, когда тест в конце цикла указывает, что цикл должен быть выполнен снова.

Безусловные ветки - это включает в себя переходы, вызовы процедур и возвраты, которые не имеют определенного условия. Например, инструкция безусловного перехода может быть закодирована на языке ассемблера как просто "jmp", и поток команд должен быть немедленно направлен в целевое местоположение, на которое указывает команда перехода, тогда как условный переход, который может быть закодирован как "jmpne", будет перенаправлять поток команд только в том случае, если результат сравнения двух значений в предыдущих инструкциях "сравнения" показывает, что значения не равны. (Сегментированная схема адресации, используемая архитектурой x86, добавляет дополнительную сложность, поскольку переходы могут быть либо "ближе" (внутри сегмента), либо "далеко" (вне сегмента). Каждый тип имеет разные эффекты для алгоритмов предсказания ветвлений.)

Статическое/динамическое предсказание ветвей. Статическое предсказание ветвления используется микропроцессором при первом возникновении условной ветки, а предсказание динамической ветки используется для последующих исполнений условного кода ветвления.

Литература:

aghilpro 03 окт. 2017, в 11:17

91

Помимо того, что предсказание ветки может замедлить работу, сортированный массив имеет еще одно преимущество:

У вас может быть условие остановки, а не просто проверка значения, таким образом, вы только перебираете соответствующие данные и игнорируете остальные.
Прогнозирование ветвления пропустит только один раз.

 // sort backwards (higher values first)
 std::sort(data, data + arraySize, std::greater<int>());

 for (unsigned c = 0; c < arraySize; ++c) {
       if (data[c] < 128) {
              break;
       }
       sum += data[c];               
 }

Yochai Timmer 23 нояб. 2017, в 15:56

0

Правильно, но стоимость установки сортировки массива составляет O (N log N), поэтому раннее прерывание не поможет вам, если единственная причина, по которой вы сортируете массив, заключается в возможности преждевременного прерывания. Однако, если у вас есть другие причины для предварительной сортировки массива, то да, это ценно.
Luke Hutchison 06 нояб. 2018, в 12:28
0

@LukeHutchison хорошее наблюдение; пожалуйста, смотрите мой ответ ниже для другого дубля.
user2297550 27 фев. 2019, в 11:47
0

Зависит от того, сколько раз вы сортируете данные по сравнению с тем, сколько раз вы зациклились на них. Сортировка в этом примере является лишь примером, она не должна быть перед циклом
Yochai Timmer 27 фев. 2019, в 12:23
0

Да, именно об этом я и говорил в своем первом комментарии :-) Вы говорите: «Прогноз ветвления будет пропущен только один раз». Но вы не учитываете пропуски ветвления O (N log N) внутри алгоритма сортировки, которые на самом деле больше, чем пропуски ветвления O (N) в несортированном случае. Таким образом, вам нужно будет использовать всю совокупность отсортированных данных O (log N) раз для безубыточности (вероятно, на самом деле ближе к O (10 log N), в зависимости от алгоритма сортировки, например, для быстрой сортировки, из-за пропадания кэша - mergesort является более когерентным, так что вам нужно приблизиться к O (2 log N) использования, чтобы достичь безубыточности.)
Luke Hutchison 28 фев. 2019, в 12:28
0

Одной из важных оптимизаций, однако, было бы сделать только «половину быстрой сортировки», сортируя только элементы, меньшие, чем целевое значение поворота 127 (предполагая, что все, меньше или равное сводке, сортируется после сводки). Как только вы достигнете точки, суммируйте элементы перед точкой. Это будет выполняться во время запуска O (N), а не O (N log N), хотя все еще будет много ошибок прогнозирования ветвлений, вероятно, порядка O (5 N) на основе чисел, которые я дал ранее, так как это половина быстрой сортировки.
Luke Hutchison 28 фев. 2019, в 12:34

Показать ещё 3 комментария

87

В ARM нет необходимости в ветке, потому что каждая инструкция имеет 4-битное поле условия, которое проверяется с нулевой стоимостью. Это устраняет необходимость в коротких ветвях, и не будет никакого хита предсказания ветвления. Поэтому отсортированная версия будет работать медленнее, чем несортированная версия на ARM, из-за дополнительных накладных расходов на сортировку. Внутренний цикл будет выглядеть примерно так:

MOV R0, #0     // R0 = sum = 0
MOV R1, #0     // R1 = c = 0
ADR R2, data   // R2 = addr of data array (put this instruction outside outer loop)
.inner_loop    // Inner loop branch label
    LDRB R3, [R2, R1]     // R3 = data[c]
    CMP R3, #128          // compare R3 to 128
    ADDGE R0, R0, R3      // if R3 >= 128, then sum += data[c] -- no branch needed!
    ADD R1, R1, #1        // c++
    CMP R1, #arraySize    // compare c to arraySize
    BLT inner_loop        // Branch to inner_loop if c < arraySize

Luke Hutchison 22 дек. 2017, в 15:00

1

Вы говорите, что каждая инструкция может быть условной? Таким образом, несколько инструкций с суффиксом GE могут выполняться последовательно, без изменения значения R3 между?
jpaugh 14 май 2018, в 14:04
1

Да, правильно, каждая инструкция может быть обусловлена ARM, по крайней мере, в 32- и 64-битных наборах команд. Есть выделенное 4-битное поле условия. У вас может быть несколько инструкций подряд с одним и тем же условием, но в какой-то момент, если вероятность ложного условия не пренебрежимо мала, эффективнее будет добавить ветвь.
Luke Hutchison 15 май 2018, в 17:06
1

Другим нововведением в ARM является добавление суффикса команды S, также необязательного для (почти) всех команд, который, если он отсутствует, не позволяет командам изменять биты состояния (за исключением команды CMP, задачей которой является установка битов состояния, поэтому ему не нужен суффикс S). Это позволяет вам избегать команд CMP во многих случаях, если сравнение выполняется с нулем или аналогичным образом (например, SUBS R0, R0, # 1 установит бит Z (Ноль), когда R0 достигнет нуля). Условные выражения и суффикс S не требуют дополнительных затрат. Это довольно красивый ISA.
Luke Hutchison 15 май 2018, в 17:06
1

Отсутствие добавления суффикса S позволяет вам иметь несколько условных инструкций подряд, не беспокоясь о том, что одна из них может изменить биты состояния, что в противном случае может иметь побочный эффект при пропуске остальных условных инструкций.
Luke Hutchison 15 май 2018, в 17:08

Показать ещё 2 комментария

84

Сортированные массивы обрабатываются быстрее, чем несортированный массив, из-за явлений, называемых предсказанием ветвления.

Отражающий предиктор - это цифровая схема (в компьютерной архитектуре), которая пытается предсказать, по какой ветке будет идти ветка, улучшая поток в конвейере команд. Схема/компьютер предсказывает следующий шаг и выполняет его.

Неправильное предсказание приводит к возврату к предыдущему шагу и выполнению с другим прогнозом. Предполагая, что предсказание верное, код продолжит следующий шаг. Неправильное предсказание приводит к повторению того же шага, пока не произойдет правильное предсказание.

Ответ на ваш вопрос очень прост.

В несортированном массиве компьютер делает несколько прогнозов, что приводит к увеличению вероятности ошибок. Принимая во внимание, что при сортировке компьютер делает меньше прогнозов, уменьшая вероятность ошибок. Для создания большего количества прогнозов требуется больше времени.

Сортированный массив: прямой путь

____________________________________________________________________________________
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 
TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT

Unsorted Array: кривая дорога

______   ________
|     |__|

Прогнозирование ветвей: Угадывание/прогнозирование того, какая дорога прямая и после нее без проверки

___________________________________________ Straight road
 |_________________________________________|Longer road

Хотя обе дороги достигают одного и того же пункта назначения, прямая дорога короче, а другая - длиннее. Если тогда вы выбираете другого по ошибке, нет возврата назад, и поэтому вы будете тратить лишнее время, если вы выберете более длинную дорогу. Это похоже на то, что происходит на компьютере, и я надеюсь, что это помогло вам лучше понять.

Обновление: после того, что сказал @Simon_Weaver, я хочу добавить еще один факт, что... "он не делает меньше прогнозов - он делает меньше ошибочных прогнозов. Он все равно должен прогнозировать каждый раз через цикл".

Omkaar.K 07 дек. 2017, в 18:10

9

«Простыми словами» - я нахожу ваше объяснение менее простым, чем в других поездах, и гораздо менее точным, чем любой другой ответ, хотя я не новичок. Мне очень любопытно, почему так много отрицательных отзывов, может быть, кто-то из будущих доверенных лиц скажет мне?
Sinatr 04 июль 2018, в 13:54
6

@Sinatr, вероятно, это действительно основано на мнении, я сам нашел это достаточно хорошим, чтобы выразить свое мнение, это, конечно, не так точно, как другие примеры, в этом весь смысл: раздавать ответ (как мы все можем согласиться, что здесь используется предсказание ветвлений) без заставлять читателей искать технические объяснения, как это делали другие (очень хорошо). И я думаю, что он сделал это достаточно хорошо.
xoxel 09 июль 2018, в 12:45
3

Это не делает меньше предсказаний - это делает меньше неправильных предсказаний. Это все еще должно предсказывать для каждого раза через цикл.
Simon_Weaver 16 июль 2018, в 01:28
4

О, ваш правильный, мой плохой, спасибо @Simon_Weaver, я исправлю это через некоторое время, или, пожалуйста, может кто-нибудь из вас отредактирует его, а затем я одобрю это, заранее спасибо ...
Omkaar.K 16 июль 2018, в 05:52
0

@ Синатр, есть причина, по которой это кажется менее простым, чем у других с поездами - это неправильно. Он правильно говорит, что обработка несортированного массива похожа на извилистую дорогу с большим количеством поворотов, но затем она говорит, что обработка отсортированного массива похожа на прямую дорогу, не имеющую даже одного поворота, что явно неправильно. Это скорее поэтическое, причудливое, «новое» объяснение того, что нужно считать правильным с самого начала, поскольку это объяснение никоим образом не способствует доказательству его правильности. +1 за креативность, -2 за некорректность. Мне тоже любопытно, что думают аппотеры.
user2297550 27 фев. 2019, в 11:46

Показать ещё 3 комментария

3

Хотя, как уже упоминалось в других ответах, современные компиляторы или архитектуры (ARM) делают этот конкретный пример спорным, в общем случае предположение о том, что для сортировки данных нужны другие ответы, не совсем корректно.

Следующий код сортирует не весь массив, а только его 200-элементные сегменты и, следовательно, работает быстрее всего.

#include <algorithm>
#include <ctime>
#include <iostream>

int main() {
    int data[32768]; const int l = sizeof data / sizeof data[0];

    for (unsigned c = 0; c < l; ++c)
        data[c] = std::rand() % 256;

    // sort 200-element segments, not the whole array
    for (unsigned c = 0; c + 200 <= l; c += 200)
        std::sort(&data[c], &data[c + 200]);

    clock_t start = clock();
    long long sum = 0;

    for (unsigned i = 0; i < 100000; ++i) {
        for (unsigned c = 0; c < sizeof data / sizeof(int); ++c) {
            if (data[c] >= 128)
                sum += data[c];
        }
    }

    std::cout << static_cast<double>(clock() - start) / CLOCKS_PER_SEC << std::endl;
    std::cout << "sum = " << sum << std::endl;
}

Сортировка только k-элементных разделов завершает предварительную обработку за линейное время, а не n.log(n) общем случае.

Это также "доказывает", что это не имеет никакого отношения к каким-либо алгоритмическим проблемам, таким как порядок сортировки, и это действительно предсказание ветвлений.

user2297550 09 дек. 2018, в 07:31

0

Я действительно не вижу, как это доказывает что-нибудь? Единственное, что вы показали, это то, что «не вся работа по сортировке всего массива занимает меньше времени, чем сортировка всего массива». Ваше утверждение, что это «также работает быстрее всего», очень зависит от архитектуры. Смотрите мой ответ о том, как это работает на ARM. PS вы могли бы ускорить свой код на архитектурах без ARM, поместив суммирование внутри цикла из 200 элементов, отсортировав его в обратном порядке, а затем воспользовавшись предложением Йохая Тиммера об разрыве, как только вы получите значение вне диапазона. Таким образом, каждое суммирование блока из 200 элементов может быть прекращено досрочно.
Luke Hutchison 28 фев. 2019, в 12:18
0

@LukeHutchison Доказательство - для ОП, а не для такого хорошо информированного автора, как вы. Для ОП это сводит на нет гипотезу о том, что сортировка имеет какое-либо отношение к более быстрой обработке (см. Формулировку названия вопроса). «Работает быстрее всего» в алгоритмическом смысле в архитектуре общего назначения - ARM - особый случай. Предложение Йохая Тиммера - это оптимизация, которая не алгоритмична в смысле «большой-О». Кроме того, в общем, люди будут делать что-то и в истинном, и в ложном случае, чтобы взлом Йохая не применялся и, вероятно, что-то более важное, чем суммирование.
user2297550 28 фев. 2019, в 15:21

2

Если под обработкой подразумевается поиск, то в этом случае отсортированные массивы позволяют использовать бинарный поиск и несортированный используемый линейный поиск. Поскольку мы знаем, что мы можем использовать Бинарный поиск, имеет сложность O (log n), а линейный поиск имеет сложность O (n), где n - это размер массива в обоих случаях.

Ashish Agrawal 02 янв. 2019, в 06:45

0

Здесь вам понадобится предсказание ветвления. Вы можете обратиться к этой статье за дополнительной информацией. Там также есть быстрый обзор по теме прогнозирования ветвей, который можно найти здесь.

kss 04 дек. 2018, в 07:29

0

Предложение "предсказание ветвей благоприятствует наиболее часто используемому условию" ничего не говорит о значении оцениваемого условия, будь то положительное или отрицательное. Он говорит только, что предсказание ветки может помочь условным ветвям, которые используются чаще, т.е. те, которые находятся в цикле. Поэтому он в основном говорит, используя, если внутри цикла в порядке.

Хотя вывод верен, вы не должны беспокоиться о том, что ifs в цикле (вы не должны беспокоиться ни о чем, если профайлер не говорит вам, что есть узкое место), само предложение довольно бессмысленно в контексте Java.

Прогнозирование ветвей является функцией ЦП, поэтому в интерпретируемом выполнении оно не имеет отношения к ветвям уровня Java, поскольку они просто изменяют состояние интерпретаторов (то есть указатель, который будет читать следующую инструкцию), но не связаны с инструкцией ЦП, которая была бы специфичной для конкретной ветки.

Как только HotSpot начинает играть, картина совершенно другая. Если этот код является "горячей точкой", оптимизатор будет применять множество преобразований кода, которые делают большинство предположений о том, как будет выполняться код Java, неправильно.

Одной общей оптимизацией является разворачивание цикла. Вместо того, чтобы иметь один блок кода, представляющий тело циклов, будет несколько экземпляров его, следующих друг за другом, оптимизированный относительно инвариантов их конкретной итерации. Эти установки позволяют полностью исключить связанные ветки, поскольку вполне предсказуемо, что после первого перехода firstManagedChild от true к false он никогда не вернется, поэтому, когда первая итерация неизменно видит истинное значение для него, код для последующие итерации могут быть оптимизированы для обработки переменной как постоянно ложной.

Таким образом, в этом случае предсказание ветвления снова не будет иметь никакого смысла, поскольку не будет ветвей для оператора if, результат которого можно заранее предсказать.

Sivaprakash B 17 окт. 2018, в 07:44

-4

Рассмотрим это:

Случай 1: Вы ищете книгу в библиотеке. Книга называется "Почему быстрее обрабатывать отсортированный массив, чем несортированный массив?"

Книги упорядочены по алфавиту по названию.

Случай 2: книги помещаются на полках в библиотеке.

Случай 2 потребует, чтобы вы расчесали всю библиотеку в худшем случае, пока Случай 1 потребует от вас перейти в раздел, где книги начинаются с "W".

Я считаю, что это тот же случай с вашим массивом. Нет разветвления до достижения w

TimeTrax 04 июнь 2018, в 09:39

Ещё вопросы

Только для записи. На Windows / VS2017 / i7-6700K 4GHz нет никакой разницы между двумя версиями. Это занимает 0,6 с в обоих случаях. Если количество итераций во внешнем цикле увеличивается в 10 раз, то время выполнения увеличивается в 10 раз и до 6 с в обоих случаях.
@ user194715: любой компилятор, использующий cmov или другую реализацию без ветвей (например, автоматическую векторизацию с pcmpgtd ), будет иметь производительность, не зависящую от данных ни на одном процессоре. Но если он ветвистый, он будет зависеть от сортировки на любом процессоре с нестандартным спекулятивным выполнением. (Даже высокопроизводительные центральные процессоры используют предсказание ветвлений, чтобы избежать появления пузырей извлечения / декодирования на взятых ветвях; штраф за промах меньше).
@KyleMit это как-то связано с обоими? Я мало читал об обоих
@mohitmun, оба из этих недостатков безопасности вписываются в широкую категорию уязвимостей, классифицируемых как атаки « заражение ветвями »
Пробовал это с массивом 200M на горячей точке JVM 1.8. Нет разницы для отсортированных и несортированных. Есть объяснения?
@SachinVerma От головы до головы: 1) JVM может быть достаточно умным, чтобы использовать условные движения. 2) Код связан с памятью. 200M слишком велик, чтобы поместиться в кэш процессора. Таким образом, производительность будет ограничена пропускной способностью памяти вместо ветвления.
@ Мистик, около 2). Я думал, что таблица прогнозирования отслеживает шаблоны (независимо от фактических переменных, которые были проверены для этого шаблона) и изменяет вывод прогноза на основе истории. Не могли бы вы дать мне причину, почему сверхбольший массив не выиграл бы от предсказания ветвления?
@SachinVerma Да, но когда массив такой большой, в игру вступает еще больший фактор - пропускная способность памяти. Память не плоская . Доступ к памяти очень медленный, и пропускная способность ограничена. Чтобы упростить вещи, существует только так много байтов, которые могут быть переданы между процессором и памятью за фиксированный промежуток времени. Простой код, подобный приведенному в этом вопросе, вероятно, достигнет этого предела, даже если он замедлен из-за неправильных прогнозов. Этого не происходит с массивом 32768 (128 КБ), поскольку он помещается в кэш L2 ЦП.
Существует новый недостаток безопасности под названием BranchScope: cs.ucr.edu/~nael/pubs/asplos18.pdf
Для записи, ваши данные не нужно сортировать, а только разбивать на части, что намного быстрее.
Другое наблюдение состоит в том, что вам не нужно сортировать массив, но вам просто нужно разбить его на части со значением 128. Сортировка - это n * log (n), тогда как разбиение является просто линейным. По сути, это всего лишь один шаг этапа быстрой сортировки с выбранной сводной точкой 128. К сожалению, в C ++ есть только функция nth_element, которая разбивает по позициям, а не по значению.
Действительно, std :: partition - правильный ответ. Спасибо
@ mp31415 Есть ли какое-то объяснение, почему это все же занимает время, несмотря на то, что предсказание ветвления все еще используется?
FWIW: средний разработчик никогда не получает опыта работы с такими уникальными аппаратными проблемами, как эта. Прогноз ветвления даже не известен среднему разработчику.
@ mp31415 В Linux с Intel i3-7020U (4) @ 2,3 ГГц ускорение совершенно противоположное, когда речь заходит о языке. Время выполнения для C ++ сокращается с 29,7285 до 10,3184 (почти в 3 раза). Но когда я использую Java, он идет с 13,3513 до 3,2957 (почти 4 раза).
Предсказание ветвлений работает лучше на отсортированных массивах по сравнению с массивами с разными шаблонами? Например, для массива -> {10, 5, 20, 10, 40, 20, ...} следующий элемент в массиве из шаблона - 80. Будет ли ускорен этот тип массива с помощью предсказания перехода в какой следующий элемент 80 здесь, если шаблон следует? Или это обычно помогает только с отсортированными массивами?
Таким образом, в основном все, что я обычно узнал о big-O, выходит за окно? Лучше понести стоимость сортировки, чем стоимость ветвления?
@AgrimPathak Это зависит. Для не слишком больших входных данных алгоритм с более высокой сложностью быстрее, чем алгоритм с более низкой сложностью, когда константы меньше для алгоритма с более высокой сложностью. Где точка безубыточности может быть трудно предсказать. Кроме того, сравните это , местность важна. Big-O важен, но это не единственный критерий эффективности.
Когда происходит прогноз отрасли? Когда язык узнает, что массив отсортирован? Я думаю о ситуации с массивом, который выглядит следующим образом: [1,2,3,4,5, ... 998,999,1000, 3, 10001, 10002]? это неясное 3 увеличит время работы? Это будет так же долго, как несортированный массив?
@FilipBartuzi Предсказание ветвлений происходит в процессоре ниже уровня языка (но язык может предлагать способы сообщить компилятору о вероятности, поэтому компилятор может испускать подходящий для этого код). В вашем примере отклонение 3 приведет к ошибочному прогнозированию ветвления (для соответствующих условий, когда 3 дает результат, отличный от 1000), и, следовательно, обработка этого массива, вероятно, займет пару десятков или сотен наносекунд дольше, чем отсортированный массив, вряд ли когда-нибудь заметный. То, что стоит времени, - это высокий уровень неправильных прогнозов, одно неправильное прогнозирование на 1000 не очень много.
@AdamFreeman - Сортировка важна здесь только потому, что в этом коде она увеличивает предсказание ветвления до 100% успеха.
Я бы порекомендовал взглянуть на: en.wikibooks.org/wiki/Optimizing_C%2B%2B/Writing_efficient_code/…, где представлено хорошее обсуждение с примерами этой темы, включая некоторые, которые не упоминаются ни в каких комментариях, которые я видел по этому вопросу. ,
@DanielFischer знает ли компилятор, какой массив отсортирован, а какой нет?
@AnandTyagi Как заметил Питер Воне, дело не в том, что компилятор знает, какой массив отсортирован или нет. Представьте себе предельно простой предсказатель ветвления, который идет по тому же пути, что и предыдущая итерация, например, поезд идет влево, если в прошлый раз он шел налево, и наоборот. Для отсортированного массива 256 дюймов (без учета неопределенной первой итерации) прогноз будет верным от 2-128, неправильным для 129, а затем корректным для 130-256. Теперь это ужасный предсказатель ветвления, который будет работать только в этой конкретной ситуации, но действительно хороший предсказатель должен все же справиться с этим.
Нет уровня оптимизации по умолчанию, если вы не добавите -O в командные строки GCC. (И вы не можете иметь худший английский, чем мой;)
Мне трудно поверить, что компилятор может оптимизировать троичный оператор лучше, чем эквивалентный оператор if. Вы показали, что GCC оптимизирует троичный оператор для условного перемещения; Вы не показали, что это не делает то же самое для оператора if. В самом деле, согласно Мистическим выше, GCC делает оптимизировать Условный оператор к условному ходу, что бы сделать этот ответ совершенно неправильно.
@ BlueRaja-DannyPflughoeft Это неоптимизированная версия. Компилятор НЕ оптимизировал троичный оператор, он просто перевел его. GCC может оптимизировать, если-тогда, если дан достаточный уровень оптимизации, тем не менее, этот показывает силу условного перемещения, и ручная оптимизация имеет значение.
@WiSaGaN Код ничего не демонстрирует, потому что ваши две части кода компилируются в один и тот же машинный код. Крайне важно, чтобы люди не понимали, что выражение if в вашем примере отличается от terenary в вашем примере. Это правда, что вы признаете сходство в своем последнем абзаце, но это не стирает тот факт, что остальная часть примера вредна.
Например, я понятия не имею, скомпилированы ли тесты в верхней части вашего поста с оптимизацией или нет. Очевидно, это важно. Если есть разница в скорости при компиляции с оптимизацией, это было бы интересно, особенно если бы вы могли объяснить разницу, указав на различия в сгенерированном коде.
@JustinL. Код OP не может быть оптимизирован компилятором VS2010, тест проводился в режиме релиза.
@WiSaGaN Мое отрицательное голосование определенно превратится в повышательное, если вы измените свой ответ, чтобы удалить вводящий в заблуждение пример -O0 и показать разницу в оптимизированном asm на двух ваших -O0 примерах.
@WiSaGaN Что вы имеете в виду, что это нельзя оптимизировать, это было сделано в режиме релиза? Вы можете указать оптимизацию, которая будет использоваться в конфигурации вашего решения / проекта, независимо от того, какой «режим» вы создадите, если только они волшебным образом не убрали его из VS2010 ... msdn.microsoft.com/en-us/library/fwkeyyhe.aspx
@UpAndAdam На момент тестирования VS2010 не может оптимизировать исходную ветку в условное перемещение даже при указании высокого уровня оптимизации, в то время как gcc может.
@ WiSaGaN понял, спасибо, не понимал, что это всего лишь недолгая оптимизация, которую VS может сделать в целом. Из вашего комментария это звучало так, как будто это связано с режимом компиляции. Как вы можете догадаться, я не очень тяжелый Windows и пользователь VS больше
Этот троичный операторный трюк прекрасно работает на Java. Прочитав ответ Mystical, я подумал, что можно сделать для Java, чтобы избежать ложного предсказания ветвления, поскольку в Java нет ничего эквивалентного -O3. троичный оператор: 2.1943 с и оригинал: 6.0303 с.
Если вы хотите обмануть, вы можете также вывести умножение за пределы цикла и выполнить sum * = 100000 после цикла.
@Michael - я считаю, что этот пример на самом деле является примером оптимизации циклически-инвариантного подъема (LIH), а НЕ цикла подкачки . В этом случае весь внутренний цикл не зависит от внешнего цикла и поэтому может быть выведен из внешнего цикла, после чего результат просто умножается на сумму по i равную одной единице = 1e5. Это не имеет никакого значения для конечного результата, но я просто хотел установить рекорд, так как это такая часто посещаемая страница.
Хотя не в простом духе перестановки циклов, внутреннее if в этой точке может быть преобразовано в: sum += (data[j] >= 128) ? data[j] * 100000 : 0; который компилятор может уменьшить в cmovge или эквивалентный.
Внешний цикл должен сделать время, затрачиваемое внутренним циклом, достаточно большим для профилирования. Так почему бы вам не поменять местами. В конце эта петля будет удалена в любом случае.
@saurabheights: Неверный вопрос: почему бы компилятору НЕ поменять цикл. Микробенчмарки это сложно;)
@MatthieuM .: Я согласен с вами, но компилятор может оптимизировать его. Не уверен, что так, но я не эксперт по оптимизации компиляции. Но если вы правы, это не сделает недействительным замечание вулкана «Это в 100 000 раз быстрее, чем раньше».
Если вы сделаете 'i' энергозависимым, компилятору будет сложно оптимизировать все, что связано с внешним циклом. Внутреннее содержимое все равно будет оптимизировано.
Это страшно, в несортированном списке должна быть 50% вероятность попадания в адд. Каким-то образом предсказание ветвлений имеет только 25% промахов, как это может быть лучше, чем промах 50%?
@ tall.b.lo: 25% от всех ветвей - в цикле две ветви, одна для data[c] >= 128 (которая, как вы предлагаете, имеет 50% промахов) и одна для условия цикла c < arraySize который имеет ~ 0% промахов.
Вы хотите обойти ветвь-предиктор, почему? Это оптимизация.
Потому что ни одна ветка не лучше, чем ветка :-) Во многих ситуациях это просто намного быстрее ... если вы оптимизируете, это определенно стоит попробовать. Они также используют его в f.ex. graphics.stanford.edu/~seander/bithacks.html
Как правило, таблицы поиска могут быть быстрыми, но запускали ли вы тесты для этого конкретного условия? Вы по-прежнему будете иметь условие ветвления в своем коде, только теперь оно перемещено в часть генерации справочной таблицы. Вы все еще не получили бы свой перфоманс
@ Зейн, если вы действительно хотите знать ... Да: 15 секунд с веткой и 10 секунд с моей версией. Несмотря на это, это полезный метод, чтобы узнать в любом случае.
Почему бы не sum += lookup[data[j]] где lookup - это массив с 256 записями, первые из которых равны нулю, а последние равны индексу?
@KrisVandermotten +1 за это - я сделал ошибку, реализуя его, проверив индекс j; это должен был быть lookup[data[j]] как вы предлагаете вместо этого.
Вы говорите: «Было проделано довольно много работы по устранению этой ветки для управляемых языков». Конечно, но это не поможет с sum += lookup[data[j]]; , Однако, что поможет, так это то, что поиск никогда не выйдет за пределы в программе без ошибок, поэтому предиктор ветвления может предсказать ветвь идеально. А это значит скорость!
@KrisVandermotten Да, это правильно. В этом случае также поможет использование правильного типа данных (например, byte[] data ); это полностью исключило бы ветвь, что означает большую скорость. :-) В основном я всегда предполагаю, что если (1) вы находитесь в тесном цикле с ограниченным количеством кода (например, здесь) и (2) если вы можете предсказать ветви с помощью «статического анализа кода», то процессор / JIT'ter выполнит свою работу правильно.
доступ к массиву означает операцию с указателем, например * (ptr + x) - верно? Оператор кожевенного завода должен быть быстрее здесь - верно?
но метод поиска будет нуждаться в инструкции перехода для перехода к целевым кодам. это место имеет безусловный скачок, процессор всегда будет чистить свой конвейер в этом случае? что будет хуже, чем если бы прогноз, когда предсказание ударил. это правильно?
Вы не показываете время «случайного» паттерна TF.
@MooingDuck 'Потому что это не будет иметь значения - это значение может быть чем угодно, но оно все равно будет в пределах этих порогов. Так зачем показывать случайное значение, когда вы уже знаете пределы? Хотя я согласен с тем, что вы могли бы показать один из них для полноты картины и «просто ради этого».
@ cst1992: Сейчас его самый медленный выбор времени - TTFFTTFFTTFF, что, на мой взгляд, вполне предсказуемо. Случайность по своей природе непредсказуема, поэтому вполне возможно, что она будет еще медленнее и, таким образом, выходит за пределы, показанные здесь. OTOH, это может быть, что TTFFTTFF отлично попадает в патологический случай. Не могу сказать, так как он не показывал время наугад.
@MooingDuck По-человечески, «TTFFTTFFTTFF» - это предсказуемая последовательность, но мы говорим здесь о поведении предиктора ветвления, встроенного в CPU. Предиктором ветвления является не распознавание образов на уровне AI; это очень просто Когда вы просто чередуете ветви, это не очень хорошо предсказывает. В большинстве кода ветки идут одинаково почти все время; рассмотрим цикл, который выполняется тысячу раз. Ветвь в конце цикла возвращается к началу цикла 999 раз, а затем в тысячный раз происходит нечто иное. Обычно очень хорошо работает предсказатель ветвлений.
@steveha: Я думаю, что вы делаете предположения о том, как работает предсказатель ветвления ЦП, и я не согласен с этой методологией. Я не знаю, насколько продвинут этот предсказатель ветвления, но мне кажется, что он гораздо более продвинут, чем вы. Вы, вероятно, правы, но измерения определенно были бы хорошими.
@MooingDuck Это правда, что я не эксперт в разработке процессоров. Но я приглашаю вас прочитать страницу Википедии о предсказателях ветвей. Ни один из обсуждаемых проектов не может привязаться к шаблону TTFFTTFF ... и правильно предсказать. (За исключением, может быть, нейронной сети с достаточно продвинутой нейронной сетью, и я поставлю вам наличные деньги на то, что у вас нет вычислительного устройства с таким предиктором ветвления в его процессоре.) En.wikipedia.org/ вики / Branch_predictor
@steveha: двухуровневый адаптивный предиктор может без проблем использовать шаблон TTFFTTFF. «Варианты этого метода прогнозирования используются в большинстве современных микропроцессоров». Локальное предсказание ветвления и глобальное предсказание ветвления основаны на двухуровневом адаптивном предикторе, они также могут. «Глобальное прогнозирование ветвлений используется в процессорах AMD, а также в процессорах Intel Pentium M, Core, Core 2 и Silvermont на основе Atom». Также добавьте в этот список предиктор Соглашения, Гибридный предиктор, Прогнозирование косвенных переходов. Предиктор цикла не блокируется, но достигает 75%. Это оставляет только 2, которые не могут заблокировать
@MooingDuck: диаграмма в ответе Сурта ниже, я думаю, объясняет, почему TTFFTTFF на самом деле является «патологическим случаем» в примере Саклена.
Правильно, вы также можете просто использовать бит напрямую и умножить ( data[c]>>7 - что также обсуждается где-то здесь); Я намеренно пропустил это решение, но, конечно, вы правы. Небольшое примечание: практическое правило для справочных таблиц состоит в том, что если он умещается в 4 КБ (из-за кэширования), он будет работать - желательно, чтобы таблица была как можно меньше. Для управляемых языков я бы увеличил это до 64 КБ, для низкоуровневых языков, таких как C ++ и C, я бы, вероятно, пересмотрел (это только мой опыт). Поскольку typeof(int) = 4 , я бы попробовал придерживаться до 10 бит.
Я думаю, что индексирование со значением 0/1, вероятно, будет быстрее, чем целочисленное умножение, но я думаю, что если производительность действительно важна, вы должны профилировать ее. Я согласен с тем, что маленькие таблицы поиска необходимы, чтобы избежать нагрузки на кеш, но ясно, что если у вас больший кэш, вы можете справиться с большей таблицей поиска, поэтому 4 КБ - это скорее практическое правило, чем жесткое правило. Я думаю, что вы имели в виду sizeof(int) == 4 ? Это было бы верно для 32-разрядных. Мой двухлетний сотовый телефон имеет кэш-память L1 объемом 32 КБ, поэтому даже таблица поиска 4K может работать, особенно если значения поиска были байтами, а не целыми.
Возможно, я что-то упускаю, но в вашем методе j равен 0 или 1, почему бы вам просто не умножить свое значение на j перед его добавлением, а не использовать индексирование массива (возможно, следует умножить на 1-j а не на j )
@steveha Умножение должно быть быстрее, я пытался найти его в книгах Intel, но не смог его найти ... в любом случае, сравнительный анализ также дает мне этот результат здесь.
@steveha PS: другой возможный ответ будет int c = data[j]; sum += c & -(c >> 7); который не требует умножения вообще.
Хороший ответ - так как справочная таблица может также обрабатывать сложные случаи, когда мы не можем легко обмануть с помощью битовых манипуляций
Заин прав. «Если» просто скрыто в таблице поиска. Код быстрее, потому что таблица поиска скрыта за 100000 итераций. Нет ничего полезного в использовании таблицы поиска для этой проблемы.
i = (x < node->value); node = node->link[i]; не имеет явной ветви, но все равно содержит сравнение; это зависит от целевой архитектуры в отношении того, может ли это быть решено без ответвления или нет. Поскольку это можно сделать на x86 (с использованием CMOV или LAHF) и ARM (условное добавление или перемещение), которые являются единственными архитектурами, которые я использую, это, возможно, не важно!
В какой архитектуре для выражения типа (x < node->value) потребуется ветвь для оценки? У всех архитектур, с которыми я знаком, есть регистр флагов, и просто извлечь желаемое значение флага. Я полагаю, что в Pentium 4 извлечение битов флага может быть медленным, поскольку IIRC не использует выделенное аппаратное обеспечение для переключения, а заимствует ALU для сдвига битов. Но я не знаю, где будет нужна фактическая ветвь. Хм, ваши примеры были условными ... идея в том, что как только вы извлекаете бит из флагов, вы можете просто использовать индексирование без ветвления.
Сдвиг битов - это операция с нулевыми затратами в ARM, так что вы можете обнаружить, что бит-сдвинутая версия быстрее в ARM.
sum= 3137536 - умная. Это, очевидно, не в этом вопрос. Вопрос в том, чтобы объяснить удивительные характеристики производительности. Я склонен сказать, что добавление выполнения std::partition вместо std::sort ценно. Хотя актуальный вопрос распространяется не только на синтетический тест.
@DeadMG: это действительно не стандартный дихотомический поиск по заданному ключу, а поиск по индексу разделения; требуется одно сравнение на одну итерацию. Но не полагайтесь на этот код, я не проверял его. Если вы заинтересованы в гарантированно правильной реализации, дайте мне знать.
как две инструкции выполняются вместе? это сделано с отдельными ядрами процессора, или инструкция конвейера интегрирована в одно ядро процессора?
@ M.kazemAkhgary Это все внутри одного логического ядра. Если вам интересно, это хорошо описано, например, в Руководстве разработчика программного обеспечения Intel
Это очень интересная статья (на самом деле, я только что все прочитал), но как она отвечает на вопрос?
@PeterMortensen Я немного озадачен вашим вопросом. Например, вот одна соответствующая строка из этого фрагмента: When the input is unsorted, all the rest of the loop takes substantial time. But with sorted input, the processor is somehow able to spend not just less time in the body of the loop, meaning the buckets at offsets 0x18 and 0x1C, but vanishingly little time on the mechanism of looping. Автор пытается обсудить профилирование в контексте кода, размещенного здесь, и в процессе пытается объяснить, почему отсортированный случай намного быстрее.
Правильно, но стоимость установки сортировки массива составляет O (N log N), поэтому раннее прерывание не поможет вам, если единственная причина, по которой вы сортируете массив, заключается в возможности преждевременного прерывания. Однако, если у вас есть другие причины для предварительной сортировки массива, то да, это ценно.
@LukeHutchison хорошее наблюдение; пожалуйста, смотрите мой ответ ниже для другого дубля.
Зависит от того, сколько раз вы сортируете данные по сравнению с тем, сколько раз вы зациклились на них. Сортировка в этом примере является лишь примером, она не должна быть перед циклом
Да, именно об этом я и говорил в своем первом комментарии :-) Вы говорите: «Прогноз ветвления будет пропущен только один раз». Но вы не учитываете пропуски ветвления O (N log N) внутри алгоритма сортировки, которые на самом деле больше, чем пропуски ветвления O (N) в несортированном случае. Таким образом, вам нужно будет использовать всю совокупность отсортированных данных O (log N) раз для безубыточности (вероятно, на самом деле ближе к O (10 log N), в зависимости от алгоритма сортировки, например, для быстрой сортировки, из-за пропадания кэша - mergesort является более когерентным, так что вам нужно приблизиться к O (2 log N) использования, чтобы достичь безубыточности.)
Одной из важных оптимизаций, однако, было бы сделать только «половину быстрой сортировки», сортируя только элементы, меньшие, чем целевое значение поворота 127 (предполагая, что все, меньше или равное сводке, сортируется после сводки). Как только вы достигнете точки, суммируйте элементы перед точкой. Это будет выполняться во время запуска O (N), а не O (N log N), хотя все еще будет много ошибок прогнозирования ветвлений, вероятно, порядка O (5 N) на основе чисел, которые я дал ранее, так как это половина быстрой сортировки.
Вы говорите, что каждая инструкция может быть условной? Таким образом, несколько инструкций с суффиксом GE могут выполняться последовательно, без изменения значения R3 между?
Да, правильно, каждая инструкция может быть обусловлена ARM, по крайней мере, в 32- и 64-битных наборах команд. Есть выделенное 4-битное поле условия. У вас может быть несколько инструкций подряд с одним и тем же условием, но в какой-то момент, если вероятность ложного условия не пренебрежимо мала, эффективнее будет добавить ветвь.
Другим нововведением в ARM является добавление суффикса команды S, также необязательного для (почти) всех команд, который, если он отсутствует, не позволяет командам изменять биты состояния (за исключением команды CMP, задачей которой является установка битов состояния, поэтому ему не нужен суффикс S). Это позволяет вам избегать команд CMP во многих случаях, если сравнение выполняется с нулем или аналогичным образом (например, SUBS R0, R0, # 1 установит бит Z (Ноль), когда R0 достигнет нуля). Условные выражения и суффикс S не требуют дополнительных затрат. Это довольно красивый ISA.
Отсутствие добавления суффикса S позволяет вам иметь несколько условных инструкций подряд, не беспокоясь о том, что одна из них может изменить биты состояния, что в противном случае может иметь побочный эффект при пропуске остальных условных инструкций.
«Простыми словами» - я нахожу ваше объяснение менее простым, чем в других поездах, и гораздо менее точным, чем любой другой ответ, хотя я не новичок. Мне очень любопытно, почему так много отрицательных отзывов, может быть, кто-то из будущих доверенных лиц скажет мне?
@Sinatr, вероятно, это действительно основано на мнении, я сам нашел это достаточно хорошим, чтобы выразить свое мнение, это, конечно, не так точно, как другие примеры, в этом весь смысл: раздавать ответ (как мы все можем согласиться, что здесь используется предсказание ветвлений) без заставлять читателей искать технические объяснения, как это делали другие (очень хорошо). И я думаю, что он сделал это достаточно хорошо.
Это не делает меньше предсказаний - это делает меньше неправильных предсказаний. Это все еще должно предсказывать для каждого раза через цикл.
О, ваш правильный, мой плохой, спасибо @Simon_Weaver, я исправлю это через некоторое время, или, пожалуйста, может кто-нибудь из вас отредактирует его, а затем я одобрю это, заранее спасибо ...
@ Синатр, есть причина, по которой это кажется менее простым, чем у других с поездами - это неправильно. Он правильно говорит, что обработка несортированного массива похожа на извилистую дорогу с большим количеством поворотов, но затем она говорит, что обработка отсортированного массива похожа на прямую дорогу, не имеющую даже одного поворота, что явно неправильно. Это скорее поэтическое, причудливое, «новое» объяснение того, что нужно считать правильным с самого начала, поскольку это объяснение никоим образом не способствует доказательству его правильности. +1 за креативность, -2 за некорректность. Мне тоже любопытно, что думают аппотеры.
Я действительно не вижу, как это доказывает что-нибудь? Единственное, что вы показали, это то, что «не вся работа по сортировке всего массива занимает меньше времени, чем сортировка всего массива». Ваше утверждение, что это «также работает быстрее всего», очень зависит от архитектуры. Смотрите мой ответ о том, как это работает на ARM. PS вы могли бы ускорить свой код на архитектурах без ARM, поместив суммирование внутри цикла из 200 элементов, отсортировав его в обратном порядке, а затем воспользовавшись предложением Йохая Тиммера об разрыве, как только вы получите значение вне диапазона. Таким образом, каждое суммирование блока из 200 элементов может быть прекращено досрочно.
@LukeHutchison Доказательство - для ОП, а не для такого хорошо информированного автора, как вы. Для ОП это сводит на нет гипотезу о том, что сортировка имеет какое-либо отношение к более быстрой обработке (см. Формулировку названия вопроса). «Работает быстрее всего» в алгоритмическом смысле в архитектуре общего назначения - ARM - особый случай. Предложение Йохая Тиммера - это оптимизация, которая не алгоритмична в смысле «большой-О». Кроме того, в общем, люди будут делать что-то и в истинном, и в ложном случае, чтобы взлом Йохая не применялся и, вероятно, что-то более важное, чем суммирование.

Mysticial · Accepted Answer · 2012-06-27T14-26-00.000Z

31040

Лучший ответ

Вы являетесь жертвой отклонение от ветвления.

Что такое предсказание ветвей?

Рассмотрим железнодорожный узел:

_{Изображение от Mecanismo, через Википедия. Используется под лицензией CC-By-SA 3.0.}

Теперь, ради аргумента, предположим, что это вернулось в 1800-е годы - до дальнего расстояния или радиосвязи.

Вы являетесь оператором перехода, и вы слышите, как идет поезд. Вы не представляете, как он должен идти. Вы останавливаете поезд, чтобы спросить водителя, в каком направлении они хотят. И затем вы установите переключатель соответствующим образом.

Поезда тяжелые и имеют большую инерцию. Таким образом, они навсегда задерживаются и замедляются.

Есть ли лучший способ? Вы догадываетесь, в каком направлении поезд поедет!

Если вы догадались, он продолжается.
Если вы догадались, капитан остановится, поддержит вас и кричит на вас, чтобы перевернуть переключатель. Затем он может перезапустить другой путь.

Если вы догадаетесь правильно каждый раз, поезд никогда не остановится.
Если вы слишком часто ошибаетесь,, поезд будет тратить много времени на остановку, резервное копирование и перезапуск.

Рассмотрим if-statement: На уровне процессора это инструкция перехода:

Вы процессор, и вы видите ветку. Вы не представляете, как он пойдет. Чем ты занимаешься? Вы прекратите выполнение и дождитесь завершения предыдущих инструкций. Затем вы продолжаете идти по правильному пути.

Современные процессоры сложны и имеют длинные конвейеры. Поэтому они навсегда наводят "разогрев" и "замедляют".

Есть ли лучший способ? Вы догадываетесь, в каком направлении идет ветка!

Если вы угадали, вы продолжаете выполнение.
Если вы ошиблись, вам нужно очистить конвейер и вернуться к ветке. Затем вы можете перезапустить другой путь.

Если вы угадываете права каждый раз, выполнение никогда не будет прекращено.
Если вы слишком часто ошибаетесь,, вы тратите много времени на свалку, откат и перезапуск.

Это предсказание ветвления. Я признаю, что это не лучшая аналогия, так как поезд может просто сигнализировать направление флагом. Но в компьютерах процессор не знает, к какому направлению идет ветка до последнего момента.

Итак, как бы вы стратегически угадали, чтобы свести к минимуму количество раз, которое поезд должен поддерживать и идти по другому пути? Вы смотрите на прошлую историю! Если поезд уходит в 99% случаев, то вы угадаете, что осталось. Если он чередуется, вы чередуете свои догадки. Если он идет один путь каждые 3 раза, вы догадываетесь о том же...

Другими словами, вы пытаетесь идентифицировать шаблон и следовать ему. Это более или менее то, как работают предиктора отрасли.

В большинстве приложений есть ведомые ветки. Таким образом, современные отраслевые предсказатели обычно достигают > 90% ставок. Но, столкнувшись с непредсказуемыми ветвями без узнаваемых паттернов, предсказатели ветвей практически бесполезны.

Дополнительная литература: статья "Отраслевой прогноз" в Википедии.

Как указано выше, виновником является это if-statement:

if (data[c] >= 128)
    sum += data[c];

Обратите внимание, что данные распределены равномерно между 0 и 255. Когда данные сортируются, примерно первая половина итераций не будет вводить оператор if. После этого все они войдут в оператор if.

Это очень дружелюбно относится к предсказателю ветки, так как ветвь последовательно выходит в одном направлении много раз. Даже простой насыщающий счетчик будет правильно предсказать ветку, за исключением нескольких итераций после того, как она переключит направление.

Быстрая визуализация:

T = branch taken
N = branch not taken

data[] = 0, 1, 2, 3, 4, ... 126, 127, 128, 129, 130, ... 250, 251, 252, ...
branch = N  N  N  N  N  ...   N    N    T    T    T  ...   T    T    T  ...

       = NNNNNNNNNNNN ... NNNNNNNTTTTTTTTT ... TTTTTTTTTT  (easy to predict)

Однако, когда данные полностью случайны, предсказатель ветвления оказывается бесполезным, поскольку он не может предсказать случайные данные. Таким образом, вероятно, будет около 50% ошибочного предсказания. (не лучше, чем случайное угадывание)

data[] = 226, 185, 125, 158, 198, 144, 217, 79, 202, 118,  14, 150, 177, 182, 133, ...
branch =   T,   T,   N,   T,   T,   T,   T,  N,   T,   N,   N,   T,   T,   T,   N  ...

       = TTNTTTTNTNNTTTN ...   (completely random - hard to predict)

Итак, что можно сделать?

Если компилятор не может оптимизировать ветвь в условном перемещении, вы можете попробовать некоторые хаки, если вы готовы пожертвовать удобочитаемостью для производительности.

Заменить:

if (data[c] >= 128)
    sum += data[c];

с:

int t = (data[c] - 128) >> 31;
sum += ~t & data[c];

Это устраняет ветвь и заменяет ее некоторыми побитовыми операциями.

_{(Обратите внимание, что этот хак не является строго эквивалентным исходному if-statement, но в этом случае он действителен для всех входных значений data[].)}

Тесты: Core i7 920 @3.5 ГГц

С++ - Visual Studio 2010 - выпуск x64

//  Branch - Random
seconds = 11.777

//  Branch - Sorted
seconds = 2.352

//  Branchless - Random
seconds = 2.564

//  Branchless - Sorted
seconds = 2.587

Java - Netbeans 7.1.1 JDK 7 - x64

//  Branch - Random
seconds = 10.93293813

//  Branch - Sorted
seconds = 5.643797077

//  Branchless - Random
seconds = 3.113581453

//  Branchless - Sorted
seconds = 3.186068823

замечания:

С веткой: Существует огромная разница между отсортированными и несортированными данными.
С Hack: Нет никакой разницы между отсортированными и несортированными данными.
В случае С++ хак на самом деле чуть медленнее, чем с веткой, когда данные сортируются.

Общее правило заключается в том, чтобы избежать зависящего от данных ветвления в критических циклах. (например, в этом примере)

Update:

GCC 4.6.1 с -O3 или -ftree-vectorize на x64 способен генерировать условное перемещение. Таким образом, нет никакой разницы между отсортированными и несортированными данными - оба быстро.
VС++ 2010 не может генерировать условные ходы для этой ветки даже в /Ox.
Intel Compiler 11 делает что-то чудесное. Он меняет две петли, тем самым поднимая непредсказуемую ветвь во внешний цикл. Таким образом, он не только защищает ошибочные предсказания, но и в два раза быстрее, чем любые VС++ и GCC могут генерировать! Другими словами, ICC воспользовался тестовым циклом, чтобы победить в тесте...
Если вы предоставите компилятору Intel нераспространяемый код, он просто не имеет права векторизовать его... и так же быстро, как с веткой (с обменом петлями).

Это показывает, что даже зрелые современные компиляторы могут сильно различаться в своей способности оптимизировать код...

Mysticial 27 июнь 2012, в 14:26

287

@Mysticial Чтобы избежать взлома смещения, вы можете написать что-то вроде int t=-((data[c]>=128)) для генерации маски. Это тоже должно быть быстрее. Было бы интересно узнать, достаточно ли умен компилятор для вставки условного перемещения или нет.
Mackie Messer 27 июнь 2012, в 16:47
200

@phonetagger Посмотрите на следующий вопрос: stackoverflow.com/questions/11276291/… Компилятор Intel подошел довольно близко к полному избавлению от внешнего цикла.
Mysticial 10 июль 2012, в 17:08
19

@Mysticial Как поезд / компилятор узнал, что он ввел неправильный путь?
onmyway133 06 авг. 2013, в 09:07
17

В соответствии с современными стандартами C и C ++ изменяющийся хак на самом деле не поведение, определяемое реализацией, а поведение, не определенное! Сдвиг 1 в или из знакового бита целого числа со знаком больше не допустим.
Phil Miller 18 авг. 2013, в 20:57
103

@Novelocrat Только половина этого является правильной. Сдвиг 1 в знаковый бит, когда он равен нулю, действительно является UB. Это потому, что это целочисленное переполнение со знаком. Но сдвиг 1 из знака-бита - это IB. Сдвиг вправо отрицательного целого числа со знаком - IB. Вы можете перейти к аргументу, что этот C / C ++ не требует, чтобы верхний бит был индикатором знака. Но детали реализации IB.
Mysticial 18 авг. 2013, в 21:04
23

@ Мистическая читаемость «хака» может быть увеличена путем введения метода. Например, в java private int sumIfGreaterThan128(int curSum, int value) . JIT-компилятор встроит его во время выполнения в любом случае. Я предполагаю, что в других языках есть равные оптимизации.
René Link 24 янв. 2014, в 10:15
26

@Unheilig Использование побитовых операций для чего-либо, кроме законных манипуляций с битами или умножения / деления на переменную степень два, я обычно не рекомендую, так как это часто запутывает. Тем не менее, вот хороший справочник по хищническим взломам: graphics.stanford.edu/~seander/bithacks.html
Mysticial 08 март 2014, в 19:53
130

@Mysticial Большое спасибо за ссылку. Это выглядит многообещающе. Я пойду, хотя это. Последний запрос Извините, но, пожалуйста, не возражайте, не могли бы вы сказать мне, как вы могли бы сделать это int t = (data[c] - 128) >> 31; sum += ~t & data[c]; заменить исходное условие if выше?
Unheilig 08 март 2014, в 20:05
20

@obe: Учитывая иерархические структуры памяти, невозможно сказать, сколько будет стоить промах кеша. Он может отсутствовать в L1 и разрешаться в более медленном L2, или пропускаться в L3 и разрешаться в системной памяти. Однако, если по какой-то странной причине эта ошибка кэша не приводит к загрузке памяти на нерезидентной странице с диска, у вас есть хорошая точка зрения ... у памяти не было времени доступа в диапазоне миллисекунд в течение примерно 25-30 лет ;)
Andon M. Coleman 19 апр. 2014, в 12:17
17

Было бы условное быстрее, чем хак, если не было предсказания ветвления? Условным будет (проверить) (перейти) (добавить), в то время как взлом использует 4 последовательных арифметических операции
woojoo666 19 июнь 2014, в 23:33
16

@ woojoo666 Это будет зависеть от того, насколько дорогими являются 4 операции по отношению к логике обработки ветвей. Так что, вероятно, будет меняться в зависимости от конкретного случая.
Mysticial 19 июнь 2014, в 23:45
15

Разве невозможно выполнить обе ветви параллельно и затем остановить выполнение одной неправильной ветви, вместо того, чтобы предсказывать одну ветку?
naveejr 08 июль 2014, в 05:33
14

@ Tuğrul Я бы предположил, что для данной частицы вероятность столкновения с другой частицей составляет менее 1%. Тогда предсказание ветвления всегда может предсказать отсутствие коллизий и будет> 99% правильным, отсортировано или нет. В конце для быстрой проверки столкновений вы все равно захотите использовать древовидную структуру.
matec 27 сен. 2014, в 19:23
13

Интересно, почему существует концепция предсказания ветвлений, в чем смысл концепции предсказания ветвлений? Я имею в виду, что без него мы получили бы определенный результат с отсортированным и несортированным массивом.
Code Geek 07 нояб. 2014, в 17:52
15

Когда происходит прогноз отрасли? Когда язык узнает, что массив отсортирован? Я думаю о ситуации с массивом, который выглядит следующим образом: [1,2,3,4,5, ... 998,999,1000, 3, 10001, 10002]? это неясное 3 увеличит время работы? Это будет так же долго, как несортированный массив?
Filip Bartuzi 09 нояб. 2014, в 13:37
19

@FilipBartuzi Предсказание ветвлений происходит в процессоре во время выполнения кода. Язык ничего не знает. В вашем примере это все равно будет быстрым, потому что вы добавляете только 1 или 2 неправильных прогноза на и вокруг 3.
Mysticial 09 нояб. 2014, в 17:49
13

@BJHomer Я попробовал это с Clang 3.5: отладка отсортирована в 9.3, отладка в несортированном 24.6. O2 сортировал 5,0 с, O2 не сортировал также 5,0 с. Похоже, что Clang способен хорошо оптимизировать цикл. Версия без ветвей из поста заняла 13 с для отладки, 4,1 с для O2, почти без разницы между отсортированным / несортированным.
Tomas Andrle 25 нояб. 2014, в 15:32
10

Это может выходить за рамки этого Q / A, но существуют ли современные процессоры, которые будут продолжать идти по обоим путям короткими путями, когда прогноз ветвления сообщает одинаковые шансы для каждой ветки? Если нет, то почему нет? Казалось бы, что запасные циклы, направленные на то, чтобы ветка была готова вовремя, лучше, чем неправильное гадание или просто ожидание.
Slipp D. Thompson 17 янв. 2015, в 22:54
6

@ SlippD.Thompson Вероятно, не по причинам, которые я упоминал в предыдущем комментарии. ,
Mysticial 18 янв. 2015, в 01:19
16

Практическое правило для написания кода, который эффективен на современном процессоре: все, что делает выполнение вашей программы более регулярным (менее неравномерным), будет стремиться сделать его более эффективным. Сортировка в этом примере имеет этот эффект из-за предсказания перехода. Локальный доступ (а не случайные удаленные доступы) имеет этот эффект из-за кэшей.
Lutz Prechelt 01 фев. 2015, в 15:25
172

Грамматика у меня хочет , чтобы я думаю , что это должно быть «... жертва предсказания ветвлений неудачи Юр„ а не просто“... жертва предсказания ветвлений неудачи.»
jdero 27 июнь 2015, в 11:35
6

Так, например, в случае Java предсказание ветвления происходит на уровне процессора или во время выполнения Java?
TheGuyWithTheFace 29 июнь 2015, в 14:42
8

GCC имеет много оптимизаций, которые по умолчанию не включены, среди прочего:
Ismael Luceno 11 июль 2015, в 09:19
8

он может разбивать циклы (с -ftree-loop-distribution и -ftree-loop-distribute-patterns ), перемещать инвариантные секции (по умолчанию), перемещать инвариантные условия из циклов (с -funswitch-loops , но вызывает дублирование), преобразовать условные переходы в условные хранилища или удалить их ( -ftree-loop-if-convert и -ftree-loop-if-convert-stores ). К сожалению, многие из этих опций имеют небезопасные побочные эффекты и только улучшают очень наивно написанный код.
Ismael Luceno 11 июль 2015, в 09:27
3

Здесь есть еще один факт. Данные и временная местность. При последующем доступе к одной и той же позиции много раз, ее значение остается в регистрах, поэтому обмен циклами удваивает производительность по сравнению с исходной отсортированной версией.
Renato Oliveira 13 окт. 2015, в 11:08
3

@ Mystic, этот ответ по-прежнему действителен, учитывая изменения процессора в 2015/6 году?
Sandeep 06 дек. 2015, в 11:43
17

@ Сандип Да. Процессоры все еще имеют прогноз ветвления. Если что-то изменилось, это компиляторы. В настоящее время я держу пари, что они более склонны делать то, что ICC и GCC (ниже -O3) сделали здесь, то есть удалить ветку. Учитывая, насколько серьезным является этот вопрос, вполне возможно, что компиляторы были обновлены для конкретной обработки случая в этом вопросе. Обязательно обратите внимание на SO. И это произошло по этому вопросу, где GCC был обновлен в течение 3 недель. Я не понимаю, почему это не произошло бы и здесь.
Mysticial 06 дек. 2015, в 16:31
6

Я только что запустил код в VS 2015, и сортировка больше не повышает производительность. Я измерял около 1,1 с для 32768 элементов и около 11 с для 327680 элементов (перенесен в глобальную переменную для предотвращения переполнения стека) с моим Intel Core I5 с частотой 3,6 ГГц благодаря TurboBoost. Я посмотрел на дизассемблирование и не нашел ни одной ветки, кроме одной для завершения цикла - она на самом деле использует такие команды, как cdq и movlpd которые обычно используются для операций с плавающей запятой.
Marian Spanik 09 дек. 2015, в 17:46
4

@ One-One Прогноз выполняется в начале конвейера, операция проходит через конвейер и достигает области ожидания для своих операндов. Как только его операнды становятся доступными, инструкция выполняется, и команда становится доступной для удаления (фиксация в фактическом состоянии). Выход на пенсию филиала проверяет правильность предположения. Если нет, очистите конвейер и перезапустите сборщик инструкций при правильной инструкции. Если прогноз был верным, просто продолжайте. К этому времени многие инструкции после предсказанной ветки уже запущены, но еще не зафиксированы.
doug65536 22 апр. 2016, в 12:33
1

В дополнение ... вы также можете использовать что-то вроде 'sum + = (data [i]> 128) * data [i];', которое все еще без ветвления, но с той же точностью, что и с ветвью.
chaws 13 май 2016, в 20:18
2

Как насчет троичного оператора? sum += data[i] > 128 ? data[i] : 0
Nicholas Hamilton 19 май 2016, в 23:39
5

@NicholasHamilton Тернарный оператор - это ветвь. Хотя некоторые компиляторы (а именно MSVC), кажется, лучше их оптимизируют, чем обычные операторы if.
Mysticial 19 май 2016, в 23:44
0

Действительно хорошая экспликация. Если вы добавите этот код, он станет намного быстрее: for (register unsigned i = 0; i < 100000; ++i) { // Primary loop for (register unsigned c = 0; c < arraySize; ++c) { register int t=(data[c]<<25)>>31; sum += ~t & data[c]; } }
Malus Jan 05 июнь 2016, в 21:38
0

@Mysticial: Спасибо за такое хорошее понимание. После этого мне пришла в голову пара вопросов: identify a pattern and follow it это звучит скорее как искусственный интеллект. Так можно ли сказать, что современные компиляторы оснащены алгоритмами ИИ для прогнозирования ветвлений? halt execution and wait until the previous instructions are complete которые звучат для меня из нескольких потоков. Разбивает ли ЦП внутренние блоки кода на потоки? (В одном из ваших комментариев также упоминается, что processor is executing many instructions at the same time ). Если да, какую роль играет компилятор?
Atul 14 июль 2016, в 14:48
2

@Atul В статье Википедии по прогнозированию ветвлений есть примеры некоторых алгоритмов прогнозирования ветвлений. Хотите ли вы назвать их «ИИ», решать только вам. На ваш другой вопрос о нескольких инструкциях одновременно, он называется Superscalar Execution .
Mysticial 14 июль 2016, в 14:55
0

@ Мистик: Спасибо! Я взял некоторое время, чтобы просмотреть статью (ы). Я понял, что предсказание ветвлений больше относится к архитектуре процессора, независимо от того, какой компилятор мы используем (в отличие от того, что меня впечатлило)
Atul 15 июль 2016, в 02:35
0

Я до сих пор не понимаю, почему компилятор должен даже предсказывать ?! Почему он не просто сравнивает два значения друг с другом и решает тогда ?!
Black 21 июль 2016, в 06:31
6

@EdwardBlack Это не компилятор, который делает прогноз. Это процессор. Во-вторых, процессор не может «просто решить», потому что он делает много вещей одновременно. Чтобы немного упростить ситуацию, пока процессор выполняет текущую инструкцию, он уже читает более 20 инструкций и готовит их к выполнению. Если у вас есть ветвь, процессор должен решить, с какой стороны делать это «вперед». Когда есть неправильное предсказание, все, что было «прочитано и подготовлено заранее», необходимо выбросить и перезапустить с другой стороны.
Mysticial 21 июль 2016, в 15:09
5

@EdwardBlack Подходящей аналогией для этой вещи с «чтением вперед» будет планирование полетов авиакомпании. Расписание рейсов составляется на месяцы раньше времени. Но когда происходит что-то неожиданное (например, из-за шторма в крупном транспортном узле), полеты отменяются, и этот график идет в дыму. Результат? Массовые задержки, которые распространяются на многие рейсы, которые даже не касаются этого аэропорта. Конечно, для процессора окно «предварительного планирования» имеет порядок наносекунд и до нескольких сотен инструкций, а не тысяч рейсов, охватывающих месяцы.
Mysticial 21 июль 2016, в 15:14
1

Это хороший ответ, но следует уточнить, что именно такое поведение вызывает ветвление процессора. Компиляторы тоже предсказывают ветки.
TimK 09 авг. 2016, в 19:25
2

В качестве дополнительного примечания было проведено некоторое исследование, в котором предикторы ветвления смогли «выяснить структуру rand ()». У них была ветвь, которая была в основном if( rand.nextInt(100) < 50 ) и правильно предсказывала что-то вроде 99% времени.
Riley 20 сен. 2016, в 15:02
1

Было несколько вопросов о том, почему процессор не просто выполняет обе ветви. Одна из причин заключается в том, что процессоры могут иметь до 20 предсказаний в полете (предположено, но еще не решено). Чтобы справиться с таким количеством, вам нужно выполнить 2 ^ 20 (1048576) разных путей одновременно.
Riley 20 сен. 2016, в 15:08
1

@Riley Я действительно ответил на комментарии о выполнении обеих веток. Но, похоже, мой комментарий по какой-то причине был удален.
Mysticial 20 сен. 2016, в 15:56
0

@ Мистикал Ваш ответ был в основном таким же или есть другая причина?
Riley 20 сен. 2016, в 15:57
0

@ Райли То же самое. Экспоненциальный рост ресурсов и тот факт, что прогноз часто очень точен.
Mysticial 20 сен. 2016, в 16:02
0

@ Adjit Нет простого ответа на это. В данном конкретном случае GCC и ICC могут выполнять условные перемещения, а VS - нет. Но это будет меняться в зависимости от кода. Пример в этом вопросе optimizeable к условному ходу. Но не всегда. Только действительно простые ветки могут быть оптимизированы таким образом.
Mysticial 29 окт. 2016, в 23:42
3

@ Adjit Нет, это слишком конкретно. Что следует убрать, так это то, что все, что приводит к условному изменению потока выполнения, подвергается снижению производительности из-за неправильного прогнозирования ветвлений. Это включает в себя операторы if, условия цикла, переключатели, троичные операторы, короткое замыкание логической логики, вызовы указателей функций, вызовы лямбда-выражений, вызовы виртуальных / полиморфных методов и т. Д. (Последние 3 из них не являются сама по себе связана с предсказанием ветвлений, но та же концепция применима в том, что процессор не «знает, куда идти».)
Mysticial 31 окт. 2016, в 15:11
0

@Mysticial - это особая причина, по которой вы выбрали реализацию (объявляя int) вместо sum += ~((data[c] - 128) >> 31) & data[c]; ?
Zze 15 нояб. 2016, в 02:20
0

@Zze Нет. Так получилось, когда я его получил. Переменная является маской, которая либо разрешает значение, либо устанавливает его в ноль.
Mysticial 15 нояб. 2016, в 05:57
1

@mysticial Значит ли это, что результат программы может быть неверным из-за прогноза? Как он узнает / проверяет правильность предположения? Разве для этого не потребуется вычислять все, чтобы узнать правильный результат для проверки?
elfan 16 нояб. 2016, в 22:36
2

@elfan Нет. Прогноз ветвления не влияет на правильность. Когда процессор выполняет набор инструкций, он должен вести себя «как если бы» он выполнял их построчно. Он может подшутить, чтобы ускорить процесс (например, прогнозирование ветвлений), но, в конце концов, он все равно должен уважать программу при ее написании. Что касается вашего другого вопроса, процессор узнает, когда предсказание является верным после выполнения инструкции ветвления, и определит, каким образом он должен идти.
Mysticial 16 нояб. 2016, в 23:37
1

@Mysticial, означает ли это, что в этом случае код завершится примерно за 2 секунды (вместо 12), если нет предсказания ветвления, и что дополнительные 10 секунд были из-за накладных расходов неправильных предсказаний (поезд возвращается назад)?
elfan 17 нояб. 2016, в 03:02
2

@elfan Нет. В качестве гипотетического примера: если бы не было предсказания, это всегда занимало бы 10 секунд. С хорошим прогнозом, это будет 2 секунды. При неизменно плохом прогнозе это будет 12 секунд. Дополнительные 2 секунды являются накладными расходами на возвращение. В большинстве случаев это будет ближе к 2 секундам, так что это чистый выигрыш.
Mysticial 17 нояб. 2016, в 03:59
1

Понятно, поэтому 8 секунд были накладными расходами, чтобы остановить поезд и каждый раз спрашивать водителя. Если ветвления вообще не было, и предсказания ветвлений не было, тогда код всегда будет занимать 2 секунды (т.е. аналогично случаю, когда предсказание всегда верно в системе с предсказанием ветвлений). Спасибо за отличное объяснение @Mysticial
elfan 17 нояб. 2016, в 06:37
1

Более простой способ для: int t = (data[c] - 128) >> 31; sum += ~t & data[c]; является char t = data[c] >> 7 ; /* Truncating the 7 bits (equivalent to data[c] >=128 ) */ sum += -t & data[c]; /* -t will be equivalent to -1 if data[c] >= 128*/ .
Mohit Thakur 29 нояб. 2016, в 06:00
0

Как это влияет (если вообще влияет) на оценку сложности алгоритма?
njzk2 02 дек. 2016, в 19:43
0

@ njzk2 это не так. Сложность - это асимптотическое поведение времени (или размера) функции, когда ее входы стремятся к бесконечности. Ошибки прогнозирования ветвления не изменяют поведение кривой на бесконечности, а только добавляют некоторое постоянное время вычисления к операции ветвления.
Snaipe 07 дек. 2016, в 20:20
1

Я подвергаю сомнению эффективность человеческого разума, когда дело доходит до ненужных накладных расходов, таких как предсказание ветвлений. Я только что прочитал статью в Википедии - какой умный человек это придумал, чтобы я мог его шлепнуть вверх ногами? Просто сделайте два одновременных спекулятивных выполнения для обеих ветвей и затем отбросьте спекулятивное выполнение «неправильной» ветви.
AMDG 06 фев. 2017, в 00:22
1

@LinkTheProgrammer Я не уверен, что решение так просто. Потому что если бы это было так, они, вероятно, уже сделали бы это. Основная проблема, которую я вижу, заключается в том, что современные процессоры будут прогнозировать несколько ветвей впереди. И это приводит к экспоненциальному взрыву состояния, если вы хотите следовать им всем. Другое дело, что использование нескольких путей означает, что вы будете тратить много ресурсов на выполнение вещей, которые будут выброшены. И это, вероятно, также влияет на энергопотребление.
Mysticial 06 фев. 2017, в 19:24
0

@ Может быть, мистицизм, но я думаю, здесь просто латентность. Мы можем беспокоиться о потреблении энергии, когда мой ноутбук за 200 долларов перестает работать, и люди начинают писать действительно эффективный код.
AMDG 06 фев. 2017, в 21:43
2

В GCC также есть __builtin_expect, чтобы помочь компилятору. См. Stackoverflow.com/questions/109710/…
k3a 10 март 2017, в 20:10
0

сумма + = ~ t & data [c]; Вышеприведенное будет неверным, так как операция & изменит биты. То, что вы хотите, как показано ниже операции умножения: sum + = (~ t * data [c]);
TheLoneJoker 18 сен. 2017, в 01:46
0

Я хотел бы знать, какие шаблоны я могу использовать для достижения этой цели? Могу ли я что-нибудь сделать, не спланировав должным образом все эти операции с маленьким массивом, чтобы я мог просто писать код способом, подходящим для компьютера? Лучше ли сортировать массив все время перед операцией? Я знаю, что это бессмысленно на этом уровне, но многие вещи складываются очень быстро. То же самое относится и к другим языкам программирования? Или это специфично для c ++?
Azarus 02 окт. 2017, в 16:55
0

@Azarus Я думаю, что вы среди значительного числа людей, которые смущаются из-за сортировки. Сортировка не имеет ничего общего с предсказанием ветвлений. Случается, что в конкретном примере этого вопроса раскрывается эффект предсказания ветвлений. Так что не ходите слепо, сортируя вещи, думая, что это волшебным образом решит все. Не все болезни лечатся антибиотиками. Прежде чем вы сможете применить решение, вам необходимо понять проблему. В противном случае вы можете принести больше вреда, чем пользы. И даже до того, как вы до этого доберетесь, правила преждевременной оптимизации все еще применяются.
Mysticial 02 окт. 2017, в 17:16
0

@ Mystical Я знаю, что было бы действительно глупо постоянно сортировать массивы. Компьютер будет постоянно работать в режиме прогнозирования ветвлений. Но мой вопрос был больше о том, что мы можем использовать на практике, чтобы избежать или уменьшить проблемы с производительностью, если они вообще есть? Мы можем с этим что-нибудь сделать? Или не стоит усилий и ситуации, когда это действительно важно, редкость?
Azarus 02 окт. 2017, в 17:20
0

@Azarus Если вы ищете «лучшую практику», она уже есть в ответе: «Общее правило - избегать ветвления, зависящего от данных, в критических циклах». Но я не могу сказать, стоит ли это усилий, поскольку это зависит от требований приложения и доступных ресурсов для его выполнения.
Mysticial 02 окт. 2017, в 17:53
0

хорошо, я вижу ваши тесты, но целое предсказание ветвления не дает большой производительности. это создает больше проблем, чем их решение. тогда почему процессоры производства вообще не хотят интегрировать в него такую вещь?
M.kazem Akhgary 11 окт. 2017, в 14:10
1

@ M.kazemAkhgary Потому что предсказание ветвлений помогает в> 95% случаев в реальной жизни. Пример в этом вопросе - оставшиеся 5%. И даже в этих 5% штраф минимален по сравнению с непредсказуемостью и всегда останавливается.
Mysticial 11 окт. 2017, в 15:27
0

Боюсь, что предложенная вами оптимизация некорректна: int t = (data[c] - 128) >> 31; имеет поведение, определяемое реализацией: data[c] имеет тип int , поэтому data[c] - 128 будет отрицательным для значений меньше 128. Смещение вправо отрицательного значения имеет поведение, определяемое реализацией. Это можно исправить для 2-х дополнительных архитектур с помощью простого выражения: sum += -(data[c] >= 128) & data[c]; для которого многие компиляторы будут производить код без переходов. В качестве альтернативы, учитывая диапазон data[c] : sum += -(data[c] >> 7) & data[c];
chqrlie 19 окт. 2017, в 11:16
1

@chqrlie Когда вы достигаете этого уровня оптимизации, поведение, определяемое реализацией, часто является приемлемым компромиссом. Тем более, что смещение знака вправо по существу универсально для 2-х дополнительных архитектур. Настоящий преступник здесь предполагает 32-битное int . Это было давно, но я, вероятно, не использовал решение для сравнения, потому что у меня был опыт работы с компиляторами, генерирующими ветки для преобразований bool -> int . Вы также не можете сделать это в Java. Во всяком случае, это было 5 лет назад. Я редко делаю эти хаки, так как предпочитаю внутренний маршрут SIMD.
Mysticial 19 окт. 2017, в 15:50
1

@ M.kazemAkhgary Короткий ответ: каждое ядро имеет несколько конвейеров. Длинный ответ - это загруженный вопрос. Попробуйте найти «суперскалярный процессор». Современные процессоры могут выполнять около 4 команд / цикл.
Mysticial 19 окт. 2017, в 17:56
0

В ARM (короткая) условная операция является операцией с нулевой стоимостью, поскольку каждая инструкция имеет 4-битное условное поле (допускающее 16 различных типов условий для любой инструкции), поэтому во многих случаях можно полностью избежать ветвления. (В этом случае просто сделайте сравнение, затем условно накапливайте). Таким образом, в ARM время выполнения будет больше для отсортированного, чем для не отсортированного, потому что сортировка требует дополнительной работы.
Luke Hutchison 22 дек. 2017, в 12:37
26

Обратите внимание, что эта оптимизация как раз и является причиной серьезных уязвимостей в Spectre и Meltdown. Короче говоря, некоторые операции, такие как кэширование, фактически не откатываются (по соображениям производительности), что приводит к тому, что некоторые потенциально конфиденциальные данные становятся читаемыми другими процессами.
Timothé Malahieude 05 янв. 2018, в 10:42
0

Позвольте мне прояснить одну вещь о вашей аналогии с поездами: поезд страдает, делая неправильный выбор, потому что он должен вернуться к точке ветвления при неудаче (я считаю, что это будет неправильный выбор, как вы видите). Предсказывает ли отраслевой прогноз плохой выбор по сравнению с отсутствием выбора и скорее ожиданием? Или предсказание ветвления в процессорах выгодно в обоих случаях (делая неточную аналогию поезда)?
Evusas 28 фев. 2018, в 08:35
2

@Evusas Я не дизайнер аппаратных средств, поэтому я точно не знаю ответа. Но логика отката определенно не бесплатна. Даже если разработчики процессоров удалось полностью скрыть влияние на производительность в misprediction отката, все еще стоит с точки зрения потребления энергии впустую вычислений. Современные микросхемы оптимизированы по энергопотреблению и будут изменять тактовую частоту, чтобы не превышать ограничения по мощности. Поэтому вполне вероятно, что чрезмерная потеря энергии из-за неправильных прогнозов может косвенно повлиять на производительность.
Mysticial 28 фев. 2018, в 19:12
0

@ TimothéMalahieude или, возможно, чрезмерно оптимистичные гарантии поставщиков ОС на изоляцию процессов являются причиной. Некоторым ОС, которые не используют концепцию процесса, все равно
Sergey.quixoticaxis.Ivanov 10 апр. 2018, в 18:32
0

@ Мистическое мне кажется, что пристрастие к скобкам уменьшает время, затрачиваемое на выполнение, но на самом деле не меньше процессорного времени / работы, потому что условие нужно проверять в любом случае, просто меньше простоев процессора. Тогда можно сказать, что если вы выполняете миллионы разных работ, общее время выполнения всех будет одинаковым с и без отраслевого пристрастия. поэтому он оптимизирует производительность, но не пропускную способность. это правильно?
naviram 16 сен. 2018, в 00:12
0

@naviram Нет, это не так. Ресурсы ЦП не могут быть перераспределены таким образом. Большинство из них это использовать или потерять. Если процессор застревает в ожидании разветвления ветви (среди прочего), его вычислительные ресурсы остаются бездействующими. Такие характеристики , как гиперпоточность позволят некоторому количество обмена. Но не до уровня, который вы описываете, где всегда используется все, что бы ни происходило. Кроме того, ошибочное прогнозирование ветки связано с потраченными впустую ресурсами. Таким образом, в случае, когда вы описываете, где пропускная способность имеет значение, и все может быть перераспределено, предсказание ветвления будет активно вредным.
Mysticial 16 сен. 2018, в 00:44
0

FWIW: В прошлый раз, когда я смотрел, на самом деле это была просто продвинутая форма переключения, а не просто прямой обмен.
Daniel Berlin 01 дек. 2018, в 05:08

Показать ещё 77 комментариев