arrayfun может быть значительно медленнее, чем явный цикл в matlab. Зачем?

Question

arrayfun может быть значительно медленнее, чем явный цикл в matlab. Зачем?

90

Рассмотрим следующий простой тест скорости для arrayfun:

T = 4000;
N = 500;
x = randn(T, N);
Func1 = @(a) (3*a^2 + 2*a - 1);

tic
Soln1 = ones(T, N);
for t = 1:T
    for n = 1:N
        Soln1(t, n) = Func1(x(t, n));
    end
end
toc

tic
Soln2 = arrayfun(Func1, x);
toc

На моей машине (Matlab 2011b на Linux Mint 12) вывод этого теста:

Elapsed time is 1.020689 seconds.
Elapsed time is 9.248388 seconds.

Что??? arrayfun, хотя, по общему признанию, более чистое решение, на порядок медленнее. Что здесь происходит?

Кроме того, я сделал аналогичный стиль теста для cellfun и обнаружил, что он примерно в 3 раза медленнее, чем явный цикл. Опять же, этот результат противоположный тому, что я ожидал.

Мой вопрос: Почему arrayfun и cellfun намного медленнее? И учитывая это, есть ли веские причины их использовать (кроме того, чтобы код выглядел хорошо)?

Примечание.. Я говорю о стандартной версии arrayfun здесь, а не о версии GPU из панели инструментов параллельной обработки.

EDIT: Чтобы быть ясным, я знаю, что Func1 выше может быть векторизован, как указал Оли. Я выбрал его только потому, что он дает простой тест скорости для целей фактического вопроса.

РЕДАКТИРОВАТЬ: Следуя предложению grungetta, я повторил тест с feature accel off. Результаты:

Elapsed time is 28.183422 seconds.
Elapsed time is 23.525251 seconds.

Другими словами, будет казаться, что большая часть разницы заключается в том, что ускоритель JIT делает гораздо лучшую работу по ускорению явного цикла for, чем при использовании arrayfun. Это кажется мне странным, так как arrayfun фактически предоставляет больше информации, т.е. Его использование показывает, что порядок вызовов Func1 не имеет значения. Кроме того, я отметил, что включение или выключение ускорителя JIT, моя система использует только один процессор...

Colin T Bowers 21 сен. 2012, в 02:18

Источник

10

К счастью, «стандартное решение» остается самым быстрым: tic; 3 * х ^ 2 + 2 * х-1. истекшее время составляет 0,030662 секунды.
Oli 21 сен. 2012, в 01:32
4

@ Oli Полагаю, мне следовало ожидать, что кто-то укажет на это и использует функцию, которую нельзя векторизовать :-)
Colin T Bowers 21 сен. 2012, в 02:22
3

Мне было бы интересно посмотреть, как меняется это время, когда JIT-ускоритель выключен. Выполните команду 'feature acl off' и повторите тест.
grungetta 21 сен. 2012, в 07:16
0

@grungetta Интересное предложение. Я добавил результаты к вопросу вместе с несколькими комментариями.
Colin T Bowers 21 сен. 2012, в 07:29
0

позвольте мне добавить этот вопрос к списку смежных вопросов: каков самый быстрый способ выполнения арифметических операций с каждым элементом массива ячеек?
Amro 22 апр. 2013, в 10:59
0

Жаль, что документы MATLAB изящно опускают эти вопросы. Я использую arrayfun для доступа к свойствам объектов внутри массивов объектов, и, к сожалению, он просто замедляет вещи на порядки ...
Alex Kreimer 05 апр. 2015, в 12:41

Показать ещё 4 комментария

Теги:

arrays

performance

matlab

2 ответа

-6

Это потому, что!!!!

x = randn(T, N);

не является типом gpuarray;

Все, что вам нужно сделать, это

x = randn(T, N,'gpuArray');

user3932983 12 авг. 2014, в 12:16

2

Я думаю, что вам нужно прочитать вопрос и отличный ответ @angainor немного более внимательно. Это не имеет ничего общего с gpuarray . Это почти наверняка, почему этот ответ был отклонен.
Colin T Bowers 14 авг. 2014, в 00:38
0

@Colin - Я согласен, что Angainor's более тщательный, но в ответе не упоминается «gpuArray». Я думаю, что «gpuArray» - хороший вклад (если он правильный). Кроме того, вопрос стал немного неаккуратным: «Что здесь происходит?» так что я думаю, что это открыло двери для дополнительных методов, таких как векторизация данных и отправка их в графический процессор. Я даю этот ответ, потому что он может повысить ценность для будущих посетителей. Мои извинения, если я сделал неправильный звонок.
jww 25 авг. 2014, в 00:09
1

Вы также забудете тот факт, что gpuarray поддерживается только для видеокарт nVidia. Если у них нет такого оборудования, то ваш совет (или его отсутствие) не имеет смысла. -1
rayryeng 23 янв. 2015, в 14:30
0

С другой стороны, gpuarray - это легкая сабля векторизованного программирования Matlab.
user609961 01 март 2016, в 21:05

Показать ещё 2 комментария

Ещё вопросы

К счастью, «стандартное решение» остается самым быстрым: tic; 3 * х ^ 2 + 2 * х-1. истекшее время составляет 0,030662 секунды.
@ Oli Полагаю, мне следовало ожидать, что кто-то укажет на это и использует функцию, которую нельзя векторизовать :-)
Мне было бы интересно посмотреть, как меняется это время, когда JIT-ускоритель выключен. Выполните команду 'feature acl off' и повторите тест.
@grungetta Интересное предложение. Я добавил результаты к вопросу вместе с несколькими комментариями.
позвольте мне добавить этот вопрос к списку смежных вопросов: каков самый быстрый способ выполнения арифметических операций с каждым элементом массива ячеек?
Жаль, что документы MATLAB изящно опускают эти вопросы. Я использую arrayfun для доступа к свойствам объектов внутри массивов объектов, и, к сожалению, он просто замедляет вещи на порядки ...
Я думаю, что вам нужно прочитать вопрос и отличный ответ @angainor немного более внимательно. Это не имеет ничего общего с gpuarray . Это почти наверняка, почему этот ответ был отклонен.
@Colin - Я согласен, что Angainor's более тщательный, но в ответе не упоминается «gpuArray». Я думаю, что «gpuArray» - хороший вклад (если он правильный). Кроме того, вопрос стал немного неаккуратным: «Что здесь происходит?» так что я думаю, что это открыло двери для дополнительных методов, таких как векторизация данных и отправка их в графический процессор. Я даю этот ответ, потому что он может повысить ценность для будущих посетителей. Мои извинения, если я сделал неправильный звонок.
Вы также забудете тот факт, что gpuarray поддерживается только для видеокарт nVidia. Если у них нет такого оборудования, то ваш совет (или его отсутствие) не имеет смысла. -1
С другой стороны, gpuarray - это легкая сабля векторизованного программирования Matlab.

angainor · Accepted Answer · 2012-09-21T08-51-00.000Z

Вы можете получить эту идею, запустив другие версии своего кода. Рассмотрим явно выписывание вычислений вместо использования функции в вашем цикле

tic
Soln3 = ones(T, N);
for t = 1:T
    for n = 1:N
        Soln3(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
    end
end
toc

Время для вычисления на моем компьютере:

Soln1  1.158446 seconds.
Soln2  10.392475 seconds.
Soln3  0.239023 seconds.
Oli    0.010672 seconds.

Теперь, когда полностью "векторизованное" решение, безусловно, является самым быстрым, вы можете видеть, что определение функции, которую нужно вызывать для каждой записи x, - это служебные данные огромные. Просто явное выписывание вычислений привело нас к ускорению фактора 5. Я предполагаю, что это показывает, что компилятор MATLABs JIT не поддерживает встроенные функции. Согласно ответу гновице, на самом деле лучше написать нормальную функцию, а не анонимную. Попробуйте.

Следующий шаг - удалить (векторизовать) внутренний цикл:

tic
Soln4 = ones(T, N);
for t = 1:T
    Soln4(t, :) = 3*x(t, :).^2 + 2*x(t, :) - 1;
end
toc

Soln4  0.053926 seconds.

Еще один фактор 5 ускорения: в этих утверждениях есть что-то, что вам следует избегать циклов в MATLAB... Или действительно ли это? Посмотрите на это, затем

tic
Soln5 = ones(T, N);
for n = 1:N
    Soln5(:, n) = 3*x(:, n).^2 + 2*x(:, n) - 1;
end
toc

Soln5   0.013875 seconds.

Гораздо ближе к "полностью" векторизованной версии. Matlab хранит матрицы по столбцам. Вы всегда должны (когда это возможно) структурировать ваши вычисления для векторизации "по столбцам".

Теперь мы можем вернуться к Soln3. Порядок петли есть "по ряду". Позволяет изменить его

tic
Soln6 = ones(T, N);
for n = 1:N
    for t = 1:T
        Soln6(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
    end
end
toc

Soln6  0.201661 seconds.

Лучше, но все же очень плохо. Одиночный цикл - хорошо. Двойной цикл - плохой. Я предполагаю, что MATLAB сделал приличную работу по улучшению производительности циклов, но все же накладные расходы на петле есть. Если бы у вас была более тяжелая работа внутри, вы бы не заметили. Но поскольку это вычисление ограничено пропускной способностью памяти, вы видите накладные расходы цикла. И вы будете еще более отчетливо видеть накладные расходы при вызове Func1.

Так что же с arrayfun? Нет никакой функции inlinig, так что много накладных расходов. Но почему гораздо хуже, чем двойной вложенный цикл? На самом деле, тема использования cellfun/arrayfun широко обсуждалась много раз (например, здесь, здесь, здесь и здесь). Эти функции просто медленны, вы не можете использовать их для таких мелкозернистых вычислений. Вы можете использовать их для краткости кода и причудливых преобразований между ячейками и массивами. Но функция должна быть тяжелее, чем то, что вы написали:

tic
Soln7 = arrayfun(@(a)(3*x(:,a).^2 + 2*x(:,a) - 1), 1:N, 'UniformOutput', false);
toc

Soln7  0.016786 seconds.

Обратите внимание, что Soln7 теперь является ячейкой.. иногда это полезно. Эффективность кода сейчас неплохая, и если вам нужна ячейка как выходная, вам не нужно преобразовывать свою матрицу после того, как вы использовали полностью векторизованное решение.

Итак, почему arrayfun медленнее, чем простая структура цикла? К сожалению, мы не можем точно сказать, так как нет исходного кода. Вы можете только догадываться, что поскольку arrayfun - это функция общего назначения, которая обрабатывает все виды различных структур данных и аргументов, это не обязательно очень быстро в простых случаях, которые вы можете непосредственно выразить как петлевые гнезда. Откуда возникают накладные расходы, мы не можем знать. Можно ли избежать накладных расходов благодаря лучшей реализации? Возможно, нет. Но, к сожалению, единственное, что мы можем сделать, это изучить производительность, чтобы определить случаи, в которых она работает хорошо, и тех, где она не работает.

Обновление. Поскольку время выполнения этого теста невелико, чтобы получить надежные результаты, я добавил теперь цикл вокруг тестов:

for i=1:1000
   % compute
end

Несколько раз ниже:

Soln5   8.192912 seconds.
Soln7  13.419675 seconds.
Oli     8.089113 seconds.

Вы видите, что arrayfun по-прежнему плох, но, по крайней мере, на три порядка хуже, чем векторное решение. С другой стороны, один цикл с колонизованными вычислениями выполняется так же быстро, как полностью векторизованная версия... Это было сделано на одном процессоре. Результаты для Soln5 и Soln7 не меняются, если я переключаюсь на 2 ядра. В Soln5 мне пришлось бы использовать parfor для его распараллеливания. Забудьте об ускорении... Soln7 не запускается параллельно, потому что arrayfun не работает параллельно. Олизированная версия с другой стороны:

Oli  5.508085 seconds.

Отличный ответ! И ссылки на Matlab Central все дают очень интересные чтения. Большое спасибо.
И интересное обновление! Этот ответ просто продолжает давать :-)
просто небольшой комментарий; Еще в MATLAB 6.5 cellfun был реализован как MEX-файл (с исходным кодом C, доступным рядом с ним). Это было на самом деле довольно просто. Конечно, он поддерживал только применение одной из 6 жестко-закодированных функций (вы не могли передать дескриптор функции, только строку с одним именем функции)
arrayfun + функция handle = медленно! избегайте их в тяжелом коде.
@Amro Если arrayfun и cellfun реализованы так, как вы сказали, то вполне вероятно, что MATLAB не использует никаких команд SIMD или MIMD. Но может случиться так, что JIT-компилятор знает, как это делает каждый хороший компилятор. Это может объяснить фактор разницы во времени с «Солнцем5» и «Оли».
@ Tik0: как я уже говорил, так было в MATLAB 6.x (до появления JIT-Compilation). Я думаю, начиная с MATLAB 7, cellfun и arrayfun стали встроенными функциями (с поддержкой дескрипторов функций), но я понятия не имею, как они реализованы в наши дни.
«Вы можете использовать их для краткости кода и необычных преобразований между ячейками и массивами». Я использую arrayfun, чтобы мои функции легко принимали аргументы неопределенного измерения. Это проще, чем самому создавать код обработки измерений.