Можно ли статически распределять разные общие памяти для разных блоков?

Question

Можно ли статически распределять разные общие памяти для разных блоков?

0

Использовать блок 0

__shared__ int a[VERY_LARGE];
__shared__ char b[VERY_LARGE];

блок 1 будет использовать

__shared__ double c[VERY_LARGE];
__shared__ int d[VERY_LARGE];

Скажем, a и b будут занимать все 48 Кбайт разделяемой памяти в одном SM.

c и d будут занимать все 48 Кбайт разделяемой памяти в одном SM.

Можно ли выделить a и b в одном SM, c и d в другом SM?

yidiyidawu 23 май 2014, в 08:33

Источник

2

Присвоение потоковых потоков потоковым мультипроцессорам является задачей планировщика, а не программиста. Таким образом, у вас не будет гарантии, что планировщик примет решение запустить блоки 0 и 1 на разных потоковых мультипроцессорах. Также предупреждаем, что для получения максимальной производительности от графического процессора, грубо говоря, все потоки должны выполнять одну и ту же инструкцию «одновременно». Чтобы добиться того, что вы говорите в своем посте, вы должны иметь условное распределение общей памяти, что заставляет меня думать, что у вас в конечном итоге будут другие условные операторы. Это может повлиять на производительность.
JackOLantern 23 май 2014, в 07:22
0

@JackOLantern: Это был бы идеальный ответ на вопрос, краткий ответ которого - «НЕТ». Не могли бы вы добавить это? Я уверен, что это проголосовало, чтобы убрать это из оставшегося без ответа списка.
talonmies 23 май 2014, в 10:08

Теги:

c++

c

cuda

gpu

1 ответ

Ещё вопросы

Присвоение потоковых потоков потоковым мультипроцессорам является задачей планировщика, а не программиста. Таким образом, у вас не будет гарантии, что планировщик примет решение запустить блоки 0 и 1 на разных потоковых мультипроцессорах. Также предупреждаем, что для получения максимальной производительности от графического процессора, грубо говоря, все потоки должны выполнять одну и ту же инструкцию «одновременно». Чтобы добиться того, что вы говорите в своем посте, вы должны иметь условное распределение общей памяти, что заставляет меня думать, что у вас в конечном итоге будут другие условные операторы. Это может повлиять на производительность.
@JackOLantern: Это был бы идеальный ответ на вопрос, краткий ответ которого - «НЕТ». Не могли бы вы добавить это? Я уверен, что это проголосовало, чтобы убрать это из оставшегося без ответа списка.

JackOLantern · Accepted Answer · 2014-05-23T10-03-00.000Z

Короткий ответ: НЕТ.

Назначение блоков потоков потоковым мультипроцессорам - это задание планировщика, а не программиста. Поэтому у вас не будет никакой гарантии, что планировщик решит запустить блоки 0 и 1 на разных потоковых мультипроцессорах. Этот поток

Как CUDA Blocks/Warps/Threads отображаются на CUDA-ядра?

будет полезно вам понять. Также в документе

Архитектура вычислений CUDA следующего поколения NVIDIA: Fermi

хотя и относится к Ферми, даст вам более глубокое понимание.

Также следует предупредить, что для получения наилучшей производительности из графического процессора, грубо говоря, все потоки должны выполнять одну и ту же инструкцию "одновременно". Чтобы достичь того, что вы говорите в своем посте, вы должны иметь условное разделяемое распределение памяти, из-за чего я думаю, что вы получите другие условные утверждения. Это может повлиять на производительность.

Я понимаю, что это работа планировщика, а не программиста. Но программист мог бы выделить всю разделяемую память 48 КБ, чтобы убедиться, что только один блок выполняется на одном SM, верно?
@yidiyidawu: Да, если вы запустите ядро, использующее 48 КБ общей памяти, оно сможет запустить только один блок на SM. Но, как вы думаете, почему важно это делать? Аппаратное обеспечение обеспечивает ограничения на выравнивание, которые эффективно снимают блоки между собой, так что, если ваши потоки подчиняются хорошо документированным правилам, касающимся доступа к общей памяти, они будут работать одновременно (с хорошо задокументированной гранулярностью деформации) без проблем ...
@ArchaeaSoftware Причина в том, что проект (исследование), которым я занимаюсь, должен постоянно обеспечивать соблюдение частей данных на чипе из соображений безопасности. Также мне нужно как можно больше памяти для хранения чипов. Таким образом, единственный способ, которым я вижу это сейчас, - применить 1 блок только на 1 SM. Связь между СМ должна проходить через глобальную память, что недопустимо.
К сожалению, самые большие встроенные хранилища на GPU - это файлы реестра. Существует небольшая разница между моделью памяти графического процессора (связь между SM проходит через глобальную память через кэш-память второго уровня в микросхеме) и моделью памяти процессора (связь между ядрами проходит через системную память через кэш-память третьего уровня в рамках всего чипа). Желаем удачи в ваших исследованиях.