Вопросы с тегом 'avx'

Расширенные векторные расширения (AVX) являются расширением архитектуры набора инструкций x86 для микропроцессоров от Intel и AMD.
1
ответ

Ваш процессор поддерживает инструкции, что этот двоичный файл TensorFlow не был скомпилирован для использования: AVX AVX2

Я новичок в тензорном потоке. Я недавно установил его (версия процессора Windows) и получил следующее сообщение: Успешно установлен тензор-1.4.0 тензор-тензор-тензор-0.4.0rc2 Затем, когда я попытался запустить import tensorflow as tf hello = tf....
задан 02 нояб. '17 в 9:10
3
ответов

Как проверить, поддерживает ли процессор набор инструкций SSE3?

Является ли следующий код действительным для проверки того, поддерживает ли процессор набор инструкций SSE3? Использование функции IsProcessorFeaturePresent(), по-видимому, не работает в Windows XP (см. http://msdn.microsoft.com/en-us/library/ms724...
задан 25 мая '11 в 11:49
4
ответов

Использование встроенных AVX вместо SSE не улучшает скорость - почему?

Я использую встроенные функции Intel SSE в течение некоторого времени с хорошей производительностью. Следовательно, я ожидал, что возможности AVX еще больше ускорят мои программы. К сожалению, до сих пор это было не так. Наверное, я делаю глупую ошиб...
задан 19 янв. '12 в 13:47
2
ответов

FLOPS за цикл для песчаного моста и haswell SSE2/AVX/AVX2

Я смущен тем, сколько флопов за цикл на ядро ​​можно сделать с Sandy-Bridge и Haswell. Насколько я понимаю, с SSE это должно быть 4 флопа за цикл на ядро ​​для SSE и 8 флопов за цикл на ядро ​​для AVX/AVX2. Это, кажется, проверено здесь, Как достичь...
задан 27 марта '13 в 12:48
2
ответов

Использование инструкций процессора AVX: низкая производительность без "/arch: AVX"

В моем коде на С++ используется SSE, и теперь я хочу улучшить его, чтобы поддерживать AVX, когда он доступен. Поэтому я обнаруживаю, что AVX доступен и вызывает функцию, использующую команды AVX. Я использую Win7 SP1 + VS2010 SP1 и процессор с AVX. ...
задан 20 окт. '11 в 20:40
2
ответов

Как использовать инструкции Fused Multiply-Add (FMA) с SSE/AVX

Я узнал, что некоторые процессоры Intel/AMD могут делать одновременное умножение и добавлять с помощью SSE/AVX: FLOPS за цикл для песчаного моста и haswell SSE2/AVX/AVX2. Мне нравится знать, как сделать это лучше всего в коде, и я также хочу знать,...
задан 10 апр. '13 в 21:02
1
ответ

Как определить доступность SSE/AVX/AVX2/AVX-512 во время компиляции?

Я пытаюсь оптимизировать некоторые вычисления матрицы, и мне было интересно узнать, удалось ли обнаружить во время компиляции, если SSE или/или AVX или/и AVX2 или/и AVX-512 включены компилятором? Идеально для GCC и Clang, но я могу справиться только ...
задан 09 марта '15 в 13:23
3
ответов

Как написать переносный simd-код для комплексного мультипликативного сокращения

Я хочу написать быстрый simd-код для вычисления мультипликативной редукции сложного массива. В стандарте C это: #include <complex.h> complex float f(complex float x[], int n ) { complex float p = 1.0; for (int i = 0; i < n; i++) ...
задан 25 июля '17 в 12:13
4
ответов

Что отсутствует/не оптимально в этой реализации memcpy?

Я заинтересовался написанием memcpy() в качестве учебного упражнения. Я не буду писать целый трактат о том, что я сделал и о чем не думал, но здесь о реализации парней: __forceinline //因为通常Size已知,内联后编译器可以优化掉大部分无用代码 void* myMemcpy(char* Dst, const ...
задан 08 окт. '14 в 1:02
4
ответов

Примеры и учебники Intel SSE и AVX

Есть ли хорошие учебные пособия по C/С++ или примеры для обучения инструкциям Intel SSE и AVX? Я нашел несколько на сайтах Microsoft MSDN и Intel, но было бы прекрасно понять это из основ.
задан 27 нояб. '12 в 7:03
1
ответ

Как выбрать AVX сравнить варианты предикатов

В Advanced Vector Extensions (AVX) команды сравнения, такие как _m256_cmp_ps, последним аргументом является предикат сравнения. Выбор предиката подавляет меня. Они кажутся тройным типом, упорядочением, сигнализацией. Например, _CMP_LE_OS "меньше или...
задан 07 июня '13 в 18:52
5
ответов

Как использовать AVX/pclmulqdq в Mac OS X

Я пытаюсь скомпилировать программу, которая использует инструкцию pclmulqdq, присутствующую в новых процессорах Intel. Я установил GCC 4.6 с использованием macports, но когда я скомпилирую свою программу (которая использует встроенный _mm_clmulepi64_...
задан 23 марта '12 в 16:40
1
ответ

Как реализованы инструкции по сборке в AVX2?

Предположим, что я использую AVX2 VGATHERDPS - это должно загружать 8 одноточечных поплавков с использованием 8 индексов DWORD. Что происходит, когда загружаемые данные существуют в разных строках кэша? Является ли инструкция реализована как аппарат...
задан 14 февр. '14 в 11:39
2
ответов

Почему этот код SSE в 6 раз медленнее без VZEROUPPER на Skylake?

Я пытался выяснить проблему производительности в приложении и, наконец, сузил ее до действительно странной проблемы. Следующий фрагмент кода работает в 6 раз медленнее на процессоре Skylake (i5-6500), если команда VZEROUPPER закомментирована. Я тест...
задан 23 дек. '16 в 18:09
3
ответов

Intel AVX: 256-битная версия точечного продукта для переменных с плавающей запятой с двойной точностью

Расширенные векторные расширения Intel (AVX) не предлагают продукт dot в 256-битной версии (регистр YMM) для переменных с плавающей запятой с двойной точностью. "Почему?" вопрос был очень кратко рассмотрен на другом форуме (здесь) и на Qaru (here)....
задан 04 мая '12 в 21:21