Вопросы с тегом 'avx'

Расширенные векторные расширения (AVX) являются расширением архитектуры набора инструкций x86 для микропроцессоров от Intel и AMD.
6 отв.

Ваш процессор поддерживает инструкции, что этот двоичный файл TensorFlow не был скомпилирован для использования: AVX AVX2

Я новичок в TensorFlow. Я недавно установил его (версия процессора Windows) и получил следующее сообщение: Успешно установлено tenorflow-1.4.0 tenorflow-tenorboard-0.4.0rc2 Затем, когда я пытался бежать import tensorflow as tf hello = tf.constant...
02 нояб. '17 в 9:10
5 отв.

Как проверить, поддерживает ли процессор набор инструкций SSE3?

Является ли следующий код действительным для проверки того, поддерживает ли процессор набор инструкций SSE3? Использование функции IsProcessorFeaturePresent(), по-видимому, не работает в Windows XP (см. http://msdn.microsoft.com/en-us/library/ms724...
25 мая '11 в 11:49
4 отв.

Использование встроенных AVX вместо SSE не улучшает скорость - почему?

Я использую встроенные функции Intel SSE в течение некоторого времени с хорошей производительностью. Следовательно, я ожидал, что возможности AVX еще больше ускорят мои программы. К сожалению, до сих пор это было не так. Наверное, я делаю глупую ошиб...
19 янв. '12 в 13:47
2 отв.

FLOPS за цикл для песчаного моста и haswell SSE2/AVX/AVX2

Я смущен тем, сколько флопов за цикл на ядро ​​можно сделать с Sandy-Bridge и Haswell. Насколько я понимаю, с SSE это должно быть 4 флопа за цикл на ядро ​​для SSE и 8 флопов за цикл на ядро ​​для AVX/AVX2. Это, кажется, проверено здесь, Как достичь...
27 марта '13 в 12:48
2 отв.

Использование инструкций процессора AVX: низкая производительность без "/arch: AVX"

В моем коде на С++ используется SSE, и теперь я хочу улучшить его, чтобы поддерживать AVX, когда он доступен. Поэтому я обнаруживаю, что AVX доступен и вызывает функцию, использующую команды AVX. Я использую Win7 SP1 + VS2010 SP1 и процессор с AVX. ...
20 окт. '11 в 20:40
2 отв.

Как использовать инструкции Fused Multiply-Add (FMA) с SSE/AVX

Я узнал, что некоторые процессоры Intel/AMD могут делать одновременное умножение и добавлять с помощью SSE/AVX: FLOPS за цикл для песчаного моста и haswell SSE2/AVX/AVX2. Мне нравится знать, как сделать это лучше всего в коде, и я также хочу знать,...
10 апр. '13 в 21:02
1 отв.

Как определить доступность SSE/AVX/AVX2/AVX-512 во время компиляции?

Я пытаюсь оптимизировать некоторые вычисления матрицы, и мне было интересно узнать, удалось ли обнаружить во время компиляции, если SSE или/или AVX или/и AVX2 или/и AVX-512 включены компилятором? Идеально для GCC и Clang, но я могу справиться только ...
09 марта '15 в 13:23
3 отв.

Как написать переносный simd-код для комплексного мультипликативного сокращения

Я хочу написать быстрый simd-код для вычисления мультипликативной редукции сложного массива. В стандарте C это: #include <complex.h> complex float f(complex float x[], int n ) { complex float p = 1.0; for (int i = 0; i < n; i++) ...
25 июля '17 в 12:13
4 отв.

Что отсутствует/не оптимально в этой реализации memcpy?

Я заинтересовался написанием memcpy() в качестве учебного упражнения. Я не буду писать целый трактат о том, что я сделал и о чем не думал, но здесь о реализации парней: __forceinline //因为通常Size已知,内联后编译器可以优化掉大部分无用代码 void* myMemcpy(char* Dst, const ...
08 окт. '14 в 1:02
4 отв.

Примеры и учебники Intel SSE и AVX

Есть ли хорошие учебные пособия по C/С++ или примеры для обучения инструкциям Intel SSE и AVX? Я нашел несколько на сайтах Microsoft MSDN и Intel, но было бы прекрасно понять это из основ.
27 нояб. '12 в 7:03
1 отв.

Как выбрать AVX сравнить варианты предикатов

В Advanced Vector Extensions (AVX) команды сравнения, такие как _m256_cmp_ps, последним аргументом является предикат сравнения. Выбор предиката подавляет меня. Они кажутся тройным типом, упорядочением, сигнализацией. Например, _CMP_LE_OS "меньше или...
07 июня '13 в 18:52
5 отв.

Как использовать AVX/pclmulqdq в Mac OS X

Я пытаюсь скомпилировать программу, которая использует инструкцию pclmulqdq, присутствующую в новых процессорах Intel. Я установил GCC 4.6 с использованием macports, но когда я скомпилирую свою программу (которая использует встроенный _mm_clmulepi64_...
23 марта '12 в 16:40
1 отв.

Как реализованы инструкции по сборке в AVX2?

Предположим, что я использую AVX2 VGATHERDPS - это должно загружать 8 одноточечных поплавков с использованием 8 индексов DWORD. Что происходит, когда загружаемые данные существуют в разных строках кэша? Является ли инструкция реализована как аппарат...
14 февр. '14 в 11:39
2 отв.

Почему этот код SSE в 6 раз медленнее без VZEROUPPER на Skylake?

Я пытался выяснить проблему производительности в приложении и, наконец, сузил ее до действительно странной проблемы. Следующий фрагмент кода работает в 6 раз медленнее на процессоре Skylake (i5-6500), если команда VZEROUPPER закомментирована. Я тест...
23 дек. '16 в 18:09
3 отв.

Intel AVX: 256-битная версия точечного продукта для переменных с плавающей запятой с двойной точностью

Расширенные векторные расширения Intel (AVX) не предлагают продукт dot в 256-битной версии (регистр YMM) для переменных с плавающей запятой с двойной точностью. "Почему?" вопрос был очень кратко рассмотрен на другом форуме (здесь) и на Qaru (here)....
04 мая '12 в 21:21