タグ付けされた質問 「avx」

8
CPUは、このTensorFlowバイナリが使用するようにコンパイルされていないという命令をサポートしています:AVX AVX2
TensorFlowは初めてです。最近インストールしました(Windows CPUバージョン)と次のメッセージが表示されました: tensorflow-1.4.0 tensorflow-tensorboard-0.4.0rc2が正常にインストールされました それから私が走ろうとしたとき import tensorflow as tf hello = tf.constant('Hello, TensorFlow!') sess = tf.Session() sess.run(hello) 'Hello, TensorFlow!' a = tf.constant(10) b = tf.constant(32) sess.run(a + b) 42 sess.close() (私はhttps://github.com/tensorflow/tensorflowで見つけました) 次のメッセージを受け取りました。 2017-11-02 01:56:21.698935:IC:\ tf_jenkins \ home \ workspace \ rel-win \ M \ windows \ PY \ 36 \ …
656 tensorflow  cpu  avx 

2
L2 HWプリフェッチャーは本当に役に立ちますか?
私はWhisky Lake i7-8565Uで、512 KiBのデータ(L2キャッシュサイズの2倍)をコピーするためのパフォーマンスカウンターと時間を分析しており、L2 HWプリフェッチャーの作業に関して誤解に直面しています。 でインテル・マニュアル第4巻MSR MSRがある0x1A4ビット0(無効にする1)L2 HWプリフェッチャをcontrolloingするためのものであるの。 次のベンチマークを検討してください。 memcopy.h: void *avx_memcpy_forward_lsls(void *restrict, const void *restrict, size_t); memcopy.S: avx_memcpy_forward_lsls: shr rdx, 0x3 xor rcx, rcx avx_memcpy_forward_loop_lsls: vmovdqa ymm0, [rsi + 8*rcx] vmovdqa [rdi + rcx*8], ymm0 vmovdqa ymm1, [rsi + 8*rcx + 0x20] vmovdqa [rdi + rcx*8 + 0x20], ymm1 …

1
vzeroallゼロはymm16からymm31を登録しますか?
のドキュメントにvzeroall一貫性がないようです。散文は言う: 命令は、すべてのXMMまたはYMMレジスタの内容をゼロにします。 ただし、その下の疑似コードは、64ビットモードではレジスターymm0からのみymm15影響を受けることを示しています。 IF (64-bit mode) limit ←15 ELSE limit ← 7 FOR i in 0 .. limit: simd_reg_file[i][MAXVL-1:0] ← 0 AVX-512をサポートするマシンymm15では、ymm16までymm31存在するため、「すべて」をクリアするのと同じではありません。 散文または疑似コードは正しいですか?
8 assembly  x86  intel  avx  avx512 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.