#!/bin/bash

./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 24 -k 288 --alpha 1.0 --lda 288 --stride_a 147456 --ldb 288 --stride_b 6912 --beta 0.0 --ldc 24 --stride_c 12288 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 486 -k 288 --alpha 1.0 --lda 288 --stride_a 147456 --ldb 288 --stride_b 139968 --beta 0.0 --ldc 486 --stride_c 248832 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 784 --alpha 1.0 --lda 784 --stride_a 50176 --ldb 784 --stride_b 100352 --beta 0.0 --ldc 128 --stride_c 8192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 12544 --alpha 1.0 --lda 12544 --stride_a 802816 --ldb 12544 --stride_b 1605632 --beta 0.0 --ldc 128 --stride_c 8192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 1568 --alpha 1.0 --lda 1568 --stride_a 100352 --ldb 1568 --stride_b 200704 --beta 0.0 --ldc 128 --stride_c 8192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 25088 --alpha 1.0 --lda 25088 --stride_a 1605632 --ldb 25088 --stride_b 3211264 --beta 0.0 --ldc 128 --stride_c 8192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 50176 --alpha 1.0 --lda 50176 --stride_a 3211264 --ldb 50176 --stride_b 6422528 --beta 0.0 --ldc 128 --stride_c 8192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 53824 --alpha 1.0 --lda 53824 --stride_a 3444736 --ldb 53824 --stride_b 6889472 --beta 0.0 --ldc 128 --stride_c 8192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 6272 --alpha 1.0 --lda 6272 --stride_a 401408 --ldb 6272 --stride_b 802816 --beta 0.0 --ldc 128 --stride_c 8192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 32 -n 64 -k 90 --alpha 1.0 --lda 90 --stride_a 2880 --ldb 90 --stride_b 5760 --beta 0.0 --ldc 64 --stride_c 2048 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 32 -n 64 -k 1440 --alpha 1.0 --lda 1440 --stride_a 46080 --ldb 1440 --stride_b 92160 --beta 0.0 --ldc 64 --stride_c 2048 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 112 -n 224 -k 512 --alpha 1.0 --lda 512 --stride_a 57344 --ldb 512 --stride_b 114688 --beta 0.0 --ldc 224 --stride_c 25088 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 512 --alpha 1.0 --lda 512 --stride_a 65536 --ldb 512 --stride_b 131072 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 144 -n 288 -k 512 --alpha 1.0 --lda 512 --stride_a 73728 --ldb 512 --stride_b 147456 --beta 0.0 --ldc 288 --stride_c 41472 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 320 -k 512 --alpha 1.0 --lda 512 --stride_a 81920 --ldb 512 --stride_b 163840 --beta 0.0 --ldc 320 --stride_c 51200 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 512 --alpha 1.0 --lda 512 --stride_a 98304 --ldb 512 --stride_b 196608 --beta 0.0 --ldc 384 --stride_c 73728 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 208 -k 512 --alpha 1.0 --lda 512 --stride_a 49152 --ldb 512 --stride_b 106496 --beta 0.0 --ldc 208 --stride_c 19968 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 2048 --alpha 1.0 --lda 2048 --stride_a 393216 --ldb 2048 --stride_b 786432 --beta 0.0 --ldc 384 --stride_c 73728 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 4096 --alpha 1.0 --lda 4096 --stride_a 786432 --ldb 4096 --stride_b 1572864 --beta 0.0 --ldc 384 --stride_c 73728 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 800 --alpha 1.0 --lda 800 --stride_a 153600 --ldb 800 --stride_b 307200 --beta 0.0 --ldc 384 --stride_c 73728 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 1024 --alpha 1.0 --lda 1024 --stride_a 196608 --ldb 1024 --stride_b 393216 --beta 0.0 --ldc 384 --stride_c 73728 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 2048 --alpha 1.0 --lda 2048 --stride_a 524288 --ldb 2048 --stride_b 524288 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 384 -k 2048 --alpha 1.0 --lda 2048 --stride_a 524288 --ldb 2048 --stride_b 786432 --beta 0.0 --ldc 384 --stride_c 98304 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 4096 --alpha 1.0 --lda 4096 --stride_a 1048576 --ldb 4096 --stride_b 1048576 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 384 -k 4096 --alpha 1.0 --lda 4096 --stride_a 1048576 --ldb 4096 --stride_b 1572864 --beta 0.0 --ldc 384 --stride_c 98304 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 800 --alpha 1.0 --lda 800 --stride_a 204800 --ldb 800 --stride_b 204800 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 384 -k 800 --alpha 1.0 --lda 800 --stride_a 204800 --ldb 800 --stride_b 307200 --beta 0.0 --ldc 384 --stride_c 98304 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 1024 --alpha 1.0 --lda 1024 --stride_a 262144 --ldb 1024 --stride_b 262144 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 384 -k 1024 --alpha 1.0 --lda 1024 --stride_a 262144 --ldb 1024 --stride_b 393216 --beta 0.0 --ldc 384 --stride_c 98304 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 256 -k 2048 --alpha 1.0 --lda 2048 --stride_a 786432 --ldb 2048 --stride_b 524288 --beta 0.0 --ldc 256 --stride_c 98304 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 384 -k 2048 --alpha 1.0 --lda 2048 --stride_a 786432 --ldb 2048 --stride_b 786432 --beta 0.0 --ldc 384 --stride_c 147456 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 256 -k 4096 --alpha 1.0 --lda 4096 --stride_a 1572864 --ldb 4096 --stride_b 1048576 --beta 0.0 --ldc 256 --stride_c 98304 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 384 -k 4096 --alpha 1.0 --lda 4096 --stride_a 1572864 --ldb 4096 --stride_b 1572864 --beta 0.0 --ldc 384 --stride_c 147456 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 256 -k 800 --alpha 1.0 --lda 800 --stride_a 307200 --ldb 800 --stride_b 204800 --beta 0.0 --ldc 256 --stride_c 98304 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 384 -k 800 --alpha 1.0 --lda 800 --stride_a 307200 --ldb 800 --stride_b 307200 --beta 0.0 --ldc 384 --stride_c 147456 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 256 -k 1024 --alpha 1.0 --lda 1024 --stride_a 393216 --ldb 1024 --stride_b 262144 --beta 0.0 --ldc 256 --stride_c 98304 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 384 -k 1024 --alpha 1.0 --lda 1024 --stride_a 393216 --ldb 1024 --stride_b 393216 --beta 0.0 --ldc 384 --stride_c 147456 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 112 -n 224 -k 2048 --alpha 1.0 --lda 2048 --stride_a 229376 --ldb 2048 --stride_b 458752 --beta 0.0 --ldc 224 --stride_c 25088 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 16 --alpha 1.0 --lda 16 --stride_a 2048 --ldb 16 --stride_b 4096 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 2048 --alpha 1.0 --lda 2048 --stride_a 262144 --ldb 2048 --stride_b 524288 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 512 --alpha 1.0 --lda 512 --stride_a 65536 --ldb 512 --stride_b 65536 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 160 -k 512 --alpha 1.0 --lda 512 --stride_a 65536 --ldb 512 --stride_b 81920 --beta 0.0 --ldc 160 --stride_c 20480 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 192 -k 512 --alpha 1.0 --lda 512 --stride_a 65536 --ldb 512 --stride_b 98304 --beta 0.0 --ldc 192 --stride_c 24576 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 128 --alpha 1.0 --lda 128 --stride_a 16384 --ldb 128 --stride_b 32768 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 144 -n 288 -k 2048 --alpha 1.0 --lda 2048 --stride_a 294912 --ldb 2048 --stride_b 589824 --beta 0.0 --ldc 288 --stride_c 41472 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 320 -k 2048 --alpha 1.0 --lda 2048 --stride_a 327680 --ldb 2048 --stride_b 655360 --beta 0.0 --ldc 320 --stride_c 51200 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 160 -k 512 --alpha 1.0 --lda 512 --stride_a 81920 --ldb 512 --stride_b 81920 --beta 0.0 --ldc 160 --stride_c 25600 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 192 -k 512 --alpha 1.0 --lda 512 --stride_a 81920 --ldb 512 --stride_b 98304 --beta 0.0 --ldc 192 --stride_c 30720 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 192 -k 512 --alpha 1.0 --lda 512 --stride_a 98304 --ldb 512 --stride_b 98304 --beta 0.0 --ldc 192 --stride_c 36864 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 256 -k 512 --alpha 1.0 --lda 512 --stride_a 98304 --ldb 512 --stride_b 131072 --beta 0.0 --ldc 256 --stride_c 49152 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 16 --alpha 1.0 --lda 16 --stride_a 4096 --ldb 16 --stride_b 4096 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 256 --alpha 1.0 --lda 256 --stride_a 65536 --ldb 256 --stride_b 65536 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 32 --alpha 1.0 --lda 32 --stride_a 8192 --ldb 32 --stride_b 8192 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 512 --alpha 1.0 --lda 512 --stride_a 131072 --ldb 512 --stride_b 131072 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 128 --alpha 1.0 --lda 128 --stride_a 32768 --ldb 128 --stride_b 32768 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 16 --alpha 1.0 --lda 16 --stride_a 8192 --ldb 16 --stride_b 8192 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 256 --alpha 1.0 --lda 256 --stride_a 131072 --ldb 256 --stride_b 131072 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 32 --alpha 1.0 --lda 32 --stride_a 16384 --ldb 32 --stride_b 16384 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 512 --alpha 1.0 --lda 512 --stride_a 262144 --ldb 512 --stride_b 262144 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 1024 --alpha 1.0 --lda 1024 --stride_a 524288 --ldb 1024 --stride_b 524288 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 128 --alpha 1.0 --lda 128 --stride_a 65536 --ldb 128 --stride_b 65536 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 96 -k 512 --alpha 1.0 --lda 512 --stride_a 32768 --ldb 512 --stride_b 49152 --beta 0.0 --ldc 96 --stride_c 6144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 208 -k 2048 --alpha 1.0 --lda 2048 --stride_a 196608 --ldb 2048 --stride_b 425984 --beta 0.0 --ldc 208 --stride_c 19968 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 128 -k 512 --alpha 1.0 --lda 512 --stride_a 49152 --ldb 512 --stride_b 65536 --beta 0.0 --ldc 128 --stride_c 12288 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 32 -n 64 -k 43808 --alpha 1.0 --lda 43808 --stride_a 1401856 --ldb 43808 --stride_b 2803712 --beta 0.0 --ldc 64 --stride_c 2048 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 32 -n 32 -k 43808 --alpha 1.0 --lda 43808 --stride_a 1401856 --ldb 43808 --stride_b 1401856 --beta 0.0 --ldc 32 --stride_c 1024 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 440 --alpha 1.0 --lda 440 --stride_a 56320 --ldb 440 --stride_b 56320 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 7040 --alpha 1.0 --lda 7040 --stride_a 901120 --ldb 7040 --stride_b 901120 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 880 --alpha 1.0 --lda 880 --stride_a 112640 --ldb 880 --stride_b 112640 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 24 -k 800 --alpha 1.0 --lda 800 --stride_a 409600 --ldb 800 --stride_b 19200 --beta 0.0 --ldc 24 --stride_c 12288 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 486 -k 800 --alpha 1.0 --lda 800 --stride_a 409600 --ldb 800 --stride_b 388800 --beta 0.0 --ldc 486 --stride_c 248832 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 3136 --alpha 1.0 --lda 3136 --stride_a 9408 --ldb 3136 --stride_b 200704 --beta 0.0 --ldc 64 --stride_c 192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 50176 --alpha 1.0 --lda 50176 --stride_a 150528 --ldb 50176 --stride_b 3211264 --beta 0.0 --ldc 64 --stride_c 192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 6272 --alpha 1.0 --lda 6272 --stride_a 18816 --ldb 6272 --stride_b 401408 --beta 0.0 --ldc 64 --stride_c 192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 100352 --alpha 1.0 --lda 100352 --stride_a 301056 --ldb 100352 --stride_b 6422528 --beta 0.0 --ldc 64 --stride_c 192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 200704 --alpha 1.0 --lda 200704 --stride_a 602112 --ldb 200704 --stride_b 12845056 --beta 0.0 --ldc 64 --stride_c 192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 25088 --alpha 1.0 --lda 25088 --stride_a 75264 --ldb 25088 --stride_b 1605632 --beta 0.0 --ldc 64 --stride_c 192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 16 -n 32 -k 360 --alpha 1.0 --lda 360 --stride_a 5760 --ldb 360 --stride_b 11520 --beta 0.0 --ldc 32 --stride_c 512 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 16 -n 32 -k 5760 --alpha 1.0 --lda 5760 --stride_a 92160 --ldb 5760 --stride_b 184320 --beta 0.0 --ldc 32 --stride_c 512 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 192 -k 2048 --alpha 1.0 --lda 2048 --stride_a 262144 --ldb 2048 --stride_b 393216 --beta 0.0 --ldc 192 --stride_c 24576 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 128 -k 2048 --alpha 1.0 --lda 2048 --stride_a 196608 --ldb 2048 --stride_b 262144 --beta 0.0 --ldc 128 --stride_c 12288 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 49 --alpha 1.0 --lda 49 --stride_a 6272 --ldb 49 --stride_b 6272 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 392 --alpha 1.0 --lda 392 --stride_a 50176 --ldb 392 --stride_b 50176 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 192 -k 6272 --alpha 1.0 --lda 6272 --stride_a 802816 --ldb 6272 --stride_b 1204224 --beta 0.0 --ldc 192 --stride_c 24576 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 784 --alpha 1.0 --lda 784 --stride_a 100352 --ldb 784 --stride_b 100352 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 98 --alpha 1.0 --lda 98 --stride_a 12544 --ldb 98 --stride_b 12544 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 1568 --alpha 1.0 --lda 1568 --stride_a 200704 --ldb 1568 --stride_b 200704 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 192 -k 1568 --alpha 1.0 --lda 1568 --stride_a 200704 --ldb 1568 --stride_b 301056 --beta 0.0 --ldc 192 --stride_c 24576 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 3136 --alpha 1.0 --lda 3136 --stride_a 401408 --ldb 3136 --stride_b 401408 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 49 --alpha 1.0 --lda 49 --stride_a 12544 --ldb 49 --stride_b 25088 --beta 0.0 --ldc 512 --stride_c 131072 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 784 --alpha 1.0 --lda 784 --stride_a 200704 --ldb 784 --stride_b 401408 --beta 0.0 --ldc 512 --stride_c 131072 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 98 --alpha 1.0 --lda 98 --stride_a 25088 --ldb 98 --stride_b 50176 --beta 0.0 --ldc 512 --stride_c 131072 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 1568 --alpha 1.0 --lda 1568 --stride_a 401408 --ldb 1568 --stride_b 802816 --beta 0.0 --ldc 512 --stride_c 131072 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 3136 --alpha 1.0 --lda 3136 --stride_a 802816 --ldb 3136 --stride_b 1605632 --beta 0.0 --ldc 512 --stride_c 131072 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 392 --alpha 1.0 --lda 392 --stride_a 100352 --ldb 392 --stride_b 200704 --beta 0.0 --ldc 512 --stride_c 131072 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 1568 --alpha 1.0 --lda 1568 --stride_a 802816 --ldb 1568 --stride_b 802816 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 3136 --alpha 1.0 --lda 3136 --stride_a 1605632 --ldb 3136 --stride_b 1605632 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 1568 --alpha 1.0 --lda 1568 --stride_a 100352 --ldb 1568 --stride_b 100352 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 96 -k 1568 --alpha 1.0 --lda 1568 --stride_a 100352 --ldb 1568 --stride_b 150528 --beta 0.0 --ldc 96 --stride_c 6144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 128 -k 6272 --alpha 1.0 --lda 6272 --stride_a 602112 --ldb 6272 --stride_b 802816 --beta 0.0 --ldc 128 --stride_c 12288 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 128 -k 1568 --alpha 1.0 --lda 1568 --stride_a 150528 --ldb 1568 --stride_b 200704 --beta 0.0 --ldc 128 --stride_c 12288 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 96 -k 1568 --alpha 1.0 --lda 1568 --stride_a 150528 --ldb 1568 --stride_b 150528 --beta 0.0 --ldc 96 --stride_c 9216 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 16 -k 32 --alpha 1.0 --lda 32 --stride_a 8192 --ldb 32 --stride_b 512 --beta 0.0 --ldc 16 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 324 -k 32 --alpha 1.0 --lda 32 --stride_a 8192 --ldb 32 --stride_b 10368 --beta 0.0 --ldc 324 --stride_c 82944 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 1760 --alpha 1.0 --lda 1760 --stride_a 112640 --ldb 1760 --stride_b 112640 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 28160 --alpha 1.0 --lda 28160 --stride_a 1802240 --ldb 28160 --stride_b 1802240 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 3520 --alpha 1.0 --lda 3520 --stride_a 225280 --ldb 3520 --stride_b 225280 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 224 -k 2592 --alpha 1.0 --lda 2592 --stride_a 497664 --ldb 2592 --stride_b 580608 --beta 0.0 --ldc 224 --stride_c 43008 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 96 -k 2592 --alpha 1.0 --lda 2592 --stride_a 165888 --ldb 2592 --stride_b 248832 --beta 0.0 --ldc 96 --stride_c 6144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 96 -k 2592 --alpha 1.0 --lda 2592 --stride_a 248832 --ldb 2592 --stride_b 248832 --beta 0.0 --ldc 96 --stride_c 9216 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 3200 --alpha 1.0 --lda 3200 --stride_a 409600 --ldb 3200 --stride_b 409600 --beta 0.0 --ldc 128 --stride_c 16384 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 3200 --alpha 1.0 --lda 3200 --stride_a 409600 --ldb 3200 --stride_b 819200 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 16 -k 3200 --alpha 1.0 --lda 3200 --stride_a 819200 --ldb 3200 --stride_b 51200 --beta 0.0 --ldc 16 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 3200 --alpha 1.0 --lda 3200 --stride_a 819200 --ldb 3200 --stride_b 819200 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 324 -k 3200 --alpha 1.0 --lda 3200 --stride_a 819200 --ldb 3200 --stride_b 1036800 --beta 0.0 --ldc 324 --stride_c 82944 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 33 --alpha 1.0 --lda 33 --stride_a 16896 --ldb 33 --stride_b 16896 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 528 --alpha 1.0 --lda 528 --stride_a 270336 --ldb 528 --stride_b 270336 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 66 --alpha 1.0 --lda 66 --stride_a 33792 --ldb 66 --stride_b 33792 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1 -n 16 -k 1440 --alpha 1.0 --lda 1440 --stride_a 1440 --ldb 1440 --stride_b 23040 --beta 0.0 --ldc 16 --stride_c 16 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1 -n 16 -k 23040 --alpha 1.0 --lda 23040 --stride_a 23040 --ldb 23040 --stride_b 368640 --beta 0.0 --ldc 16 --stride_c 16 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 192 -k 8192 --alpha 1.0 --lda 8192 --stride_a 524288 --ldb 8192 --stride_b 1572864 --beta 0.0 --ldc 192 --stride_c 12288 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 196 --alpha 1.0 --lda 196 --stride_a 12544 --ldb 196 --stride_b 12544 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 32 --alpha 1.0 --lda 32 --stride_a 4096 --ldb 32 --stride_b 8192 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 24 -k 128 --alpha 1.0 --lda 128 --stride_a 32768 --ldb 128 --stride_b 3072 --beta 0.0 --ldc 24 --stride_c 6144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 486 -k 128 --alpha 1.0 --lda 128 --stride_a 32768 --ldb 128 --stride_b 62208 --beta 0.0 --ldc 486 --stride_c 124416 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 6272 --alpha 1.0 --lda 6272 --stride_a 401408 --ldb 6272 --stride_b 401408 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 12544 --alpha 1.0 --lda 12544 --stride_a 802816 --ldb 12544 --stride_b 802816 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 196 --alpha 1.0 --lda 196 --stride_a 25088 --ldb 196 --stride_b 50176 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 3136 --alpha 1.0 --lda 3136 --stride_a 401408 --ldb 3136 --stride_b 802816 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 392 --alpha 1.0 --lda 392 --stride_a 50176 --ldb 392 --stride_b 100352 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 6272 --alpha 1.0 --lda 6272 --stride_a 802816 --ldb 6272 --stride_b 1605632 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 12544 --alpha 1.0 --lda 12544 --stride_a 1605632 --ldb 12544 --stride_b 3211264 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 1568 --alpha 1.0 --lda 1568 --stride_a 200704 --ldb 1568 --stride_b 401408 --beta 0.0 --ldc 256 --stride_c 32768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 6272 --alpha 1.0 --lda 6272 --stride_a 1605632 --ldb 6272 --stride_b 1605632 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 12544 --alpha 1.0 --lda 12544 --stride_a 3211264 --ldb 12544 --stride_b 3211264 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 192 -k 25088 --alpha 1.0 --lda 25088 --stride_a 1605632 --ldb 25088 --stride_b 4816896 --beta 0.0 --ldc 192 --stride_c 12288 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 3136 --alpha 1.0 --lda 3136 --stride_a 200704 --ldb 3136 --stride_b 200704 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 392 --alpha 1.0 --lda 392 --stride_a 25088 --ldb 392 --stride_b 25088 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 192 -k 6272 --alpha 1.0 --lda 6272 --stride_a 401408 --ldb 6272 --stride_b 1204224 --beta 0.0 --ldc 192 --stride_c 12288 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 30 --alpha 1.0 --lda 30 --stride_a 1920 --ldb 30 --stride_b 3840 --beta 0.0 --ldc 128 --stride_c 8192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 480 --alpha 1.0 --lda 480 --stride_a 30720 --ldb 480 --stride_b 61440 --beta 0.0 --ldc 128 --stride_c 8192 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 147 -n 64 -k 18816 --alpha 1.0 --lda 18816 --stride_a 2765952 --ldb 18816 --stride_b 1204224 --beta 0.0 --ldc 64 --stride_c 9408 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 149 -n 32 -k 19072 --alpha 1.0 --lda 19072 --stride_a 2841728 --ldb 19072 --stride_b 610304 --beta 0.0 --ldc 32 --stride_c 4768 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 8 -n 384 -k 14336 --alpha 1.0 --lda 14336 --stride_a 114688 --ldb 14336 --stride_b 5505024 --beta 0.0 --ldc 384 --stride_c 3072 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 35 -n 96 -k 8960 --alpha 1.0 --lda 8960 --stride_a 313600 --ldb 8960 --stride_b 860160 --beta 0.0 --ldc 96 --stride_c 3360 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 73 -n 192 -k 23360 --alpha 1.0 --lda 23360 --stride_a 1705280 --ldb 23360 --stride_b 4485120 --beta 0.0 --ldc 192 --stride_c 14016 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 35 -n 96 -k 13440 --alpha 1.0 --lda 13440 --stride_a 470400 --ldb 13440 --stride_b 1290240 --beta 0.0 --ldc 96 --stride_c 3360 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 96 -k 10368 --alpha 1.0 --lda 10368 --stride_a 663552 --ldb 10368 --stride_b 995328 --beta 0.0 --ldc 96 --stride_c 6144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 80 -n 192 -k 10368 --alpha 1.0 --lda 10368 --stride_a 829440 --ldb 10368 --stride_b 1990656 --beta 0.0 --ldc 192 --stride_c 15360 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 11552 --alpha 1.0 --lda 11552 --stride_a 739328 --ldb 11552 --stride_b 739328 --beta 0.0 --ldc 64 --stride_c 4096 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 224 -k 128 --alpha 1.0 --lda 128 --stride_a 20480 --ldb 128 --stride_b 28672 --beta 0.0 --ldc 224 --stride_c 35840 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 320 -k 128 --alpha 1.0 --lda 128 --stride_a 20480 --ldb 128 --stride_b 40960 --beta 0.0 --ldc 320 --stride_c 51200 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 224 -k 128 --alpha 1.0 --lda 128 --stride_a 24576 --ldb 128 --stride_b 28672 --beta 0.0 --ldc 224 --stride_c 43008 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 320 -k 128 --alpha 1.0 --lda 128 --stride_a 24576 --ldb 128 --stride_b 40960 --beta 0.0 --ldc 320 --stride_c 61440 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 128 --alpha 1.0 --lda 128 --stride_a 24576 --ldb 128 --stride_b 49152 --beta 0.0 --ldc 384 --stride_c 73728 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 224 -n 224 -k 128 --alpha 1.0 --lda 128 --stride_a 28672 --ldb 128 --stride_b 28672 --beta 0.0 --ldc 224 --stride_c 50176 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 4 --alpha 1.0 --lda 4 --stride_a 1024 --ldb 4 --stride_b 2048 --beta 0.0 --ldc 512 --stride_c 131072 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 32 --alpha 1.0 --lda 32 --stride_a 8192 --ldb 32 --stride_b 16384 --beta 0.0 --ldc 512 --stride_c 131072 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 4 --alpha 1.0 --lda 4 --stride_a 2048 --ldb 4 --stride_b 2048 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 64 --alpha 1.0 --lda 64 --stride_a 32768 --ldb 64 --stride_b 32768 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 8 --alpha 1.0 --lda 8 --stride_a 4096 --ldb 8 --stride_b 4096 --beta 0.0 --ldc 512 --stride_c 262144 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 105 --alpha 1.0 --lda 105 --stride_a 26880 --ldb 105 --stride_b 26880 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 1680 --alpha 1.0 --lda 1680 --stride_a 430080 --ldb 1680 --stride_b 430080 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 210 --alpha 1.0 --lda 210 --stride_a 53760 --ldb 210 --stride_b 53760 --beta 0.0 --ldc 256 --stride_c 65536 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 448 -n 384 -k 128 --alpha 1.0 --lda 128 --stride_a 57344 --ldb 128 --stride_b 49152 --beta 0.0 --ldc 384 --stride_c 172032 --batch 36
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 24 -k 128 --alpha 1.0 --lda 128 --stride_a 65536 --ldb 128 --stride_b 3072 --beta 0.0 --ldc 24 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 486 -k 128 --alpha 1.0 --lda 128 --stride_a 65536 --ldb 128 --stride_b 62208 --beta 0.0 --ldc 486 --stride_c 248832 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 361 --alpha 1.0 --lda 361 --stride_a 23104 --ldb 361 --stride_b 46208 --beta 0.0 --ldc 128 --stride_c 8192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 5776 --alpha 1.0 --lda 5776 --stride_a 369664 --ldb 5776 --stride_b 739328 --beta 0.0 --ldc 128 --stride_c 8192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 722 --alpha 1.0 --lda 722 --stride_a 46208 --ldb 722 --stride_b 92416 --beta 0.0 --ldc 128 --stride_c 8192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 11552 --alpha 1.0 --lda 11552 --stride_a 739328 --ldb 11552 --stride_b 1478656 --beta 0.0 --ldc 128 --stride_c 8192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 23104 --alpha 1.0 --lda 23104 --stride_a 1478656 --ldb 23104 --stride_b 2957312 --beta 0.0 --ldc 128 --stride_c 8192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 2888 --alpha 1.0 --lda 2888 --stride_a 184832 --ldb 2888 --stride_b 369664 --beta 0.0 --ldc 128 --stride_c 8192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 32 -n 64 -k 40 --alpha 1.0 --lda 40 --stride_a 1280 --ldb 40 --stride_b 2560 --beta 0.0 --ldc 64 --stride_c 2048 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 32 -n 64 -k 640 --alpha 1.0 --lda 640 --stride_a 20480 --ldb 640 --stride_b 40960 --beta 0.0 --ldc 64 --stride_c 2048 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 112 -n 224 -k 242 --alpha 1.0 --lda 242 --stride_a 27104 --ldb 242 --stride_b 54208 --beta 0.0 --ldc 224 --stride_c 25088 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 242 --alpha 1.0 --lda 242 --stride_a 30976 --ldb 242 --stride_b 61952 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 144 -n 288 -k 242 --alpha 1.0 --lda 242 --stride_a 34848 --ldb 242 --stride_b 69696 --beta 0.0 --ldc 288 --stride_c 41472 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 320 -k 242 --alpha 1.0 --lda 242 --stride_a 38720 --ldb 242 --stride_b 77440 --beta 0.0 --ldc 320 --stride_c 51200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 242 --alpha 1.0 --lda 242 --stride_a 46464 --ldb 242 --stride_b 92928 --beta 0.0 --ldc 384 --stride_c 73728 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 208 -k 242 --alpha 1.0 --lda 242 --stride_a 23232 --ldb 242 --stride_b 50336 --beta 0.0 --ldc 208 --stride_c 19968 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 1152 --alpha 1.0 --lda 1152 --stride_a 221184 --ldb 1152 --stride_b 442368 --beta 0.0 --ldc 384 --stride_c 73728 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 2304 --alpha 1.0 --lda 2304 --stride_a 442368 --ldb 2304 --stride_b 884736 --beta 0.0 --ldc 384 --stride_c 73728 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 450 --alpha 1.0 --lda 450 --stride_a 86400 --ldb 450 --stride_b 172800 --beta 0.0 --ldc 384 --stride_c 73728 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 576 --alpha 1.0 --lda 576 --stride_a 110592 --ldb 576 --stride_b 221184 --beta 0.0 --ldc 384 --stride_c 73728 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 1152 --alpha 1.0 --lda 1152 --stride_a 294912 --ldb 1152 --stride_b 294912 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 384 -k 1152 --alpha 1.0 --lda 1152 --stride_a 294912 --ldb 1152 --stride_b 442368 --beta 0.0 --ldc 384 --stride_c 98304 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 2304 --alpha 1.0 --lda 2304 --stride_a 589824 --ldb 2304 --stride_b 589824 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 384 -k 2304 --alpha 1.0 --lda 2304 --stride_a 589824 --ldb 2304 --stride_b 884736 --beta 0.0 --ldc 384 --stride_c 98304 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 450 --alpha 1.0 --lda 450 --stride_a 115200 --ldb 450 --stride_b 115200 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 384 -k 450 --alpha 1.0 --lda 450 --stride_a 115200 --ldb 450 --stride_b 172800 --beta 0.0 --ldc 384 --stride_c 98304 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 576 --alpha 1.0 --lda 576 --stride_a 147456 --ldb 576 --stride_b 147456 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 384 -k 576 --alpha 1.0 --lda 576 --stride_a 147456 --ldb 576 --stride_b 221184 --beta 0.0 --ldc 384 --stride_c 98304 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 256 -k 1152 --alpha 1.0 --lda 1152 --stride_a 442368 --ldb 1152 --stride_b 294912 --beta 0.0 --ldc 256 --stride_c 98304 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 384 -k 1152 --alpha 1.0 --lda 1152 --stride_a 442368 --ldb 1152 --stride_b 442368 --beta 0.0 --ldc 384 --stride_c 147456 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 256 -k 2304 --alpha 1.0 --lda 2304 --stride_a 884736 --ldb 2304 --stride_b 589824 --beta 0.0 --ldc 256 --stride_c 98304 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 384 -k 2304 --alpha 1.0 --lda 2304 --stride_a 884736 --ldb 2304 --stride_b 884736 --beta 0.0 --ldc 384 --stride_c 147456 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 256 -k 450 --alpha 1.0 --lda 450 --stride_a 172800 --ldb 450 --stride_b 115200 --beta 0.0 --ldc 256 --stride_c 98304 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 384 -k 450 --alpha 1.0 --lda 450 --stride_a 172800 --ldb 450 --stride_b 172800 --beta 0.0 --ldc 384 --stride_c 147456 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 256 -k 576 --alpha 1.0 --lda 576 --stride_a 221184 --ldb 576 --stride_b 147456 --beta 0.0 --ldc 256 --stride_c 98304 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 384 -n 384 -k 576 --alpha 1.0 --lda 576 --stride_a 221184 --ldb 576 --stride_b 221184 --beta 0.0 --ldc 384 --stride_c 147456 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 112 -n 224 -k 1152 --alpha 1.0 --lda 1152 --stride_a 129024 --ldb 1152 --stride_b 258048 --beta 0.0 --ldc 224 --stride_c 25088 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 112 -n 224 -k 288 --alpha 1.0 --lda 288 --stride_a 32256 --ldb 288 --stride_b 64512 --beta 0.0 --ldc 224 --stride_c 25088 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 9 --alpha 1.0 --lda 9 --stride_a 1152 --ldb 9 --stride_b 2304 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 1152 --alpha 1.0 --lda 1152 --stride_a 147456 --ldb 1152 --stride_b 294912 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 288 --alpha 1.0 --lda 288 --stride_a 36864 --ldb 288 --stride_b 36864 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 160 -k 288 --alpha 1.0 --lda 288 --stride_a 36864 --ldb 288 --stride_b 46080 --beta 0.0 --ldc 160 --stride_c 20480 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 192 -k 288 --alpha 1.0 --lda 288 --stride_a 36864 --ldb 288 --stride_b 55296 --beta 0.0 --ldc 192 --stride_c 24576 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 288 --alpha 1.0 --lda 288 --stride_a 36864 --ldb 288 --stride_b 73728 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 72 --alpha 1.0 --lda 72 --stride_a 9216 --ldb 72 --stride_b 18432 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 144 -n 288 -k 1152 --alpha 1.0 --lda 1152 --stride_a 165888 --ldb 1152 --stride_b 331776 --beta 0.0 --ldc 288 --stride_c 41472 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 144 -n 288 -k 288 --alpha 1.0 --lda 288 --stride_a 41472 --ldb 288 --stride_b 82944 --beta 0.0 --ldc 288 --stride_c 41472 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 320 -k 1152 --alpha 1.0 --lda 1152 --stride_a 184320 --ldb 1152 --stride_b 368640 --beta 0.0 --ldc 320 --stride_c 51200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 160 -k 288 --alpha 1.0 --lda 288 --stride_a 46080 --ldb 288 --stride_b 46080 --beta 0.0 --ldc 160 --stride_c 25600 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 192 -k 288 --alpha 1.0 --lda 288 --stride_a 46080 --ldb 288 --stride_b 55296 --beta 0.0 --ldc 192 --stride_c 30720 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 320 -k 288 --alpha 1.0 --lda 288 --stride_a 46080 --ldb 288 --stride_b 92160 --beta 0.0 --ldc 320 --stride_c 51200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 192 -k 288 --alpha 1.0 --lda 288 --stride_a 55296 --ldb 288 --stride_b 55296 --beta 0.0 --ldc 192 --stride_c 36864 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 256 -k 288 --alpha 1.0 --lda 288 --stride_a 55296 --ldb 288 --stride_b 73728 --beta 0.0 --ldc 256 --stride_c 49152 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 9 --alpha 1.0 --lda 9 --stride_a 2304 --ldb 9 --stride_b 2304 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 144 --alpha 1.0 --lda 144 --stride_a 36864 --ldb 144 --stride_b 36864 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 18 --alpha 1.0 --lda 18 --stride_a 4608 --ldb 18 --stride_b 4608 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 288 --alpha 1.0 --lda 288 --stride_a 73728 --ldb 288 --stride_b 73728 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 72 --alpha 1.0 --lda 72 --stride_a 18432 --ldb 72 --stride_b 18432 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 9 --alpha 1.0 --lda 9 --stride_a 4608 --ldb 9 --stride_b 4608 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 144 --alpha 1.0 --lda 144 --stride_a 73728 --ldb 144 --stride_b 73728 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 18 --alpha 1.0 --lda 18 --stride_a 9216 --ldb 18 --stride_b 9216 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 288 --alpha 1.0 --lda 288 --stride_a 147456 --ldb 288 --stride_b 147456 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 576 --alpha 1.0 --lda 576 --stride_a 294912 --ldb 576 --stride_b 294912 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 72 --alpha 1.0 --lda 72 --stride_a 36864 --ldb 72 --stride_b 36864 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 96 -k 288 --alpha 1.0 --lda 288 --stride_a 18432 --ldb 288 --stride_b 27648 --beta 0.0 --ldc 96 --stride_c 6144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 208 -k 1152 --alpha 1.0 --lda 1152 --stride_a 110592 --ldb 1152 --stride_b 239616 --beta 0.0 --ldc 208 --stride_c 19968 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 128 -k 288 --alpha 1.0 --lda 288 --stride_a 27648 --ldb 288 --stride_b 36864 --beta 0.0 --ldc 128 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 208 -k 288 --alpha 1.0 --lda 288 --stride_a 27648 --ldb 288 --stride_b 59904 --beta 0.0 --ldc 208 --stride_c 19968 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 32 -n 64 -k 20000 --alpha 1.0 --lda 20000 --stride_a 640000 --ldb 20000 --stride_b 1280000 --beta 0.0 --ldc 64 --stride_c 2048 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 32 -n 32 -k 20000 --alpha 1.0 --lda 20000 --stride_a 640000 --ldb 20000 --stride_b 640000 --beta 0.0 --ldc 32 --stride_c 1024 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 210 --alpha 1.0 --lda 210 --stride_a 26880 --ldb 210 --stride_b 26880 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 3360 --alpha 1.0 --lda 3360 --stride_a 430080 --ldb 3360 --stride_b 430080 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 420 --alpha 1.0 --lda 420 --stride_a 53760 --ldb 420 --stride_b 53760 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 24 -k 512 --alpha 1.0 --lda 512 --stride_a 262144 --ldb 512 --stride_b 12288 --beta 0.0 --ldc 24 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 486 -k 512 --alpha 1.0 --lda 512 --stride_a 262144 --ldb 512 --stride_b 248832 --beta 0.0 --ldc 486 --stride_c 248832 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 1444 --alpha 1.0 --lda 1444 --stride_a 4332 --ldb 1444 --stride_b 92416 --beta 0.0 --ldc 64 --stride_c 192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 23104 --alpha 1.0 --lda 23104 --stride_a 69312 --ldb 23104 --stride_b 1478656 --beta 0.0 --ldc 64 --stride_c 192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 2888 --alpha 1.0 --lda 2888 --stride_a 8664 --ldb 2888 --stride_b 184832 --beta 0.0 --ldc 64 --stride_c 192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 46208 --alpha 1.0 --lda 46208 --stride_a 138624 --ldb 46208 --stride_b 2957312 --beta 0.0 --ldc 64 --stride_c 192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 92416 --alpha 1.0 --lda 92416 --stride_a 277248 --ldb 92416 --stride_b 5914624 --beta 0.0 --ldc 64 --stride_c 192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 3 -n 64 -k 11552 --alpha 1.0 --lda 11552 --stride_a 34656 --ldb 11552 --stride_b 739328 --beta 0.0 --ldc 64 --stride_c 192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 16 -n 32 -k 160 --alpha 1.0 --lda 160 --stride_a 2560 --ldb 160 --stride_b 5120 --beta 0.0 --ldc 32 --stride_c 512 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 16 -n 32 -k 2560 --alpha 1.0 --lda 2560 --stride_a 40960 --ldb 2560 --stride_b 81920 --beta 0.0 --ldc 32 --stride_c 512 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 192 -k 946 --alpha 1.0 --lda 946 --stride_a 121088 --ldb 946 --stride_b 181632 --beta 0.0 --ldc 192 --stride_c 24576 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 128 -k 946 --alpha 1.0 --lda 946 --stride_a 90816 --ldb 946 --stride_b 121088 --beta 0.0 --ldc 128 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 25 --alpha 1.0 --lda 25 --stride_a 3200 --ldb 25 --stride_b 3200 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 200 --alpha 1.0 --lda 200 --stride_a 25600 --ldb 200 --stride_b 25600 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 192 -k 3200 --alpha 1.0 --lda 3200 --stride_a 409600 --ldb 3200 --stride_b 614400 --beta 0.0 --ldc 192 --stride_c 24576 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 400 --alpha 1.0 --lda 400 --stride_a 51200 --ldb 400 --stride_b 51200 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 50 --alpha 1.0 --lda 50 --stride_a 6400 --ldb 50 --stride_b 6400 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 800 --alpha 1.0 --lda 800 --stride_a 102400 --ldb 800 --stride_b 102400 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 192 -k 800 --alpha 1.0 --lda 800 --stride_a 102400 --ldb 800 --stride_b 153600 --beta 0.0 --ldc 192 --stride_c 24576 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 1600 --alpha 1.0 --lda 1600 --stride_a 204800 --ldb 1600 --stride_b 204800 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 25 --alpha 1.0 --lda 25 --stride_a 6400 --ldb 25 --stride_b 12800 --beta 0.0 --ldc 512 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 400 --alpha 1.0 --lda 400 --stride_a 102400 --ldb 400 --stride_b 204800 --beta 0.0 --ldc 512 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 50 --alpha 1.0 --lda 50 --stride_a 12800 --ldb 50 --stride_b 25600 --beta 0.0 --ldc 512 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 800 --alpha 1.0 --lda 800 --stride_a 204800 --ldb 800 --stride_b 409600 --beta 0.0 --ldc 512 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 1600 --alpha 1.0 --lda 1600 --stride_a 409600 --ldb 1600 --stride_b 819200 --beta 0.0 --ldc 512 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 200 --alpha 1.0 --lda 200 --stride_a 51200 --ldb 200 --stride_b 102400 --beta 0.0 --ldc 512 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 800 --alpha 1.0 --lda 800 --stride_a 409600 --ldb 800 --stride_b 409600 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 1600 --alpha 1.0 --lda 1600 --stride_a 819200 --ldb 1600 --stride_b 819200 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 800 --alpha 1.0 --lda 800 --stride_a 51200 --ldb 800 --stride_b 51200 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 96 -k 800 --alpha 1.0 --lda 800 --stride_a 51200 --ldb 800 --stride_b 76800 --beta 0.0 --ldc 96 --stride_c 6144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 128 -k 3200 --alpha 1.0 --lda 3200 --stride_a 307200 --ldb 3200 --stride_b 409600 --beta 0.0 --ldc 128 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 128 -k 800 --alpha 1.0 --lda 800 --stride_a 76800 --ldb 800 --stride_b 102400 --beta 0.0 --ldc 128 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 96 -k 800 --alpha 1.0 --lda 800 --stride_a 76800 --ldb 800 --stride_b 76800 --beta 0.0 --ldc 96 --stride_c 9216 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 16 -k 32 --alpha 1.0 --lda 32 --stride_a 8192 --ldb 32 --stride_b 512 --beta 0.0 --ldc 16 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 324 -k 32 --alpha 1.0 --lda 32 --stride_a 8192 --ldb 32 --stride_b 10368 --beta 0.0 --ldc 324 --stride_c 82944 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 826 --alpha 1.0 --lda 826 --stride_a 52864 --ldb 826 --stride_b 52864 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 13216 --alpha 1.0 --lda 13216 --stride_a 845824 --ldb 13216 --stride_b 845824 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 1652 --alpha 1.0 --lda 1652 --stride_a 105728 --ldb 1652 --stride_b 105728 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 224 -k 1152 --alpha 1.0 --lda 1152 --stride_a 221184 --ldb 1152 --stride_b 258048 --beta 0.0 --ldc 224 --stride_c 43008 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 96 -k 1152 --alpha 1.0 --lda 1152 --stride_a 73728 --ldb 1152 --stride_b 110592 --beta 0.0 --ldc 96 --stride_c 6144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 96 -n 96 -k 1152 --alpha 1.0 --lda 1152 --stride_a 110592 --ldb 1152 --stride_b 110592 --beta 0.0 --ldc 96 --stride_c 9216 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 128 -k 1568 --alpha 1.0 --lda 1568 --stride_a 200704 --ldb 1568 --stride_b 200704 --beta 0.0 --ldc 128 --stride_c 16384 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 1568 --alpha 1.0 --lda 1568 --stride_a 200704 --ldb 1568 --stride_b 401408 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 16 -k 1568 --alpha 1.0 --lda 1568 --stride_a 401408 --ldb 1568 --stride_b 25088 --beta 0.0 --ldc 16 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 1568 --alpha 1.0 --lda 1568 --stride_a 401408 --ldb 1568 --stride_b 401408 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 324 -k 1568 --alpha 1.0 --lda 1568 --stride_a 401408 --ldb 1568 --stride_b 508032 --beta 0.0 --ldc 324 --stride_c 82944 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 14 --alpha 1.0 --lda 14 --stride_a 7168 --ldb 14 --stride_b 7168 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 224 --alpha 1.0 --lda 224 --stride_a 114688 --ldb 224 --stride_b 114688 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 28 --alpha 1.0 --lda 28 --stride_a 14336 --ldb 28 --stride_b 14336 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1 -n 16 -k 640 --alpha 1.0 --lda 640 --stride_a 640 --ldb 640 --stride_b 10240 --beta 0.0 --ldc 16 --stride_c 16 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 1 -n 16 -k 10240 --alpha 1.0 --lda 10240 --stride_a 10240 --ldb 10240 --stride_b 163840 --beta 0.0 --ldc 16 --stride_c 16 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 192 -k 3698 --alpha 1.0 --lda 3698 --stride_a 236672 --ldb 3698 --stride_b 710016 --beta 0.0 --ldc 192 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 81 --alpha 1.0 --lda 81 --stride_a 5184 --ldb 81 --stride_b 5184 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 648 --alpha 1.0 --lda 648 --stride_a 41472 --ldb 648 --stride_b 41472 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 32 --alpha 1.0 --lda 32 --stride_a 4096 --ldb 32 --stride_b 8192 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 24 -k 32 --alpha 1.0 --lda 32 --stride_a 8192 --ldb 32 --stride_b 768 --beta 0.0 --ldc 24 --stride_c 6144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 486 -k 32 --alpha 1.0 --lda 32 --stride_a 8192 --ldb 32 --stride_b 15552 --beta 0.0 --ldc 486 --stride_c 124416 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 3200 --alpha 1.0 --lda 3200 --stride_a 204800 --ldb 3200 --stride_b 204800 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 6400 --alpha 1.0 --lda 6400 --stride_a 409600 --ldb 6400 --stride_b 409600 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 100 --alpha 1.0 --lda 100 --stride_a 12800 --ldb 100 --stride_b 25600 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 1600 --alpha 1.0 --lda 1600 --stride_a 204800 --ldb 1600 --stride_b 409600 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 200 --alpha 1.0 --lda 200 --stride_a 25600 --ldb 200 --stride_b 51200 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 3200 --alpha 1.0 --lda 3200 --stride_a 409600 --ldb 3200 --stride_b 819200 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 6400 --alpha 1.0 --lda 6400 --stride_a 819200 --ldb 6400 --stride_b 1638400 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 128 -n 256 -k 800 --alpha 1.0 --lda 800 --stride_a 102400 --ldb 800 --stride_b 204800 --beta 0.0 --ldc 256 --stride_c 32768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 3200 --alpha 1.0 --lda 3200 --stride_a 819200 --ldb 3200 --stride_b 819200 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 6400 --alpha 1.0 --lda 6400 --stride_a 1638400 --ldb 6400 --stride_b 1638400 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 192 -k 12800 --alpha 1.0 --lda 12800 --stride_a 819200 --ldb 12800 --stride_b 2457600 --beta 0.0 --ldc 192 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 100 --alpha 1.0 --lda 100 --stride_a 6400 --ldb 100 --stride_b 6400 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 1600 --alpha 1.0 --lda 1600 --stride_a 102400 --ldb 1600 --stride_b 102400 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 200 --alpha 1.0 --lda 200 --stride_a 12800 --ldb 200 --stride_b 12800 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 192 -k 3200 --alpha 1.0 --lda 3200 --stride_a 204800 --ldb 3200 --stride_b 614400 --beta 0.0 --ldc 192 --stride_c 12288 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 10 --alpha 1.0 --lda 10 --stride_a 640 --ldb 10 --stride_b 1280 --beta 0.0 --ldc 128 --stride_c 8192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 128 -k 160 --alpha 1.0 --lda 160 --stride_a 10240 --ldb 160 --stride_b 20480 --beta 0.0 --ldc 128 --stride_c 8192 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 147 -n 64 -k 9702 --alpha 1.0 --lda 9702 --stride_a 1426194 --ldb 9702 --stride_b 620928 --beta 0.0 --ldc 64 --stride_c 9408 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 149 -n 32 -k 8195 --alpha 1.0 --lda 8195 --stride_a 1221055 --ldb 8195 --stride_b 262240 --beta 0.0 --ldc 32 --stride_c 4768 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 8 -n 384 -k 6600 --alpha 1.0 --lda 6600 --stride_a 52800 --ldb 6600 --stride_b 2534400 --beta 0.0 --ldc 384 --stride_c 3072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 35 -n 96 -k 4235 --alpha 1.0 --lda 4235 --stride_a 148225 --ldb 4235 --stride_b 406560 --beta 0.0 --ldc 96 --stride_c 3360 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 73 -n 192 -k 10439 --alpha 1.0 --lda 10439 --stride_a 762047 --ldb 10439 --stride_b 2004288 --beta 0.0 --ldc 192 --stride_c 14016 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 35 -n 96 -k 6160 --alpha 1.0 --lda 6160 --stride_a 215600 --ldb 6160 --stride_b 591360 --beta 0.0 --ldc 96 --stride_c 3360 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 96 -k 4608 --alpha 1.0 --lda 4608 --stride_a 294912 --ldb 4608 --stride_b 442368 --beta 0.0 --ldc 96 --stride_c 6144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 80 -n 192 -k 4608 --alpha 1.0 --lda 4608 --stride_a 368640 --ldb 4608 --stride_b 884736 --beta 0.0 --ldc 192 --stride_c 15360 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 64 -n 64 -k 5408 --alpha 1.0 --lda 5408 --stride_a 346112 --ldb 5408 --stride_b 346112 --beta 0.0 --ldc 64 --stride_c 4096 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 320 -k 512 --alpha 1.0 --lda 512 --stride_a 81920 --ldb 512 --stride_b 163840 --beta 0.0 --ldc 320 --stride_c 51200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 224 -k 128 --alpha 1.0 --lda 128 --stride_a 20480 --ldb 128 --stride_b 28672 --beta 0.0 --ldc 224 --stride_c 35840 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 160 -n 320 -k 128 --alpha 1.0 --lda 128 --stride_a 20480 --ldb 128 --stride_b 40960 --beta 0.0 --ldc 320 --stride_c 51200 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 512 --alpha 1.0 --lda 512 --stride_a 98304 --ldb 512 --stride_b 196608 --beta 0.0 --ldc 384 --stride_c 73728 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 224 -k 128 --alpha 1.0 --lda 128 --stride_a 24576 --ldb 128 --stride_b 28672 --beta 0.0 --ldc 224 --stride_c 43008 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 320 -k 128 --alpha 1.0 --lda 128 --stride_a 24576 --ldb 128 --stride_b 40960 --beta 0.0 --ldc 320 --stride_c 61440 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 192 -n 384 -k 128 --alpha 1.0 --lda 128 --stride_a 24576 --ldb 128 --stride_b 49152 --beta 0.0 --ldc 384 --stride_c 73728 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 224 -n 224 -k 128 --alpha 1.0 --lda 128 --stride_a 28672 --ldb 128 --stride_b 28672 --beta 0.0 --ldc 224 --stride_c 50176 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 4 --alpha 1.0 --lda 4 --stride_a 1024 --ldb 4 --stride_b 2048 --beta 0.0 --ldc 512 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 512 -k 32 --alpha 1.0 --lda 32 --stride_a 8192 --ldb 32 --stride_b 16384 --beta 0.0 --ldc 512 --stride_c 131072 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 4 --alpha 1.0 --lda 4 --stride_a 2048 --ldb 4 --stride_b 2048 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 64 --alpha 1.0 --lda 64 --stride_a 32768 --ldb 64 --stride_b 32768 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 8 --alpha 1.0 --lda 8 --stride_a 4096 --ldb 8 --stride_b 4096 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 128 --alpha 1.0 --lda 128 --stride_a 65536 --ldb 128 --stride_b 65536 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 256 --alpha 1.0 --lda 256 --stride_a 131072 --ldb 256 --stride_b 131072 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 512 -n 512 -k 32 --alpha 1.0 --lda 32 --stride_a 16384 --ldb 32 --stride_b 16384 --beta 0.0 --ldc 512 --stride_c 262144 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 56 --alpha 1.0 --lda 56 --stride_a 14336 --ldb 56 --stride_b 14336 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 896 --alpha 1.0 --lda 896 --stride_a 229376 --ldb 896 --stride_b 229376 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 256 -n 256 -k 112 --alpha 1.0 --lda 112 --stride_a 28672 --ldb 112 --stride_b 28672 --beta 0.0 --ldc 256 --stride_c 65536 --batch 64
./rocblas-bench -f gemm_strided_batched -r f32_r --transposeA N --transposeB T -m 448 -n 384 -k 128 --alpha 1.0 --lda 128 --stride_a 57344 --ldb 128 --stride_b 49152 --beta 0.0 --ldc 384 --stride_c 172032 --batch 64
