/* ************************************************************************ * Copyright 2018-2021 Advanced Micro Devices, Inc. * ************************************************************************ */ #pragma once #include "../../library/src/include/rocblas_ostream.hpp" #include "rocblas.h" #include "rocblas_math.hpp" #include "rocblas_random.hpp" #include #include #include #include /* ============================================================================================ */ /*! \brief matrix/vector initialization: */ // for vector x (M=1, N=lengthX, lda=incx); // for complex number, the real/imag part would be initialized with the same value // Initialize matrices with random values template void rocblas_init(T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) { size_t b_idx = i_batch * stride; for(size_t j = 0; j < N; ++j) { size_t col_idx = b_idx + j * lda; if(M > 4) random_run_generator(A + col_idx, M); else { for(size_t i = 0; i < M; ++i) A[col_idx + i] = random_generator(); } } } } // Initialize matrices with random values template inline void rocblas_init( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { rocblas_init(A.data(), M, N, lda, stride, batch_count); } template void rocblas_init_sin( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) #pragma omp parallel for for(size_t j = 0; j < N; ++j) { size_t offset = j * lda + i_batch * stride; for(size_t i = 0; i < M; ++i) A[i + offset] = T(sin(i + offset)); } } template inline void rocblas_init_sin( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { rocblas_init_sin(A.data(), M, N, lda, stride, batch_count); } // Initialize matrix so adjacent entries have alternating sign. // In gemm if either A or B are initialized with alernating // sign the reduction sum will be summing positive // and negative numbers, so it should not get too large. // This helps reduce floating point inaccuracies for 16bit // arithmetic where the exponent has only 5 bits, and the // mantissa 10 bits. template void rocblas_init_alternating_sign( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) #pragma omp parallel for for(size_t j = 0; j < N; ++j) { size_t offset = j * lda + i_batch * stride; for(size_t i = 0; i < M; ++i) { auto value = random_generator(); A[i + offset] = (i ^ j) & 1 ? value : negate(value); } } } template void rocblas_init_alternating_sign( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { rocblas_init_alternating_sign(A.data(), M, N, lda, stride, batch_count); } // Initialize matrix so adjacent entries have alternating sign. template void rocblas_init_hpl_alternating_sign( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) #pragma omp parallel for for(size_t j = 0; j < N; ++j) { size_t offset = j * lda + i_batch * stride; for(size_t i = 0; i < M; ++i) { auto value = random_hpl_generator(); A[i + offset] = (i ^ j) & 1 ? value : negate(value); } } } template void rocblas_init_hpl_alternating_sign( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { rocblas_init_hpl_alternating_sign(A.data(), M, N, lda, stride, batch_count); } template void rocblas_init_cos( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) #pragma omp parallel for for(size_t j = 0; j < N; ++j) { size_t offset = j * lda + i_batch * stride; for(size_t i = 0; i < M; ++i) A[i + offset] = T(cos(i + offset)); } } template inline void rocblas_init_cos( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { rocblas_init_cos(A.data(), M, N, lda, stride, batch_count); } /*! \brief symmetric matrix initialization: */ // for real matrix only template void rocblas_init_symmetric(std::vector& A, size_t N, size_t lda) { for(size_t i = 0; i < N; ++i) for(size_t j = 0; j <= i; ++j) { auto value = random_generator(); // Warning: It's undefined behavior to assign to the // same array element twice in same sequence point (i==j) A[j + i * lda] = value; A[i + j * lda] = value; } } /*! \brief symmetric matrix initialization: */ template void rocblas_init_symmetric(T* A, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t b = 0; b < batch_count; ++b) { for(size_t i = 0; i < N; ++i) for(size_t j = 0; j <= i; ++j) { auto value = random_generator(); // Warning: It's undefined behavior to assign to the // same array element twice in same sequence point (i==j) A[b * stride + j + i * lda] = value; A[b * stride + i + j * lda] = value; } } } /*! \brief symmetric matrix clear: */ template void rocblas_clear_symmetric( rocblas_fill uplo, T* A, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t b = 0; b < batch_count; ++b) { for(size_t i = 0; i < N; ++i) for(size_t j = i + 1; j < N; ++j) { if(uplo == rocblas_fill_upper) A[b * stride + j + i * lda] = 0; // clear lower else A[b * stride + i + j * lda] = 0; // clear upper } } } /*! \brief Hermitian matrix initialization: */ // for complex matrix only, the real/imag part would be initialized with the same value // except the diagonal elment must be real template void rocblas_init_hermitian(std::vector& A, size_t N, size_t lda) { for(size_t i = 0; i < N; ++i) for(size_t j = 0; j <= i; ++j) { auto value = random_generator(); A[j + i * lda] = value; value.y = (i == j) ? 0 : negate(value.y); A[i + j * lda] = value; } } // Initialize vector with HPL-like random values template void rocblas_init_hpl( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) A[i + j * lda + i_batch * stride] = random_hpl_generator(); } template void rocblas_init_hpl( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) A[i + j * lda + i_batch * stride] = random_hpl_generator(); } /* ============================================================================================ */ /*! \brief Initialize an array with random data, with NaN where appropriate */ template void rocblas_init_nan(T* A, size_t N) { for(size_t i = 0; i < N; ++i) A[i] = T(rocblas_nan_rng()); } template void rocblas_init_nan(T* A, size_t start_offset, size_t end_offset) { for(size_t i = start_offset; i < end_offset; ++i) A[i] = T(rocblas_nan_rng()); } template void rocblas_init_nan_tri( bool upper, T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) { T val = upper ? (j >= i ? T(rocblas_nan_rng()) : 0) : (j <= i ? T(rocblas_nan_rng()) : 0); A[i + j * lda + i_batch * stride] = val; } } template void rocblas_init_nan( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) A[i + j * lda + i_batch * stride] = T(rocblas_nan_rng()); } template void rocblas_init_nan( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { rocblas_init_nan(A.data(), M, N, lda, stride, batch_count); } /* ============================================================================================ */ /*! \brief Initialize an array with random data, with Inf where appropriate */ template void rocblas_init_inf(T* A, size_t N) { for(size_t i = 0; i < N; ++i) A[i] = T(rocblas_inf_rng()); } template void rocblas_init_inf(T* A, size_t start_offset, size_t end_offset) { for(size_t i = start_offset; i < end_offset; ++i) A[i] = T(rocblas_inf_rng()); } template void rocblas_init_inf( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) A[i + j * lda + i_batch * stride] = T(rocblas_inf_rng()); } template void rocblas_init_inf( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { rocblas_init_inf(A.data(), M, N, lda, stride, batch_count); } /* ============================================================================================ */ /*! \brief Initialize an array with random data, with zero */ template void rocblas_init_zero( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) A[i + j * lda + i_batch * stride] = T(rocblas_zero_rng()); } template void rocblas_init_zero(T* A, size_t start_offset, size_t end_offset) { for(size_t i = start_offset; i < end_offset; ++i) A[i] = T(rocblas_zero_rng()); } template void rocblas_init_alt_impl_big( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { const rocblas_half ieee_half_max(65280.0); for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) A[i + j * lda + i_batch * stride] = T(ieee_half_max); } template inline void rocblas_init_alt_impl_big( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { const rocblas_half ieee_half_max(65280.0); for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) A[i + j * lda + i_batch * stride] = T(ieee_half_max); } template void rocblas_init_alt_impl_small( std::vector& A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { const rocblas_half ieee_half_small(0.0000607967376708984375); for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) A[i + j * lda + i_batch * stride] = T(ieee_half_small); } template void rocblas_init_alt_impl_small( T* A, size_t M, size_t N, size_t lda, size_t stride = 0, size_t batch_count = 1) { const rocblas_half ieee_half_small(0.0000607967376708984375); for(size_t i_batch = 0; i_batch < batch_count; i_batch++) for(size_t i = 0; i < M; ++i) for(size_t j = 0; j < N; ++j) A[i + j * lda + i_batch * stride] = T(ieee_half_small); } /* ============================================================================================ */ /*! \brief Packs strided_batched matricies into groups of 4 in N */ template void rocblas_packInt8(T* A, const T* temp, size_t M, size_t N, size_t lda) { if(N % 4 != 0) rocblas_cerr << "ERROR: dimension must be a multiple of 4 in order to pack" << std::endl; for(size_t colBase = 0; colBase < N; colBase += 4) for(size_t row = 0; row < lda; row++) for(size_t colOffset = 0; colOffset < 4; colOffset++) A[(colBase * lda + 4 * row) + colOffset] = temp[(colBase + colOffset) * lda + row]; } template void rocblas_packInt8( std::vector& A, size_t M, size_t N, size_t batch_count, size_t lda, size_t stride_a) { if(N % 4 != 0) rocblas_cerr << "ERROR: dimension must be a multiple of 4 in order to pack" << std::endl; std::vector temp(A); for(size_t count = 0; count < batch_count; count++) for(size_t colBase = 0; colBase < N; colBase += 4) for(size_t row = 0; row < lda; row++) for(size_t colOffset = 0; colOffset < 4; colOffset++) A[(colBase * lda + 4 * row) + colOffset + (stride_a * count)] = temp[(colBase + colOffset) * lda + row + (stride_a * count)]; } /* ============================================================================================ */ /*! \brief Packs matricies into groups of 4 in N */ template void rocblas_packInt8(std::vector& A, size_t M, size_t N, size_t lda) { /* Assumes original matrix provided in column major order, where N is a multiple of 4 ---------- N ---------- | | 00 05 10 15 20 25 30 35 |00 05 10 15|20 25 30 35| | | 01 06 11 16 21 26 31 36 |01 06 11 16|21 26 31 36| l M 02 07 12 17 22 27 32 37 --> |02 07 12 17|22 27 32 37| d | 03 08 13 18 23 28 33 38 |03 08 13 18|23 28 33 38| a | 04 09 14 19 24 29 34 39 |04 09 14 19|24 29 34 39| | ** ** ** ** ** ** ** ** |** ** ** **|** ** ** **| | ** ** ** ** ** ** ** ** |** ** ** **|** ** ** **| Input : 00 01 02 03 04 ** ** 05 ... 38 39 ** ** Output: 00 05 10 15 01 06 11 16 ... ** ** ** ** */ // call general code with batch_count = 1 and stride_a = 0 rocblas_packInt8(A, M, N, 1, lda, 0); } /* ============================================================================================ */ /*! \brief matrix matrix initialization: copies from A into same position in B */ template void rocblas_copy_matrix(const T* A, T* B, size_t M, size_t N, size_t lda, size_t ldb, size_t stridea = 0, size_t strideb = 0, size_t batch_count = 1) { for(size_t i_batch = 0; i_batch < batch_count; i_batch++) { size_t stride_offset_a = i_batch * stridea; size_t stride_offset_b = i_batch * strideb; #pragma omp parallel for for(size_t j = 0; j < N; ++j) { size_t offset_a = stride_offset_a + j * lda; size_t offset_b = stride_offset_b + j * ldb; memcpy(B + offset_b, A + offset_a, M * sizeof(T)); } } }