/************************************************************************* * Copyright (c) 2015-2021, NVIDIA CORPORATION. All rights reserved. * Modifications Copyright (c) 2019-2021 Advanced Micro Devices, Inc. All rights reserved. * * See LICENSE.txt for license information ************************************************************************/ #include "devcomm.h" #include "collectives.h" #include "primitives.h" #include "clique/AllReduceCliqueKernel.h" // [RCCL] AllReduce Clique-based kernel support namespace { template __device__ __attribute__((noinline)) void runRing(ncclWorkElem *args) { const int tid = threadIdx.x; const int nthreads = args->nThreads; const int bid = args->coll.bid; const int nChannels = args->coll.nChannels; ncclRing *ring = &ncclShmem->channel.ring; int ringIx = ring->index; const ssize_t chunkSize = int(Proto::calcBytePerStep()/sizeof(T) * (Proto::Id == NCCL_PROTO_SIMPLE ? ALLREDUCE_CHUNKSTEPS : 1)); const int nranks = ncclShmem->comm.nRanks; const ssize_t loopSize = nChannels*nranks*chunkSize; const ssize_t size = args->coll.count; #ifdef ENABLE_PROFILING auto devProf = ncclShmem->comm.devProf; uint64_t clk, t0 = 0ULL, ws; if (tid == 0) clk = __builtin_amdgcn_s_memrealtime(); #endif int minChunkSize; if (Proto::Id == NCCL_PROTO_LL) minChunkSize = nthreads*(Proto::calcBytePerGrain()/sizeof(T)); if (Proto::Id == NCCL_PROTO_LL128) { // We should not need the final /2 but it makes performance much, much smoother. Might be a bug somewhere. minChunkSize = nthreads*(Proto::calcBytePerGrain()/sizeof(T))/2; } Primitives, 0, Proto> prims (tid, nthreads, &ring->prev, &ring->next, args->sendbuff, args->recvbuff, args->coll.redOpArg, args->coll.connIndex << 16); for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t realChunkSize; if (Proto::Id == NCCL_PROTO_SIMPLE) { realChunkSize = min(chunkSize, divUp(size-gridOffset, nChannels*nranks)); realChunkSize = roundUp(realChunkSize, nthreads*sizeof(uint64_t)/sizeof(T)); } else realChunkSize = min(chunkSize, divUp(size-gridOffset, nChannels*nranks*minChunkSize)*minChunkSize); realChunkSize = int(realChunkSize); auto calcOffset = [&]__device__(int chunk)->ssize_t { if (Proto::Id == NCCL_PROTO_SIMPLE) return gridOffset + bid*nranks*realChunkSize + chunk*realChunkSize; else return gridOffset + (chunk*nChannels + bid)*realChunkSize; }; auto modRanks = [&]__device__(int r)->int { return r - (r >= nranks ? nranks : 0); }; ssize_t offset; int nelem; int chunk; // step 0: push data to next GPU chunk = modRanks(ringIx + nranks-1); offset = calcOffset(chunk); nelem = min(realChunkSize, size-offset); INIT_COUNTER; prims.send(offset, nelem); ACCUMULATE_COUNTER(send); // k-2 steps: reduce and copy to next GPU for (int j=2; jcoll.opCount) devProf->elems[blockIdx.x].total_cycle += (__builtin_amdgcn_s_memrealtime() - clk); #endif } template __device__ __attribute__((noinline)) void runTreeUpDown(ncclWorkElem *args) { const int tid = threadIdx.x; const int nthreads = args->nThreads; const int bid = args->coll.bid; const int nChannels = args->coll.nChannels; ncclTree *tree = &ncclShmem->channel.tree; ssize_t chunkSize = int( Proto::Id == NCCL_PROTO_SIMPLE ? args->coll.lastChunkSize /* LL & LL128 */ : Proto::calcBytePerStep()/sizeof(T)); const ssize_t minChunkSize = int( Proto::Id == NCCL_PROTO_SIMPLE ? nthreads*8*(sizeof(uint64_t)/sizeof(T)) /* LL & LL128 */ : nthreads*(Proto::calcBytePerGrain()/sizeof(T))); const ssize_t loopSize = int(nChannels*chunkSize); const ssize_t size = args->coll.count; if (loopSize > size) chunkSize = divUp((int)size, int(nChannels*minChunkSize))*int(minChunkSize); { // Reduce : max number of recv is 3, max number of send is 1 (binary tree + local) Primitives, /*Direct=*/0, Proto> prims (tid, nthreads, tree->down, &tree->up, args->sendbuff, args->recvbuff, args->coll.redOpArg); if (tree->up == -1) { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.recvReduceCopy(offset, offset, nelem, /*postOp=*/true); } } else if (tree->down[0] == -1) { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.send(offset, nelem); } } else { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.recvReduceSend(offset, nelem); } } } { // Broadcast : max number of recv is 1, max number of send is 3 (binary tree + local) Primitives, /*Direct=*/0, Proto> prims (tid, nthreads, &tree->up, tree->down, args->sendbuff, args->recvbuff, args->coll.redOpArg); if (tree->up == -1) { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.directSendFromOutput(offset, offset, nelem); } } else if (tree->down[0] == -1) { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.directRecv(offset, nelem); } } else { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.directRecvCopySend(offset, offset, nelem); } } } } template __device__ __attribute__((noinline)) void runTreeSplit(ncclWorkElem *args) { const int tid = threadIdx.x; const int nthreads = args->nThreads; const int bid = args->coll.bid; const int nChannels = args->coll.nChannels; ncclTree *tree = &ncclShmem->channel.tree; ssize_t chunkSize = int( Proto::Id != NCCL_PROTO_LL ? args->coll.lastChunkSize : Proto::calcBytePerStep()/sizeof(T)); const ssize_t minChunkSize = int( Proto::Id == NCCL_PROTO_SIMPLE ? nthreads*8*(sizeof(uint64_t)/sizeof(T)) : Proto::Id == NCCL_PROTO_LL ? nthreads*(Proto::calcBytePerGrain()/sizeof(T)) /* LL128 */ : nthreads*(Proto::calcBytePerGrain()/sizeof(T))/8); const ssize_t loopSize = int(nChannels*chunkSize); const ssize_t size = args->coll.count; int nthreadsSplit; if (Proto::Id == NCCL_PROTO_SIMPLE) { nthreadsSplit = nthreads/2; if (nthreadsSplit >= 256) nthreadsSplit += 64; } else { // LL & LL128 // Receiving from up to 3 sources is more compute intensive than sending // to 3 dests. Use 70% for reduce and 30% for bcast. nthreadsSplit = (nthreads*7/(10*WARP_SIZE))*WARP_SIZE; } if (loopSize > size) chunkSize = divUp((int)size, nChannels*int(minChunkSize))*int(minChunkSize); if (tree->up == -1) { // Reduce and broadcast. Max number of recv is 3, max number of send is 3 Primitives, /*Direct=*/0, Proto> prims(tid, nthreads, tree->down, tree->down, args->sendbuff, args->recvbuff, args->coll.redOpArg); for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.directRecvReduceCopySend(offset, offset, offset, nelem, /*doPost=*/true); } } else if (tid < nthreadsSplit) { /* Reduce up. Max number of recv is 3, max number of send is 1 (binary tree + local). * Why Direct=1???? * Answer: Because despite not performing any direct operations, the ctor * must assume Direct so that it can exchange direct pointers with remote ctors * that are Direct, otherwise it hangs. A cleaner solution would be to seperate * into DirectRecv and DirectSend capabilities, this ctor would have both=0, * but the ctor above for tree roots would be DirectRecv=0 DirectSend=1. */ Primitives, /*Direct=*/0, Proto> prims(tid, nthreadsSplit, tree->down, &tree->up, args->sendbuff, args->recvbuff, args->coll.redOpArg, 0*Proto::MaxGroupWidth); if (tree->down[0] == -1) { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.send(offset, nelem); } } else { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.recvReduceSend(offset, nelem); } } } else { // Broadcast down. Max number of recv is 1, max number of send is 3 (binary tree + local) Primitives, /*Direct=*/0, Proto> prims(tid-nthreadsSplit, nthreads-nthreadsSplit, &tree->up, tree->down, args->sendbuff, args->recvbuff, args->coll.redOpArg, 1*Proto::MaxGroupWidth); if (tree->down[0] == -1) { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.directRecv(offset, nelem); } } else { for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*int(chunkSize); int nelem = min(chunkSize, size-offset); prims.directRecvCopySend(offset, offset, nelem); } } } } } template struct RunWorkElement { __device__ __attribute__((noinline)) void run(ncclWorkElem *args) { using Proto = ProtoSimple; runRing(args); } }; template struct RunWorkElement { __device__ __attribute__((noinline)) void run(ncclWorkElem *args) { runTreeUpDown>(args); } }; template struct RunWorkElement { __device__ __attribute__((noinline)) void run(ncclWorkElem *args) { static constexpr int COLLNET_COPY_THREADS = 64; const int tid = threadIdx.x; const int bid = args->coll.bid; const int nChannels = args->coll.nChannels; struct ncclDirect* tree = &ncclShmem->channel.collTree; const ssize_t chunkSize = int(args->coll.lastChunkSize); const ssize_t size = args->coll.count; const ssize_t loopSize = nChannels*tree->nHeads*chunkSize; const int hasUp = (tree->up[0] >= 0) ? 1 : 0; const int hasDn = (tree->down[0] >= 0) ? 1 : 0; const int nThreadsScatter = ((hasUp && hasDn) ? COLLNET_COPY_THREADS : hasUp ? 2*COLLNET_COPY_THREADS : 0); const int nThreadsGather = ((hasUp && hasDn) ? COLLNET_COPY_THREADS : hasUp ? 1*COLLNET_COPY_THREADS : 0); const int nThreadsBcast = ((hasUp && hasDn) ? COLLNET_COPY_THREADS : hasUp ? 0 : 1*COLLNET_COPY_THREADS); const int nThreadsReduce = args->nThreads - nThreadsScatter - nThreadsGather - nThreadsBcast; const int tidStartBcast = nThreadsGather; const int tidStartScatter = tidStartBcast + nThreadsBcast; const int tidStartReduce = tidStartScatter + nThreadsScatter; using Proto = ProtoSimple<1, 1>; if (tid >= tidStartScatter && tid < tidStartReduce && hasUp) { // Scatter int group = (2*Proto::MaxGroupWidth) | (1<<16); Primitives, /*Direct=*/0, Proto> prims(tid-tidStartScatter, nThreadsScatter, NULL, tree->up, args->sendbuff, args->recvbuff, args->coll.redOpArg, group, args); for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*tree->nHeads*chunkSize; int nelem = min(tree->nHeads*chunkSize, size-offset); if (args->regUsed) { prims.directScatter(offset, nelem, chunkSize, tree->headRank, tree->shift); } else { prims.scatter(offset, nelem, chunkSize, tree->headRank, tree->shift); } } } else if (tid >= tidStartReduce && tree->out != -1) { int group = (3*Proto::MaxGroupWidth) | (1<<16); if (hasDn) { // Reduce, send to network Primitives, /*Direct=*/0, Proto> prims(tid-tidStartReduce, nThreadsReduce, tree->down, &tree->out, args->sendbuff, args->recvbuff, args->coll.redOpArg, group, args); for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + (bid*tree->nHeads+tree->headRank)*chunkSize; int nelem = min(chunkSize, size-offset); if (args->regUsed) { prims.directRecvReduceSend(offset, offset, nelem); } else { prims.recvReduceSend(offset, nelem); } } } else { // Directly send to network Primitives, /*Direct=*/0, Proto> prims(tid-tidStartReduce, nThreadsReduce, nullptr, &tree->out, args->sendbuff, args->recvbuff, args->coll.redOpArg, group); for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + (bid*tree->nHeads+tree->headRank)*chunkSize; int nelem = min(chunkSize, size-offset); prims.send(offset, nelem); } } } else if (tid < tidStartBcast && hasUp) { // Gather int group = (0*Proto::MaxGroupWidth) | (0<<16); Primitives, /*Direct=*/0, Proto> prims(tid, nThreadsGather, tree->up, NULL, args->sendbuff, args->recvbuff, args->coll.redOpArg, group, args); for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + bid*tree->nHeads*chunkSize; int nelem = min(tree->nHeads*chunkSize, size-offset); prims.directGather(offset, nelem, chunkSize, tree->headRank, tree->shift); } } else if (tid >= tidStartBcast && tid < tidStartScatter && tree->out != -1) { int group = (1*Proto::MaxGroupWidth) | (0<<16); if (hasDn) { // Recv from network, broadcast Primitives, /*Direct=*/0, Proto> prims(tid-tidStartBcast, nThreadsBcast, &tree->out, tree->down, args->sendbuff, args->recvbuff, args->coll.redOpArg, group, args); for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + (bid*tree->nHeads+tree->headRank)*chunkSize; int nelem = min(chunkSize, size-offset); prims.recvCopyDirectSend(offset, offset, nelem, /*postOp=*/true); } } else { // Recv from network (no post thread needed) Primitives, /*Direct=*/0, Proto> prims(tid-tidStartBcast, nThreadsBcast, &tree->out, nullptr, args->sendbuff, args->recvbuff, args->coll.redOpArg, group); for (ssize_t gridOffset = 0; gridOffset < size; gridOffset += loopSize) { ssize_t offset = gridOffset + (bid*tree->nHeads+tree->headRank)*chunkSize; int nelem = min(chunkSize, size-offset); prims.recv(offset, nelem, /*postOp=*/true); } } } } }; template struct RunWorkElement { __device__ __attribute__((noinline)) void run(ncclWorkElem *args) { runRing(args); } }; template struct RunWorkElement { __device__ __attribute__((noinline)) void run(ncclWorkElem *args) { runTreeUpDown(args); } }; template struct RunWorkElement { __device__ __attribute__((noinline)) void run(ncclWorkElem *args) { LAUNCH_CLIQUE_KERNEL(AllReduceCliqueSplitKernel, RedOp, T, args); } }; template struct RunWorkElement { __device__ __attribute__((noinline)) void run(ncclWorkElem *args) { LAUNCH_CLIQUE_KERNEL(AllReduceCliqueSplitKernel, RedOp, T, args); } };