can sparse all-reduce keep efficiency with large number of gpu workers？ #1140

Eiji911 · 2024-03-07T12:42:05Z

in my opinion, when the gpu cluster scaled up to several hundred workers, high sparsification ratios still generate significant communication overheads, which even worst than DenseAllReduce.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

can sparse all-reduce keep efficiency with large number of gpu workers？ #1140

can sparse all-reduce keep efficiency with large number of gpu workers？ #1140

Eiji911 commented Mar 7, 2024

can sparse all-reduce keep efficiency with large number of gpu workers？ #1140

can sparse all-reduce keep efficiency with large number of gpu workers？ #1140

Comments

Eiji911 commented Mar 7, 2024