RoCE基础知识学习(一)
RoCE是RDMA over Converged Ethernet的缩写,是一种基于以太网的RDMA技术,本文主要介绍RoCE的基础知识。RDMA是为了解决分布式计算中网络瓶颈的问题,提供了一种低延迟、高吞吐的无损网络方案。由于最近在进行交换机方案上的调研,所以先了解下交换机对于RoCE的支持主要做了什么。 最好奇的点是,RoCE是如何实现无损网络的,经过初步调研发现大部分是通过PFC和E...
RoCE是RDMA over Converged Ethernet的缩写,是一种基于以太网的RDMA技术,本文主要介绍RoCE的基础知识。RDMA是为了解决分布式计算中网络瓶颈的问题,提供了一种低延迟、高吞吐的无损网络方案。由于最近在进行交换机方案上的调研,所以先了解下交换机对于RoCE的支持主要做了什么。 最好奇的点是,RoCE是如何实现无损网络的,经过初步调研发现大部分是通过PFC和E...
最近在做网络拓扑架构的工作,阿里的HPN7.0的论文给了我一个样板,这里简单记录下阅读的心得。 背景 背景这块,HPN还是说了两个大家熟知的问题: 低熵导致哈希冲突严重 云网络中,单个流占NIC的带宽最大也就20%,而LLM训练则可以打满 LLM的网络模型是阶段性冲高的心跳模式 单点故障影响训练效率 单点故障...
不识茶 小的时候家人们不常喝茶,自己家里也没有茶,所以压根不知道什么叫做茶水。只有每次过年拜年会回去乡下,进门之后亲戚会用看起来很脏的一次性杯子,这个时候父母会说:“不用茶叶,不用茶叶”,亲戚会回:“那怎么行,要喝点茶”,这才知道这杯又烫又苦,里面还有草渣滓的东西叫做茶。我不明白这玩意到底是有什么魔力,为什么大人们要用这种水招待我们,只当是本地习俗,也没多想。 就是这种杯子 乡下招待客...
从逻辑回归到神经网络 上文学习了逻辑回归的基本计算方法,神经网络相当于是对逻辑回归模型的一个扩展。首先是纵向扩展,如图所示: 输入特征为$x_1, x_2$,偏置为$b$,第一层计算为: [z_1=x_1w^{[1]}_1+x_2w^{[1]}_2+b] [a_1=g(z_1)] 这里函数$g(x)$是激活函数,而上标表示第1层的参数。同理: [z2=x_1w^{[2]}_1+...
7月23日,meta发了Llama3.1的论文,通过huggingface,可以到meta最新博客的末尾找到论文的链接。 我主要关心其中基础设施相关的部分,尤其是和网络有关的地方,这里简单记录一下。 概述 在论文的3.3章节,Infrastructure, Scaling, and Efficiency,开始介绍他们这次训练使用的基础设施架构。这里主要就关注下网络部分。 网络架构 这...
动机 由于工作需要,以后的精力主要放在AI相关的领域上,尤其是现在大火的深度学习。我关注的领域是网络,目前深度学习对网络的需求还是非常苛刻的,苛刻的原因与深度学习的特性有关。为了让AI模型更加强大,模型使用了越来越大规模的参数,而超大规模的参数做矩阵乘法带来的超大计算量以及大量的GPU内存开销,让深度学习的系统不得不成为一个大型分布式系统。 当前深度学习训练过程依赖这个分布式系统,而当前的训...
我这里的提的工作日报是辅助自己工作的,而非向上汇报的 给自己的工作日报 工程师的工作远不只是写写程序那么简单,太多太多的烦心事会一个接着一个来,比如:突发会议,现网紧急事故,团队文化建设,一次团队合影,等等。当然,很多人都会认为这些非生产的都是浪费时间,毕竟做这些事情并不能再自己的简历或者工作汇报PPT中增加光彩,也不能让你收获“改变世界”的情绪快乐。然后现实就是这些都是必须的,你必须...
为什么要写博客 以前总是想写博客,在读书那会儿搞ACM/ICPC竞赛的时候写过一些,那会儿放在百度空间里,都是解题思路分享,后来百度空间关了,就再也没写过。工作也有十年了,一直在做技术,经常给自己的同事分享经验、好用的工具、工作生存技巧等,但是从未白纸黑字的写下来。偶尔看到一篇文章,谈的是什么是兴趣爱好,说的是为什么很多人对外总说自己的爱好是旅游,睡觉等等,提到了爱好的门槛以及爱好的深度。其...