特斯拉,超详细解读Dojo芯片

2025-06-08 13:03:58 来源:证券之星    阅读量:11014   

公众号记得加星标??,第一时间看推送不会错过。

在大型处理器上检测故障核心并将其禁用是一项挑战,但特斯拉开发了 Stress 工具,该工具不仅可以在 Dojo 处理器上检测容易出现静默数据损坏的核心,还可以在拥有数百万个核心的 Dojo 集群中检测核心,而无需将其离线。这项功能至关重要,因为特斯拉表示,单个静默数据错误就可能毁掉需要数周才能完成的整个训练过程。

特斯拉的 Dojo 是目前全球最大的两款处理器之一。这些巨大的晶圆级芯片使用整块 300 毫米晶圆,这意味着一次性构建更大的计算能力根本不可能。每个 Dojo 晶圆级处理器最多可容纳 8,850 个核心,但其中一些核心在部署后可能会引发静默数据损坏 ,从而破坏大规模训练运行的结果。

大型处理器

鉴于 Dojo Training Tile的极端复杂性,即使在制造过程中也不容易检测到有缺陷的芯片,但是当涉及到静默数据损坏(SDC)时,事情会变得更加复杂。

请记住,所有类型的硬件都不可避免地会出现 SDC,但 Dojo 处理器的电流消耗高达 18,000 安培,功耗高达 15,000 瓦,这会产生影响。不过,所有核心都应该按预期运行,否则特斯拉的 AI 训练将变得更加复杂,因为数据损坏导致的一个错误就可能使数周的 AI 训练付诸东流。

特斯拉将每个晶圆级 Dojo 处理器称为“训练块”。每个训练块包含 25 个 645 平方毫米 D1“芯片”,这些芯片具有 354 个定制的 64 位 RISC-V 内核,配备 1.25 MB SRAM 用于数据和指令,这些内核以 5×5 集群的形式组织,并使用具有 10 TB/s 定向带宽的机械网络互连。

每个 D1 还支持 4 TB/s 的片外带宽。因此,每个“训练块”包含 8,850 个内核,支持 8 位、16 位、32 位或 64 位整数以及多种数据格式。特斯拉使用台积电的 InFO_SoW 技术封装其晶圆级 Dojo 处理器。

需要适当的维护

为了应对核心故障风险,特斯拉首先部署了一种差分模糊测试技术。该初始版本需要生成一组随机指令,并将相同的序列发送到所有核心。执行后,会比较输出以查找不匹配项。然而,由于主机和 Dojo 训练模块之间的通信开销巨大,该过程耗时过长。

为了提高效率,特斯拉改进了该方法,为每个核心分配一个由 0.5 MB 随机指令组成的独特有效载荷。核心不再与主机通信,而是在 Dojo 训练模块内相互检索有效载荷并依次执行。这种内部数据交换利用了 Dojo 训练模块的高带宽通信,使特斯拉能够在显著缩短的时间内测试约 4.4 GB 的指令。

随后,特斯拉进一步增强了该方法,允许内核多次运行每个有效载荷,而无需在每次运行之间重置其状态。这项技术为执行环境引入了额外的随机性,使得原本可能无法检测到的细微错误得以暴露。该公司表示,尽管执行次数有所增加,但与检测可靠性的提升相比,速度下降微不足道。

另一项改进是使用 XOR 运算定期将寄存器值集成到指定的 SRAM 区域,这将识别有缺陷的计算单元的概率提高了 10 倍,而不会显著降低性能。

不仅在处理器层面

特斯拉的方法不仅适用于 Dojo 训练模块级别或 Dojo Cabinet 级别,还适用于 Dojo Cluster 级别,使该公司能够从数百万个活动核心中识别出故障核心。

报告称,经过适当调整后,压力监控系统在 Dojo 集群中发现了大量存在缺陷的核心。不过,检测时间的分布差异很大。大多数缺陷是在每个核心执行 1 GB 到 100 GB 的有效载荷指令后发现的,这相当于几秒到几分钟的运行时间。更难检测的缺陷可能需要 1000 GB 以上的指令,这意味着需要几个小时的执行时间。

值得注意的是,特斯拉的压力测试工具运行轻量级且独立于核心内部,因此它可以在后台进行测试,而无需核心离线。显然,只有被识别为故障的核心才会被禁用,即使如此,每个 D1 芯片也能容忍少数核心被禁用,而不会影响整体功能。

识别设计缺陷

特斯拉还提到,除了检测到故障核心外,压力工具还发现了一个罕见的设计级缺陷,工程师们通过软件调整成功解决了该缺陷。在监控系统更广泛的部署过程中,还发现并纠正了低级软件层中的几个问题。

目前,Stress 工具已完全集成到 Dojo 集群中,用于在 AI 主动训练期间对硬件健康状况进行现场监控。该公司表示,通过此监控观察到的缺陷率与Google和 Meta 发布的缺陷率相当,这表明该监控工具和硬件与其他公司使用的水平相当。

在后硅和前硅阶段

特斯拉目前计划利用其压力测试获得的数据来研究硬件因老化而导致的长期性能下降。此外,该公司还计划将该方法扩展到硅片投产前的测试阶段和早期验证工作流程,以便在生产前就能发现上述故障。尽管由于老化可能导致系统缺陷 ,因此很难想象如何实现这一目标。

思考

开发和制造晶圆级处理器是一项极其复杂的任务,业内只有两家公司——Cerebras 和 Tesla——完成了这项任务。与其他处理器一样,这些设备容易出现缺陷和性能下降;然而,Tesla 开发了自己的方法,可以在不让处理器核心下线的情况下识别故障处理器核心,这凸显了其取得的重大进展。

为 Cerebras 和特斯拉制造这些巨型处理器的台积电 表示,未来几年 将有更多公司采用其 SoIC-SoW 技术的晶圆级设计。显然,业界正在为此做准备,并积累经验。一点一点地。

今天是《半导体行业观察》为您分享的第4059期内容,欢迎关注。

加星标??第一时间看推送,小号防走丢

求推荐

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。


Es916
相关推荐
和讯投顾郭利:大科技板块全线大涨,下周上车机会聚焦四个方向

6月7日,和讯投顾郭利称,本周大科技板块全线大涨,下周上车机会聚焦四个方向。通信设备板块,日线中枢震荡向上,本周关键K线后,回踩5日均线即现机会,30分钟级别关注回调点,预计周二可进场...

2025-06-08 12:21:43
山西省印发《新时代“三晋银龄行动”实施方案》

我省印发《新时代“三晋银龄行动”实施方案》 近日,我省印发《新时代“三晋银龄行动”实施方案》,鼓励引导老年人老有所养、老有所乐、老有所为,通过开展智力援助和参与基层治理、社会服务,积...

2025-06-08 10:53:18
热点图定位精彩,十大线路玩转重庆盛夏

盛夏的重庆 青山叠翠,两江奔涌 这座山水之城、美丽之地 以最炽热的姿态 向广大游客发出盛情邀约 邀您共赴一场夏日文旅盛宴 2025年重庆夏季避暑纳凉热点图 荷花不仅是自然...

2025-06-08 09:52:51
“政企学研”多方协同联动,探索低空经济产教融合的创新实践

6月6日,2025低空经济产业产教融合新生态论坛暨低空经济产业学院揭牌仪式在上海中侨职业技术大学举行。作为上海市唯一一所进入全国本科层次职业教育试点的大学,中侨大学正依托其独特的区位和...

2025-06-08 07:07:50
张江这一火爆全网的古风沉浸式非遗游园会中心焕新归来

随着典仪官一声响亮的“开市咯”,去年火爆全网的张江镇古风沉浸式非遗游园会今天在张江镇党群服务中心焕新归来,共吸引到超千名游客共同参与。 本次游园会沿用“趣游张江·梦夏拾遗”的主题,旨...

2025-06-08 06:52:04
南京建邺:瑞芝康健居家养老服务中心正式投运

6月6日,南京市建邺区沙洲街道中奥社区瑞芝康健居家养老服务中心在新址正式投入运营,并迎来了首批参观体验的居民。开业当天,现场热闹非凡,锣鼓声此起彼伏,老人们纷纷拍手称赞:“吃饭不用愁了...

2025-06-07 22:41:06
今年上海的语文作文题难吗?沪上高校学者、一线老师最新解读

东方网记者项颖知6月7日报道:“文章由‘专’到‘传’,必定要经过‘转’吗?”面对这样一道作文题你会怎么写?2025年上海高考今日开考,?作文题中午由市教育考试院公布后很快引发热议。不少...

2025-06-07 20:59:13
你对广东“荔”量一无所知

去年被荔枝价格背刺的小伙伴们,今年“日啖荔枝三百颗”的愿望,终于可以实现啦!作为荔枝界“顶流”,广东今年迎来大丰收,白糖罂、妃子笑已经登场,桂味、糯米糍紧随其后,仙进奉、冰荔压轴,从5...

2025-06-07 20:13:18