面向大模型時代的網(wǎng)絡(luò)基礎(chǔ)設(shè)施研究:挑戰(zhàn)、階段成果與展望
計算機研究與發(fā)展
頁數(shù): 14 2024-11-15
摘要: 擁有千億級別參數(shù)的大語言模型(large language model,LLM)已為今天的人工智能和云服務(wù)帶來了巨大的技術(shù)和商業(yè)變革.然而,大模型訓(xùn)練與傳統(tǒng)的通用云計算(例如,亞馬遜EC2彈性計算服務(wù))之間存在較多根本性的網(wǎng)絡(luò)行為差異,從而帶來了很多新的挑戰(zhàn),主要包括流量模式差異造成負(fù)載難均衡(挑戰(zhàn)1)、多訓(xùn)練任務(wù)通信競爭影響GPU利用率(挑戰(zhàn)2),以及對網(wǎng)絡(luò)故障的高敏感性(挑... (共14頁)
AI基礎(chǔ)設(shè)施大語言模型大模型模型訓(xùn)練數(shù)據(jù)中心網(wǎng)絡(luò)集合通信通信調(diào)度