HPE 為美國能源部 建造超級電腦「Discovery」、AI 叢集「Lux」系統

美國能源部(DOE)旗下的橡樹嶺國家實驗室(Oak Ridge National Laboratory, ORNL)長期肩負 高效能運算(HPC)、AI 研究與科學探索的重要使命。隨著科研需求日益增加,實驗室面臨龐大數據處理、AI 模型訓練與量子計算的挑戰。尤其是跨領域科學研究,包括 精準醫療、癌症研究、核能、航太 等應用,需要極高運算能力與安全可靠的資源管理。

在此背景下,DOE 決定建置 次時代百萬兆級超級電腦「Discovery」AI 叢集「Lux」,以支援科研創新、推進生成式 AI 應用,並保持美國在 HPC 與 AI 技術 的領導地位。

⚠️ 痛點與 AI 導入動機

運算需求與資源分散

橡樹嶺國家實驗室的 Frontier 超級電腦雖已突破百萬兆級運算門檻,但面對 多模態 AI 訓練、分散式科研任務,資源分配與運算彈性仍存在瓶頸。科研人員需要同時存取 GPU 與 CPU 資源,並在多租戶(multi-tenant)環境下共享運算平台,以支援不同領域的 AI 與 HPC 計算需求。

資料存取與治理挑戰

科研資料龐大且高度敏感,必須確保 資料完整性與安全性,外部雲端服務難以完全滿足機密性與合規需求。此外,AI 模型訓練與推論需要快速存取大規模資料,傳統 HPC 架構難以同時兼顧 高效能運算與安全管理

流程與科研效率壓力

跨學科合作、生成式 AI 訓練以及大規模科學模擬流程複雜,手動管理耗時且容易出錯。科研人員需快速部署模型並取得運算資源,若缺乏整合式平台,將影響 科研產出與突破速度

基於上述痛點,DOE 選擇 HPE 建置 Discovery 與 Lux 系統,結合 HPE Cray Supercomputing GX5000、ProLiant Compute XD685 與分散式儲存系統 K3000,在 本地算力 上打造可持續擴展、兼顧 HPC 與 AI 的下一代運算平台,目標提升 科研效率、AI 訓練與推論能力,同時保障 資料安全與多租戶管理


⚙️ 技術與硬體選擇首要考量

Discovery:次世代百萬兆級超級電腦

Discovery 採用 HPE Cray Supercomputing GX5000 平台,統一 AI 與 HPC 架構,簡化全站點及分散式叢集的運作。搭配 HPE Cray Supercomputing Storage K3000,內建 分散式非同步物件儲存(DAOS),支援高效資料讀寫與大規模 AI 模型訓練,預計可將特定應用程式的生產力提升十倍

Lux:專用 AI 叢集

Lux 採用 HPE ProLiant Compute XD685,搭載 AMD Instinct MI355X GPU、AMD EPYC CPU 與 AMD Pensando™ 網路,並採 直接液冷式(Direct Liquid Cooling) 設計,確保長時間高效運算穩定性

Lux 支援 將以雲端般的存取方式支援多租戶 連接 主權 AI 工廠(sovereign AI factory),讓採購者、IT決策者更能理解雲+在地混合資料主權租戶結構的重要性。

GX5000 平台:空間與能源效率

HPE Cray Supercomputing GX5000 相較於前代系統,GX5000 在密度與機櫃佔用上降低了約 25%不僅節省機房空間,也減少冷卻與能源成本

結合全新的分散式非同步物件儲存(DAOS)架構高效散熱設計,GX5000 能在高負載運算下維持穩定效能,同時降低整體能源消耗。對於追求 ESG 永續策略及成本效益的政府、科研單位與大型企業資料中心而言,這類空間與能源效率的優化,直接影響長期運行成本與可持續性規劃。

核心設計考量
  • 效能穩定:兼顧 HPC 與生成式 AI 訓練需求,避免運算瓶頸
  • 資料安全與治理:本地算力與分散式儲存確保敏感科研資料安全
  • 資源共享:多租戶雲端環境讓科研人員可依需求快速部署模型
  • 延展性與可持續性:平台可隨科研需求擴充 GPU/CPU 與存儲資源

🚀 目前成效與未來展望

Discovery 與 Lux 系統已確立橡樹嶺國家實驗室的 HPC 與 AI 領導地位

  • Discovery 提供 百萬兆級運算能力,加速精準醫療、癌症研究、核能與航太領域科研突破
  • Lux 支援 生成式 AI 訓練與推論,科研人員可像雲端使用平台般存取資源,提升 模型訓練與資料分析效率
  • 平台整合 HPC 與 AI,使科研工作流程簡化,從資料存取、模型訓練到結果分析更高效
  • 多租戶、分散式儲存與液冷伺服器確保 長期穩定運作與資料安全

展望未來,Discovery 與 Lux 將持續作為美國科研的 核心基礎設施,支持 AI、HPC 與量子運算 的深度整合,推動科學研究、能源創新與國家安全領域的突破,確保美國在 超級運算與 AI 技術 的全球領導地位。



透過 HPE 為 DOE 建置的 Discovery 百萬兆級超級電腦Lux AI 叢集,科研人員得以在安全可靠的本地算力環境中,加速 生成式 AI 訓練、高效能運算與科研創新。這不僅標誌著 HPC 與 AI 技術的深度融合,更為全球科研設施提供了可借鏡的 多租戶 AI 與超級運算平台範例

報導來源:
經濟日報 https://hpe.pse.is/8b4u84
CXOinsight https://hpe.pse.is/8b4u84

更多案例