중국, 1.54엑사플롭스 'LineShine' 슈퍼컴퓨터로 미국 GPU 금지 조치 우회
#Hardware#Tom's Hardware

중국, 1.54엑사플롭스 'LineShine' 슈퍼컴퓨터로 미국 GPU 금지 조치 우회

2026. 5. 17. 오후 8:00:00·예상 읽기 4

Quick Brief

선전에 있는 중국 국립슈퍼컴퓨팅센터는 일본의 Fugaku 슈퍼컴퓨터와 Fujitsu의 A64FX 프로세서를 기반으로 Armv9 기반 LineShine LX2 CPU를 기반으로 LineShine 슈퍼컴퓨터를 구축했습니다.

Full Story

오늘날 대다수의 주요 슈퍼컴퓨터와 AI 클러스터는 범용 작업과 오케스트레이션을 위해 CPU를 사용하고 대규모 병렬 컴퓨팅 워크로드를 위해 AI GPU를 사용하여 예외적으로 높은 ExaFLOPS급 성능을 달성합니다.그러나 중국에서는 다른 추세가 나타나고 있습니다. 최근 몇 년 동안 AI 및 HPC 워크로드를 위해 다수의 CPU 전용 슈퍼컴퓨터를 배포했습니다. 이는 주로 미국의 GPU 금지 조치로 인해 슈퍼컴퓨터에 대한 충분한 조달이 불가능했기 때문입니다.예를 들어, 중국의 국립 슈퍼컴퓨팅 센터(National Supercomputing Center)는 최근 20,480개의 Armv9 기반 CPU를 사용하는 1.54 ExaFLOPS급 시스템을 배포했습니다.

LineShine 슈퍼컴퓨터는 대규모 AI 및 HPC 워크로드를 위해 특별히 설계된 맞춤형 Armv9 기반 LX2 프로세서를 기반으로 합니다.선전에 있는 중국 국립슈퍼컴퓨팅센터(NSCC)는 LX2 CPU 개발자를 공개하지 않았지만 Jon Peddie Research의 Jon Peddie는 이를 'Huawei LX2' 프로세서라고 노골적으로 부르고 있습니다.한편, CPU는 맞춤형 Huawei HPC CPU, NSCC/Huawei 공동 설계 또는 완전히 별개의 중국 정부 지원 HPC 프로세서 개발자일 수 있습니다.

각 LX2 프로세서는 2개의 컴퓨팅 칩렛을 사용하며 각각 38개의 코어를 포함하는 8개의 CPU 클러스터로 구성된 총 304개의 CPU 코어를 갖습니다.모든 코어에는 FP64, FP32, BF16, FP16 및 INT8 데이터 형식을 지원하는 AI 훈련 및 과학 컴퓨팅에 사용되는 벡터 및 행렬 연산을 가속화하는 Arm SVE(Scalable Vector Extension) 및 SME(Scalable Matrix Extension) 장치가 포함되어 있습니다.각 코어에는 32KB L1 명령 캐시와 32KB L1 데이터 캐시가 장착되어 있으며 모든 클러스터는 28.5MB L2 캐시를 공유합니다.

프로세서는 최대 4TB/s의 대역폭과 최대 256GB의 오프패키지 DDR5 메모리를 제공하는 32GB 온패키지 HBM을 결합한 매우 특이한 메모리 하위 시스템을 사용합니다.유사한 메모리 하위 시스템이 Fugaku 슈퍼컴퓨터를 구동하는 Fujitsu의 Arm 기반 A64FX 프로세서에서 사용되었지만 LX2는 아마도 이러한 메모리 하위 시스템을 사용하는 AI 및 HPC용 업계 최초의 Armv9 기반 CPU일 것입니다.

각 칩렛에는 4개의 HBM 도메인과 4개의 DDR 도메인이 포함되어 있습니다.프로세서당 16개의 NUMA 도메인이 있습니다.HBM 액세스는 지역성에 매우 민감한 반면, DDR 메모리 액세스는 다이 내에서 더 균일하고 클러스터 간에 공유됩니다.이러한 동작으로 인해 개발자는 DDR과 HBM 간에 데이터를 이동하기 위해 전용 SDMA 엔진에 의해 실행되는 토폴로지 인식 메모리 배치 및 스케줄링 기술(AI 교육에 특히 유용함)을 설계해야 했습니다.

성능 측면에서 단일 LX2 프로세서는 60.3 TFLOPS FP64 성능, 240 TFLOPS BF16/FP16 처리량 및 960 TOPS INT8 성능을 제공합니다.기존 서버 CPU와 달리 이 아키텍처는 CPU 중심 설계를 유지함에도 불구하고 밀도가 높은 AI 및 매트릭스 워크로드에 크게 최적화된 것으로 보입니다.이 논문에서는 SME 매트릭스 엔진의 높은 활용도를 유지하려면 커널의 광범위한 공동 설계, 런타임 스케줄링, 캐시 상주 관리, HBM 및 DDR 계층 전반에 걸친 텐서 배치가 필요하다고 지적합니다.

Related

관련 글