Servers in a data center

가장 빠른 슈퍼컴퓨터에서 데이터 센터 관리자가 배울 수 있는 4가지

길거리의 평범한 사람들에게 슈퍼컴퓨터가 무엇인지 아느냐고 물어보면 대다수의 사람들은 인기 영화에 나오는 장면을 말할 것이고 대체로 그러한 장면들은 범죄 활동과 관련한 것일 수 있습니다. HAL 9000(2001 스페이스 오디세이)에서부터 영화 아이로봇의 비키까지 그리고 심지어 영화 터미네이터의 스카이넷에 이르기까지 대중 문화에서는 슈퍼컴퓨터를 진화하여 인류에 대항하는 지각 있는 시스템으로 표현합니다.

로렌스 리버모어 국립연구소 또는 국립기상청의 연구자들에게 이런 영화내용을 말하면 이들은 웃으며 나가달라고 말할 것입니다. 사실 오늘날의 슈퍼컴퓨터는 자기인식과는 거리가 멀고, 유일한 AI는 실제로 거대한 데이터 세트를 스캐닝하는 과장된 검색창일 뿐입니다.

오늘날, 슈퍼컴퓨터는 수많은 애플리케이션이 선도적으로 발전할 수 있도록 동력을 제공하고 있습니다: 이러한 분야로는 석유 탐사 및 가스 탐사에서 기상 예보, 금융시장, 신기술 개발까지 다양합니다. 슈퍼컴퓨터는 컴퓨터계의 람보르기니 또는 부가티와 같은 존재이며, Kingston은 컴퓨팅의 한계를 초월하는 발전에 집중하고 있습니다. DRAM 활용 및 조절에서 스토리지 어레이의 관리를 위한 펌웨어 발전, 심지어 최고값이 아니라 일관된 전송 및 지연속도에의 초점에 이르는 Kingston의 기술은 최첨단 슈퍼컴퓨팅에 상당한 영향을 미치고 있습니다.

이와 마찬가지로 클라우드 및 온프레미스 데이터 센터 관리자들은 인프라를 설계하고 관리하는 데 있어 그리고 대대적인 변화없이 향후 발전에 대비할 최고의 구성품을 선택하는 데 있어 슈퍼컴퓨팅으로부터 많은 것을 배울 수 있습니다.

빛나는 선으로 네트워크를 나타내는 서버
1. 슈퍼컴퓨터는 특수 설계된 일관성

대부분의 클라우드 컴퓨팅 플랫폼과 달리, 예를 들어 아마존의 웹서비스 또는 마이크로소프트의 애저는 공유 자원 및 인프라 활용을 위한 다양한 애플리케이션에 동력을 제공할 수 있도록 설계된 것과는 다르게, 슈퍼컴퓨터는 특정 요구사항에 맞추어 특수 설계되었습니다. 세계에서 가장 빠른 슈퍼컴퓨터의 탑 500 리스트에 관한 최신 업데이트는 설치의 위치 및 속도 뿐만 아니라 애플리케이션의 일차 필드를 중심으로 이루어졌습니다.

슈퍼컴퓨터 상위 12개 중 11개가 에너지 연구, 핵실험 및 국방 애플리케이션 전용으로 설계되었습니다. 유일하게 다른 용도의 슈퍼컴퓨터로는 국립과학재단(NSF)이 자금을 지원하고 미국 텍사스주립대학교의 텍사스 첨단 컴퓨팅 센터에서 개발한 새로운 페타 단위의 컴퓨팅 시스템인 프론테라(Frontera)가 있으며, 이는 과학 및 공학 연구 협력자를 위한 학술 용도로 사용됩니다. 탑 500 리스트 중 다음 순위의 슈퍼컴퓨터 20개 거의 모두가 국가 방위 및 정보 애플리케이션 전용으로 설계되었습니다. 탑 500 리스트에 오른 30위에서 50위 사이의 슈퍼컴퓨터는 대체로 기상 예보 전용입니다. 최고 100개의 슈퍼컴퓨터 중 마지막 50개는 기업용 컴퓨팅(NVIDIA, 페이스북 등), 중기 기상예보, 우주 개발 프로그램, 석유 및 가스 탐사, 학술 및 특정 정부 용도로 복합적으로 사용됩니다.

이런 슈퍼컴퓨터는 범용으로 사용될 수 없습니다. 이런 슈퍼컴퓨터는 인텔, 크레이, 휴렛팩커드, 도시바 및 IBM 등의 컴퓨터 제조업제가 맞춤형으로 개발하였고 특정 데이터세트에서 동기 또는 비동기 연산으로 특수한 유형의 계산을 수행할 수 있습니다.

이 슈퍼컴퓨터는 허용가능한 지연 임계값을 설정합니다:

  • 수백만 개의 프로세싱 코어를 사용하는 컴퓨팅 자원을 사전 설정합니다
  • 18,000에서 200,000 테라플롭(teraFLOP) 사이의 클록 속도를 구현합니다.

스토리지 용량은 엑사바이트로 측정되었고, 이는 현대 데이터 저장소의 페타바이트를 훨씬 뛰어넘는 수준입니다.

프론테라와 같은 시스템은 최고 연산 부하를 단시간에 고속으로 수행하는 것이 아니라, 그 대신 방대한 양의 데이터를 일관된 속도로 판독하여 일정한 결과를 도출합니다. 연산 성능이 급증하면 실질적으로 결과에 오류를 유도할 수 있으므로 성능의 일관성이 중요합니다.

오늘날의 데이터 센터 관리자들이 가장 먼저 질문해야 할 것은 “이 시스템으로 무엇을 할 것인가?”이며 이는 자원을 계획하고 관리하여 예측가능한 안전장치를 내장하기 위함입니다. 여러 대의 가상 데스크톱을 실행하는 데이터 센터를 관리한다는 것은 911 콜센터 또는 항공 교통 관제 시스템을 관리하는 것과는 전혀 다릅니다. 각각의 가상 데스크톱은 요구사항, 수요, 서비스 레벨 계약 및 예산이 서로 다르므로 각각의 사항에 맞추어 설계되어야 합니다.

마찬가지로, 맞춤형 설계를 요구하지 않고 일관된 성능을 달성하는 방법을 연구해야 합니다. 아마존, 구글 및 마이크로소프트와 같은 기업들은 맞춤형 스토리지 또는 컴퓨팅 인프라를 설계할 수 있는 예산을 세웠다 하더라도, 서비스 제공업체의 대다수는 상용 소프트웨어를 선택하는 데 있어서 보다 꼼꼼해야 합니다.

따라서 보다 많은 데이터 센터 관리자는 QoS를 다루는 성능 벤치마크에 대한 엄격한 기준을 설정하고, 연산 속도 및 지연 시간은 물론 일관성도 상당히 강조해야 합니다.

빛나는 선으로 네트워크를 나타내는 서버
2. 서버의 실시간은 서로 다릅니다

슈퍼컴퓨팅 애플리케이션을 이용하는 대부분의 실시간 데이터에는 중요한 의미가 담겨있습니다. 핵 반응 중단에서 로켓 발사를 위한 원격 측정 데이터에 이르기까지 이에 관한 데이터 세트가 방대하므로 연산 지연으로 인한 영향은 치명적입니다. 이런 데이터 스트림은 단일한 소스에서 유입되는 것이 아니라 노드를 보고하는 네트워크에서 전달됩니다.

그러나 데이터의 수명은 짧습니다. 실시간 피드를 이용하는 대부분의 데이터는 장기적으로 보관되지 않습니다. 데이터는 순차적 쓰기 및 덮어쓰기를 위한 유통기한 동안 작성하고 덮어쓰기합니다. 실시간 데이터는 항상 변화하고, 애플리케이션의 모든 것이 처음부터 저장될 필요는 없습니다. 배치에서 데이터를 처리하고 연산하여 결과를 도출하고(데이터는 평균, 통계적 모델 또는 알고리즘이 있음) 바로 이 결과를 보관합니다.

그 예로 미국 국립 해양 대기청(NOAA)의 슈퍼컴퓨터 예보를 들 수 있습니다. 기상 요인은 항상 계속해서 변화하며 여기에는 강수량, 기온 및 지온, 기압, 일일시간, 태양 효과, 바람과 바람의 지형에 대한 영향 등이 있습니다. 이런 기상 요인은 매순간 변하며 정보가 실시간으로 유입됨에 따라 보고됩니다. 그러나 NOAA 산하의 국립 기상청(NWS)은 기본 데이터를 영구적으로 필요로 하지 않습니다. 필요한 것은 예측 모델입니다! 글로벌 예측 시스템(GFS) 모델이 정착하자 새로운 데이터가 이 시스템의 처리를 거치게 되어 보다 정확하고 향상된 예측이 가능하게 되었습니다.

더구나, NWS에서 데이터를 수신하여 공유하는 국내 기상학자들은 글로벌 기상 데이터 세트 전체를 사용할 필요가 없습니다. 기상학자들은 모델을 국내 지역으로 제한하기만 하면 됩니다. 이런 제한을 통해 기상학자들은 NWS 데이터를 국내 기상 관측소에 보충하여 미기후에 대한 통찰력을 제공하며 특정 배치별로 보다 정확한 국내 예측을 가속하여 결과를 도출하고(데이터는 평균, 통계적 모델 또는 알고리즘이 있음) 바로 이 결과를 보관합니다.

이동 평균을 사용하는 주식거래 또는 금융 모델의 경우에도 마찬가지이며, 이들 각각에는 고유한 표시기와 행동 계기가 내장되어 있으며 이는 허용가능한 시장 행동 한계치에 대한 고유한 매개변수에 기반합니다. "실시간" 데이터를 사용하는 시스템을 설계 시에 시스템이 입력하는 모든 것을 저장할 필요는 없으나 비휘발성 랜덤 엑세스 메모리(NVRAM)와 동적 램덤 엑세스 메모리(DRAM)를 사용하여 전송 중인 데이터를 처리하고 캐시에 저장한 후에 연산된 결과물을 스토리지에 전달해야 합니다.

회로 트레이스에 빛이 나는 플래시 메모리 칩 사진
3. 지연 한계치, NAND 플래시 및 DRAM 조절

애플리케이션 요구사항으로 인해 대부분의 지연 한계치가 설정됩니다. 무역 분야에서라면 수초는 수십억 달러는 아니더라도 수백만 달러를 의미합니다. 기상 예보 및 허리케인 추적의 경우 뉴올리언스 또는 휴스턴의 대피를 결정하는 데에 중요합니다.

슈퍼컴퓨터는 연역적 부담 서비스 수준에서 작동하고, 이 서비스 수준에는 지연, 연산 리소스, 스토리지 또는 광대역이 있습니다. 대부분은 실패 인지 컴퓨팅 방법을 사용함으로써 시스템이 최적의 지연 조건(𝛱+Δ최대 클럭킹에 기반)에 대한 데이터 스트림을 재설정하여 비동기 컴퓨팅 모델로 전환하거나 연산 리소스의 우선순위를 정하여 작업에 대한 처리력 또는 광대역을 충분히 전달합니다.

최고급 워크스테이션, 강철 서버 또는 HPC 및 과학적 워크로드를 사용하여 작업하는 것과 관계없이 대형 컴퓨터 및 빅데이터는 방대한 DRAM 로드아웃이 요구됩니다. 텐허2(Tianhe-2)와 같은 슈퍼컴퓨터는 특수 가속기 카드가 결합된 거대한 RAM 로드아웃을 사용합니다. 슈퍼컴퓨팅이 하드웨어와 컨트롤러 프레임워크를 미세조정하는 방식은 애플리케이션 설계에 고유합니다. 종종 특수한 연산작업에서 디스크 액세스 시에 RAM 요구 사항으로 인해 심각한 병목현상이 발행하여 DRAM의 실용성이 떨어지지만 NAND 플래시에 적합할 정도로 충분히 작아집니다. 또한 FPGA 클러스터는 각각의 특정 워크로드에 맞게 추가적으로 조정되며 이 클러스터가 기존의 데이터를 사용하여 데이터를 불러와야 할 경우 거대한 데이터 세트의 성능은 상당한 타격을 입게 됩니다.

유타대학교, 로렌스 버클리 연구소, 서던캘리포니아대학교 및 아르곤 국립연구소의 합동 연구팀은 아키텍처 간의 성능의 이동성을 제공하는 효과적인 수단으로 자동 성능 조정(또는 자동 조정)을 위한 새로운 모델을 확립하였습니다. 최적의 성능을 구현할 수 있는 컴파일러에 기반하기보다는 더욱 새로운 멀티코어 아키텍처에 기반하는 자동 조정된 커넬 및 애플리케이션은 타켓 CPU, 네트워트 및 프로그래밍 모델을 자동 조정할 수 있습니다.

헬멧을 쓴 IT 기술자가 노트북을 들고 천정형 영상표시기 앞에 서 있는 사진
4. 다중 보호장치

HPC 데이터 센터 내에서 에너지를 분배하는 것이 점점 어려워지고 있으며 특히 인프라를 공동의 자원으로 사용할 경우에 더욱 그렇습니다. 전용 또는 서비스 준비가 된 인프라에서 데이터 센터는 지속적인 작동을 보장하고 정전, 최고 수요의 급등 또는 변화가 발생한 경우 취약한 하드웨어 구성품에 손상을 가할 위험을 감소시켜야 합니다.

아키텍처는 복합적인 손실 분산 변압기를 사용합니다:

  • DC 전력 분산 및 UPS 백업
  • 삼중발전(열을 이용하여 전기를 생산한 후 백업에 저장)
  • 적극적인 모니터링
“자주 저장하기”는 모든 애플리케이션의 핵심사항이고 "백업"이 작동 기준이 되고 있는 데이터 센터에서도 핵심사항입니다.

현재 대부분의 데이터 센터는 높은 수준의 RAID 구조를 통해 작동하여 스토리지 어레이 전반에서 지속적이고 거의 동시적인 쓰기를 보장합니다. 또한 HPC 인프라는 고용량의 NVRAM를 사용하며 처리 중에 있는 데이터를 캐시에 숨기는데 이런 데이터는 스토리지 어레이 전반에서 불러올 수 없는 데이터의 실시간 스트림이거나 스크래치 디스크 방식의 용도를 생성하는 병행 처리된 정보로 추가적인 연산 리소스를 제공합니다. 위에서 언급한 프론테라 시스템은 50PB의 총 스크래치 용량을 사용합니다. 초광대역 또는 IOPS 요건을 사용하는 사용자는 전체 NVMe(non-volatile memory express) 파일 시스템의 할당을 요청할 수 있고 이 시스템의 대략적인 용량은 3PB이고 광대역은 ~1.2TB/s입니다.

저장용 영구 RAID 백업과 NVMe 버퍼의 지속적인 캐싱은 장치의 컨트롤러 및 원격 저장/백업을 위한 전체를 이용할 수 있거나 준비된 광대역에 대한 총 I/O 한계치에 기반합니다.

대부분의 HPC 인프라는 스피닝 드라이브를 사용하여 고체 상테 어레이와 플래시 스토리지 블록으로 완전히 이동하므로 하드웨어가 고장날 가능성이 없습니다. 이러한 스토리지 솔루션은 지속적인 IOPS를 제공하고 애플리케이션별 지연 한계치 내의 지연을 예측할 수 있습니다. 또한 많은 슈퍼컴퓨터는 여러 테이프 라이브러리(엑사바이트 이상으로 확대 가능한 용량임)를 사용하여 처리되고 저장된 모든 데이터를 신뢰가능하게 기록할 수 있습니다.

많은 슈퍼컴퓨터는 체인에서 결함이 발생할 경우 정전(PFail) 캐패시터(P-Cap) 또한 전력 손실 방지(PLP) 라벨을 SSD 및 DRAM에 표시하도록 합니다. P-Cap을 이용하여 드라이브(독립적 또는 어레이 전반)는 처리 중 읽기를 완료하여 심각한 고장 발생 시 데이터 손실 예상량을 감소시킵니다.

결론

다시 말하자면 맞춤형은 슈퍼컴퓨팅계의 핵심이지만 각자의 필요사항을 파악하는 것은 데이터 센터 구축 시 그리고 가장 일관된 유형의 성능을 달성하기 위한 첫 걸음입니다. 데이터 센터의 규모와 관계 없이 왜 데이터를 생성하고, 저장하고 공유하는 데 있어서 각자의 필요사항을 파악하는 것이 슈퍼컴퓨터 측면에서 중요하지 않다고 생각하는 것일까요? 이러한 요소를 평가함으로써 설계자는 심지어 상용 구성품으로 고성능 인프라를 설계하여 향후 발전에 준비할 수 있습니다.

#KingstonIsWithYou

관련 기사