
|
2026.01.29 (수정 : 2026.02.02)
|
||||||||||||||||||||
|
02 네오클라우드 - AI 시대의 새로운 인프라 패러다임 │윤대균 아주대학교
1. 들어가며 급증하는 AI 워크로드를 실행하기 위한 인프라 확보는 AI 시대의 핵심 경쟁력을 좌우하는 최우선 과제로 대두되고 있다. 작게는 대학원 연구실이나 개인, 크게는 정부 차원에서 최우선 아젠다로 다루고 있으며, 대한민국 정부에서도 AI G-3로 가기위한 최우선 과제로 GPU 확보 및 AI 데이터센터 구축, 그리고 더 나아가서 이를 위한 에너지 고속도로 구축까지 전방위적으로 추진하고 있다. 하지만 이렇게 물리적인 인프라만으로 모두가 혜택을 누리는 것은 현실적으로 불가능하다. 대규모 인프라는 차치하고, 작은 규모의 AI 인프라를 확보하기 위해서도 초기 투자 및 이를 상시적으로 운영하기 위한 부담을 웬만한 조직에서 감내하기가 쉽지 않기 때문이다. 이에 기존 클라우드 서비스 벤더들은 IaaS의 AI 특화 버전이라고 할 수 있는 GPUaaS(Gpu as a Service)를 통해 GPU를 직접 소유하며 운영하는 데 어려움을 겪는 고객의 새로운 니즈를 충족시키려는 사업 확대를 꾀하고 있다. 이 와중에 오로지 GPU 서비스에 특화된 전문 클라우드 기업이 등장하기 시작했으며 이들이 GPUaaS 시장에서 하이퍼스케일러의 독점 구도를 뒤흔들기 시작했다. 이렇게 GPUaaS에 집중하는 차세대 클라우드 서비스를 지칭하는 표현으로 ‘네오클라우드(Neocloud)’가 등장하게 되었다. 코어 위브 (CoreWeave), 람다(Lambda), 크루소(Crusoe), 네비우스(Nebius) 등이 대표적인 네오클라우드 회사이다. 2. 네오클라우드 개요 2.1 등장 배경 네오클라우드라는 용어는 2024년 말 처음 사용되기 시작했다고 한다. AWS, 애저, GCP 같은 기존 클라우드 서비스에서는 수백 가지 범용 서비스를 제공하는 반면, 네오클라우드는 100% AI 및 고성능 컴퓨팅을 필요로 하는 워크로드에 집중한다. 이 새로운 인프라 카테고리가 등장하여 관심을 받게 된 가장 직접적인 원인은 GPU 공급 부족이라는 것이 정설이다. 2022년 11월 챗GPT 출시 이후 생성형 AI 수요가 폭발하면서, 2024년 초 하이퍼스케일러들은 심각한 GPU 부족에 직면했다. 엔비디아 H100 인스턴스 하나 가격이 시간당 100달러를 초과했고, 대기 기간은 수개월에 달했다.1) 마이크로소프트가 2024년 한 해에만 485,000개의 엔비디아 GPU (약 310억 달러 규모)를 확보했고, 메타의 GPU 보유량은 60만 개로 추정한다.2) 이 과정에서 AI 스타트업과 연구기관, 일반 기업들은 컴퓨팅 자원 확보에 심각한 어려움을 겪을 수밖에 없었다. 이러한 공백을 메우기 위해 GPU 전문 클라우드 제공업체인 네오클라우드가 등장하게 되었다. 네오클라우드는 유연한 계약, 빠른 프로비저닝, 특화된 인프라 구성을 제공하며, 또한 기존 하이퍼스케일러 클라우드 서비스 제공사보다 매우 저렴한 가격으로 GPU를 제공하여 특히, 소규모 AI 스타트업에게 매력적인 선택지가 되었다. 이에 하이퍼스케일러의 GPU 독점 체제가 네오클라우드 기업의 약진으로 인해 완화되어가는 추세이다. 그림 1 하이퍼스케일러 vs. 네오클라우드: AI 계산 용량 점유율 변화 (출처: Medium) 네오클라우드의 상당수는 암호화폐 채굴기업에서 전환했다는 점도 주목할 만하다. 코어위브는 2017년 아틀란틱 크립토라는 이름으로 암호화폐 채굴을 시작했다가 2019년 AI로 전환했고, 크루소 역시 이전 회사 이름인 크루소 에너지 시절 유사한 경로를 거쳤다. 암호화폐 붐 시기에 구축한 GPU 최적화 데이터센터 인프라가 AI 워크로드로 재활용된 것이다. 2.2 하이퍼스케일러 대비 차별점 네오클라우드가 하이퍼스케일러와의 경쟁에서 입지를 확보할 수 있는 가장 큰 무기는 가격 경쟁력이다. DGX H100 동급 인프라 기준으로 네오클라우드 평균 시간당 34달러, 하이퍼스케일러 평균 98달러로 약 65% 비용 절감이 가능하다. (그림 7) 그림 2 하이퍼스케일러와 네오클라우드의 이용률 기준 시간당 서버 비용 비교 (출처: Uptime) 그림 7에서는 전용 인프라 보유, 하이퍼스케일러 임대, 네오클라우드 임대 이 세가지 타입을 한 눈에 비교할 수 있는 그래프를 보여주고 있다. 이 비교는 보유 자원 혹은 임대 자원의 사용률(utilization)에 따른 비용을 나타내고 있는데, 보유한 전용 인프라를 사용할 경우 100% 사용률이 담보된다면 가장 경제성이 높은 것으로 나와 있다. 임대의 경우 실제 사용 비용만 지불하므로 사용률과 관계없이 일정한 비용이 소요된다.3) 하이퍼스케일러는 사용률 약 20% 언저리부터 전용 인프라보다 가격 경쟁력이 떨어지기 시작하지만, 네오클라우드의 경우 사용률 65%까지는 전용 하드웨어보다 확연히 비용이 낮음을 알 수 있다. AI 워크로드의 특성상 65%의 사용률을 상시 유지하는 것은 현실적으로 매우 가능성이 낮은 시나리오이므로 네오클라우드의 비용 효율성은 꽤 높음을 알 수 있다. 그리고 무엇보다도 필요할 때 즉시 쓸 수 있다는 것이 네오클라우드의 또 다른 강점이자 특징일 것이다. 하이퍼스케일러와 네오클라우드의 이러한 차이는 서비스 모델의 근본적인 차이에서 비롯된다.
표 1 네오클라우드 vs. 하이퍼스케일러 서비스모델 비교 네오클라우드의 경우 하이퍼클라우드 대비 단순한 서비스 모델을 제공하는 것이 핵심 특징이다. 둘 다 GPUaaS를 제공하지만, 네오클라우드에서는 가상화 오버헤드가 거의 없는 베어메탈 GPU 서비스도 제공한다. GPU 성능을 최대로 활용할 수 있는 옵션을 사용자에 제공함으로써 비용에 민감한 스타트업이나 대학 연구소가 좀 더 부담 없이 쓸 수 있도록 하기 위함이다. 이와 같은 BMaaS (Bare-Metal as a Service)를 비롯해 소수의 AI 특화 서비스 라인업을 가지고 있기 때문에 과금 방식도 비교적 단순하여 사용자들 입장에서는 전체 비용을 예측하기가 용이하다. 이 역시 작은 조직에서 한정된 예산을 가지고 AI 연구를 하는데 적합한 구조이다. 다만 많은 전문가들은 BMaaS와 같은 단순화된 서비스의 장점은 그 한계가 분명하며, 학습 오케스트레이션, 분산 추론 플랫폼, 도메인별 스택(예: 생명 과학 또는 금융 서비스용), 개발자 도구 및 관리형 머신러닝 서비스 등을 포함하는 AI 네이티브 스택 라인업을 충분히 갖추어야만 네오클라우드의 미래 경쟁력을 담보할 수 있다고 지적한다.4) 코어위브나 람다 같은 대표적인 네오클라우드 기업은 관리형 쿠버네티스와 같은 오케스트레이션 서비스를 제공함으로써 포괄적인 AI 네이티브 인프라 서비스에 좀 더 가까이 다가가고 있다. 또한 네오클라우드에서 강조하는 주요 장점은 GPU 자원이 필요할 때 신속한 서비스 프로비저닝이다. GPU를 최대한 효과적으로 배당하는 데 최적화된 서비스 모델을 근간으로 하기 때문에 고객 입장에서는 최초 서비스 접근성이 용이한 편이다. 일반 클라우드 서비스에서 VPC 서버를 할당받아 운영체제를 지정하고 방화벽을 설정하며 서비스 요건이나 규모에 따라 다양한 서비스 옵션 중에서 적합한 조합을 찾아 이 위에서 개발을 하고 서비스를 배포해 본 경험이 있는 사람이라면 클라우드 서비스, 특히 IaaS를 활용하는 것이 그리 단순하지 않음을 잘 알 것이다. 반면 네오클라우드의 경우에는 컴퓨트 서비스 항목에서 사용하려는 GPU 종류를 선택하는 것이 핵심이기에, 클라우드 서비스에 생소한 사람도 비교적 쉽게 네오클라우드를 활용할 수 있다. 물론 최근에는 네오클라우드에서도 전보다 많은 제품군을 출시하고 있긴 하나 AI개발 플랫폼으로서의 편의성 중심에서는 크게 벗어나지 않고 있다. 그림 3 코어위브의 제품 목록 (출처: 코어위브) 2.3 핵심 기술 네오클라우드라고 해서 일반 클라우드 대비 특별히 차별화된 완전히 새로운 기술이나 플랫폼이 필요한 것은 아니다. 다만, 특별히 ‘중요한’ 기술은 따로 언급해 볼만한 가치가 있다. 네오클라우드 인프라의 기술적 차별성은 AI 워크로드에 최적화된 아키텍처에서 비롯된다. 특히 고성능 네트워크 패브릭이 핵심 요소이다. 수천 개의 GPU가 하나의 거대한 두뇌처럼 작동하기 위해서는 GPU 간 데이터 통신 속도가 관건이기 때문이다. 기존 클라우드에서 사용하는 표준 이더넷은 대역폭의 한계와 패킷 손실 문제로 대규모 클러스터링에 적합하지 않다. 네오클라우드 고객은 학습이냐 추론이냐, 또는 모델 배포 요구사항에 따라 다양한 형태의 GPU 클러스터를 필요로 한다. 이런 요구사항에 부합하는 네트워크 패브릭이 제공될 수 있어야 한다. 이를테면 다음과 같은 각기 다른 수준의 네트워크 조합을 네오클라우드를 통해 활용할 수 있어야 한다.
요약하면 노드/랙 내부, 노드와 노드 간, 클러스터와 클러스터 간 고성능 네트워크 패브릭 제공이 마치 내가 직접 GPU 클러스터를 운영하듯이 유연하게 네오클라우드를 통해 가능하다. 네트워크뿐만 아니라 하드웨어 자원을 효율적으로 관리하고 사용자에게 편의를 제공하기 위한 소프트웨어 기술도 중요하다.
네트워크 기술은 고성능의 서비스를 효과적으로 고객에게 클라우드 환경에서도 온-프레미스와 동일하게 제공하도록 하는 것에 방점이 있다면 소프트웨어 기술은 편의성과 이식성, 그리고 네오클라우드 기업 입장에서 자원을 최대한 효율화함으로써 원가를 절감하고 한편 고객에게도 저렴하고 유연한 가격 정책을 제공할 수 있다는 데 의미가 있다. 3. 주요 네오클라우드 기업 동향 앞서 언급한 주요 네오클라우드 기업인 코어위브, 람다, 크루소, 네비우스 동향은 다음과 같다.
이들 네오클라우드 기업 현황을 통해 발견할 수 있는 흥미로운 점은 하이퍼스케일러들조차 이들과 대규모 수급 계약을 체결한다는 사실이다. 예를 들어 마이크로소프트가 자체 클라우드 애저가 아닌 네비우스와 계약을 맺은 이유는 급증하는 AI 수요를 대비한 GPU 확보전략의 일환이기도 하지만, 자신이 운영하는 애저보다 네비우스의 네오클라우드가 AI 클라우드 관점에서는 비용 및 사용성이 더 낫기 때문일 가능성도 있다. 엔비디아도 네오클라우드 기업과의 파트너십을 통해 이들 기업에 안정적으로 GPU를 공급한다는 명목으로 자사의 신규 제품군을 현장에서 활용하는 테스트 베드로서 매우 잘 활용하고 있음을 알 수 있다. 엔비디아와 네오클라우드 기업과의 파트너십 중 흥미로운 점은 엔비디아가 이들 기업이 팔지 못한 계산 용량을 매입하는 계약을 맺는다는 사실이다. 엔비디아가 코어위브에서 미처 팔지 못한 계산 용량을 2032년 4월까지 63억 불에 구매하겠다는 계약이 대표적인 예다.12) 엔비디아는 코어위브뿐만 아니라 람다, 네비우스 등 주요 네오클라우드 기업과 유사한 계약을 맺고 있다. GPU로서 생태계를 주도하는 주도면밀한 엔비디아의 전략을 엿볼 수 있다. 4. 우리나라 AI 데이터센터 구축 관점에서의 시사점 지난 2025년 APEC 정상회의에서 발표된 엔비디아의 GPU 26만 장 확보 협약을 통해 국내에서 당장 필요한 GPU 수급에 숨통이 트였다는 것이 일반적인 평가다. 이중 정부 몫은 5만 대이고 나머지는 삼성전자, SK, 현대자동차, 네이버에 배당이 되어 있다. 정부 몫 5만 대는 국가AI컴퓨팅센터에 들어가고 그 외 국가대표 독자 파운데이션 모델 참여 기업이 사용할 것으로 예상된다. 작년 12월 발표된 ‘대한민국 인공지능 행동계획(안)’에 의하면 맨 앞 (1)번 과제로 GPU/NPU 등 핵심 컴퓨터 인프라 확충이 들어 있고 그다음 (2)번 과제로 국가 AI 데이터센터 및 전국에 흩어져 있는 강소형 AI 데이터센터들의 지속가능한 AI 데이터 센터 생태계 구축이 들어가 있다. (3)번 과제로는 AI 기반 서비스 고도화를 위한 “접근성 제고”를 강조하고 있다. 이 세 과제로 나오는 핵심 결과물이 바로 “네오클라우드”이다. 확보한 컴퓨팅 인프라 자원을 가장 효율적으로 활용함으로써 효능감을 최고로 끌어올릴 수 있는 길은 모든 AI 컴퓨팅자원이 네오클라우드를 바탕으로 운영되어야 한다는 것이다. 행동계획에서 네오클라우드를 직접 명시하고 있지는 않지만, 앞으로 만들어지는 AI 데이터센터는 기본적으로 네오클라우드 서비스를 표방하여야 하며 거기에 걸맞은 서비스 모델을 제시하여야 한다. 이를 위해 필요한 포괄적인 기술 로드맵을 정의하고 우리나라 기업이 보유하고 있는 관련 기반 기술을 최대한 적용할 수 있는 구체적인 실행전략 수립이 시급하다. 앞으로 확보하게 될 GPU 자원뿐만 아니라 국산 AI 반도체까지 아우르는 컴퓨팅 인프라가 100% 활용되기 위해서도 네오클라우드는 필수다. 참고문헌 1) Uptime Institute, “Neoclouds: a cost-effective AI infrastructure alternative”, Feb 26, 2025 2) Medium, “Neo-Cloud Economics and Viability in 2025”, Jul 15, 2025 3) 클라우드에서 GPU를 빌려 쓰는 것도 대기열이 있는 경우 미리 인스턴스를 확보함으로써 사용률에 따른 실제 비용은 변동될 수 있다. 4) McKinsey & Company, “The evolution of neoclouds and their next moves”, Nov 19, 2025 5) https://www.coreweave.com/news/coreweave-to-acquire-core-scientific 6) Data Centre Dynamics, “CoreWeave Q3 earnings show revenue backlog doubled to $55.6bn”, Nov 11, 2025 7) Data Centre Dynamics, “AI cloud company Lambda raises more than $1.5bn in Series E funding round’, Nov 18, 2025 8) https://www.crusoe.ai/resources/newsroom/crusoe-expands-ai-data-center-campus-in-abilene-to-1-2-gigawatts 9) https://www.crusoe.ai/resources/newsroom/crusoe-announces-series-e-funding 10) Financial Times, “Microsoft taps Nebius to supply up to $20bn of AI computing power”, Sep 9, 2025 11) Tech in Asia, “Nvidia-backed Nebius inks $3b AI infrastructure deal with Meta”, Nov 12, 2025 12) “Nvidia to purchase unsold compute capacity from CoreWeave for $6.3bn”, Sep 15, 2025
이슈리포트 2026-01호.pdf (1 MB)
|
||||||||||||||||||||