
|
2025.10.31 (수정 : 2025.12.02)
|
|
|
03 국가 정보시스템 재난복구(DR)를 위한 상용 클라우드 활용 │윤대균 아주대학교 1. 들어가며 2025년 9월 말 발생한 국가정보자원관리원(NIRS) 데이터센터 배터리 화재로 정부 지드라이브 (G-Drive) 등 주요 시스템이 손실되어 수 주째 많은 정부 시스템이 복구되지 못하는 사태가 벌어지고 있다. 이 사고로 정부의 재난복구(DR) 체계 미흡에 대한 비판이 제기되며, 향후 유사 재난에 대비한 DR 대책 수립이 시급한 과제로 부상했다. 특히 클라우드 등 외부 자원을 활용한 백업과 이중화 부재로 대규모 데이터 손실이 발생한 점이 심각한 문제로 대두되었다. 이번 사고로 공공기관 자원을 활용한 자체 이중화뿐만 아니라 민간 클라우드를 더욱 광범위하게 활용하는 것을 더욱 적극적으로 검토해야 한다는 목소리가 높아지고 있다. 전통적인 재해복구(DR) 모델은 막대한 초기 자본을 투자하여 별도의 데이터센터를 구축하고 운영하는 방식에 의존했다. 그러나 상용 클라우드 서비스 제공업체(CSP)를 활용함으로써 이러한 패러다임을 근본적으로 바꿀 수 있다. 정부 기관들은 자본 지출(CAPEX) 중심의 모델에서 벗어나 사용한 만큼 비용을 지불하는 운영 비용(OPEX) 모델로 전환하여, 필요에 따라 자원을 즉시 확장하거나 축소할 수 있게 되었다. 이러한 전환을 이끄는 핵심 동인은 확장성 및 유연성 향상, 그리고 다중 리전 인프라를 활용한 복원력 강화다. 특히 여러 해 겪은 코로나19 팬데믹과 같은 상황은 이러한 변화를 가속화했다. 각국 정부는 급증하는 디지털 서비스 수요에 대응하고 원격 근무 환경을 지원하기 위해 클라우드 도입을 서두를 수밖에 없었다. 이 가운데 정부 업무의 특성을 반영하여 안정성과 복원력 확보를 SLA(Service Level Agreement)의 핵심 항목으로 적시하였다. 이러한 과정을 거치며 클라우드 기반 DR은 더 이상 선택이 아닌, 안정적인 정부 시스템 운영과 대국민 서비스 제공을 위한 필수 요소로 자리 잡았다. 2. 클라우드 기반 DR 모델 클라우드 환경에서 구현 가능한 DR 전략은 비용, 복잡성, 복구 목표 시간(RTO: Recovery Time Objective), 복구 목표 시점(RPO:Recovery Point Objective) 간의 관계에 따라 다양하게 분류된다. RTO는 장애 발생 시 시스템을 원 상태로 복원하는데 소요되는 시간을 의미하며 RPO는 목표 복구 시점을 무엇으로 설정할 것인가를 말한다. 즉, 장애 발생 시 비즈니스 연속을 위해 어느 시점으로 백업할지를 결정하는 요소이다. 이때 핵심 고려 사항은 다음과 같다.
2.1 DR 아키텍처 유형 정부 기관은 서비스의 중요도와 가용성 요구사항에 맞춰 최적의 아키텍처를 선택해야 한다. 어떤 아키텍처를 선택하느냐에 따라 복잡도와 비용은 천차만별이다. DR 아키텍처 유형은 다음과 같이 구분된다.1)
2.2 하이브리드 DR 모델 앞서 소개한 일반적인 DR 아키텍처 유형 외에 기존 온프레미스 환경의 데이터를 클라우드로 복제하는 하이브리드 DR 모델을 들 수 있다.2) 그림 1 AWS 온프레미스 DR 모델 (출처: AWS) 이러한 모델은 레거시 인프라 기반으로 운영되고 있는 정부 시스템을 클라우드 기반 DR로 전환하기 위한 초기 단계의 전략으로 활용할 수 있다. 이러한 하이브리드 모델에서도 RTO, RPO에 기반한 여러 선택지가 가능하다. AWS의 서비스로 예를 들어 보도록 하겠다.
2.3 DR 시나리오에서의 공동책임 모델 상용 클라우드를 도입한다고 해도 재난 발생 시 모든 책임을 상용 클라우드 기업이 지고 발생하는 문제에 대해 고객이 면책되는 것은 아니다. 특히 보안과 관련된 책임 부분에서는 '공동책임 모델(Shared Responsibility Model)'이 적용된다. 공동책임 모델은 클라우드컴퓨팅에서 보안 및 컴플라이언스 책임을 클라우드 서비스 제공자(CSP)와 고객 간에 나누는 프레임워크다. 이 모델에서는:
이는 DR 전략에도 동일하게 적용된다. 상용 클라우드 도입이 서비스 연속성에 대한 기관의 책임을 면제해주는 것이 아니라, 책임의 성격을 물리적 인프라 관리에서 클라우드 기반 시스템 아키텍처 설계 및 거버넌스로 전환시킨다는 것을 의미한다.
결론적으로, DR의 성공 여부는 단순히 CSP가 제공하는 인프라의 안정성뿐만 아니라, 기관이 클라우드 환경 위에서 얼마나 복원력 있는 시스템을 설계하고 체계적으로 관리하는가에 달려있다. DR 실패는 백업 사이트의 하드웨어 고장뿐만 아니라, 클라우드 서비스의 잘못된 구성, 부적절한 복제 전략, 테스트되지 않은 자동화 스크립트 등 기관의 책임 영역에서 발생할 수 있으며, 이는 정부 it 부서의 역량과 거버넌스 체계를 이에 맞게 재설계해야 하는 과제를 제시한다. 3. 주요 국가의 클라우드 보안 및 DR 프레임워크 상용 클라우드를 활용하여 국가 정보시스템 DR을 구축하기 위해서는 클라우드를 활용하기 위한 일반적인 보안 프레임워크가 적용된다. 즉 데이터와 시스템의 기밀성이나 민감도에 따른 보안 요건은 DR에도 동일하게 적용되어야 한다. 미국 외에 다른 주요 국가에서는 어떤 프레임워크가 있는지 열거해 보겠다. 미국, 영국, 호주, 싱가포르, 일본의 예를 들어 보고자 한다. 3.1 미국: fedramp 미국의 fedramp에 대해서는 다른 기고문을 통해 여러차례 소개한 바 있고 여기서는 DR과 관련된 통제항목만 간략히 소개하겠다. fedramp의 DR 요구사항은 미국 국립표준기술연구소(nist)의 sp 800-53의 '비상계획(cp:contingency planning)' 통제군에 기반을 두고 있다. 가장 중요한 통제 항목은 다음 5개이다.
각 통제 항목은 더 세분화 된 하위 통제항목을 갖는데 보안 수준 등급(high, moderate, low)에 따라 세부 항목이 차등 적용된다. 예를 들면 ‘high’의 경우는 모든 항목을 충족시켜야 하지만 ‘low’ 등급의 경우는 대부분 충족시키지 않아도 되는 식이다. 3.2 영국: g-cloud 영국의 '클라우드 퍼스트' 정책은 효율성과 경쟁을 촉진하기 위해 공공 클라우드 솔루션 사용을 강력히 권장한다. 이 정책의 핵심 실행 도구는 g-cloud 프레임워크다.3) G-Cloud는 FedRAMP와 같은 인증 제도가 아닌, 사전 승인된 공급업체 목록을 제공하는 디지털 마켓플레이스이자 조달 프레임워크다. 이를 통해 공공기관은 복잡한 절차 없이 신속하게 클라우드 서비스를 구매할 수 있도록 하는 것이 핵심이다. g-cloud 프레임워크는 '클라우드 호스팅' 부문 공급업체에게 '아카이빙, 백업 및 재해복구'와 같은 서비스를 제공하도록 요구한다. 그러나 구체적인 DR 계획, RTO/RPO는 중앙 표준에 의해 규정되지 않는다. 대신, 공급업체는 의무적으로 제출해야 하는 '서비스 정의서(Service definition document)'에 이러한 내용을 상세히 명시해야 하며, 서비스를 구매하는 기관이 이를 직접 검토하고 판단할 책임이 있다. 영국 정부는 단일 리전 장애를 피하기 위해 해외 리전을 DR 목적으로 활용할 수 있도록 허용하는 등 다중 리전 클라우드 아키텍처 사용을 공식적으로 권장한다. 영국 환경청의 국가 홍수 위험 평가 시스템(nafra2)은 AWS의 다중 리전 가용성을 활용하여 국가 핵심 시스템의 복원력을 확보한 대표적인 사례다.4) g-cloud 마켓플레이스를 통해 애저 기반의 DR구축 및 전략 컨설팅 서비스도 다양하게 제공되고 있다. 3.3 호주: IRAP/hcf 호주는 연방정부 보안의 총괄규정인 PSPF(Protective Security Policy Framework)와 기술통제 지침인 ISM(Information Security Manual)에 클라우드 보안지침을 포함시키는 방식으로 운영한다. 이전에는 CSCP (Cloud Services Certification Program)를 통해 AWS 시드니 리전 등 몇몇 CSP를 PROTECTED 등급(정부에서 활용할 수 있는 높은 수준의 보안 등급) 대응으로 승인한 바 있으나, 이후 정책을 전환하여 2020년부터는 각 기관이 자율적으로 IRAP(Infosec Registered Assessors Program) 평가를 거친 CSP를 선택하도록 하고 있다. IRAP은 CSP의 보안 수준이 ISM에 명시된 통제 항목을 준수하는지 평가하는 프레임워크다.5) IRAP은 CSP에 대해 독립적인 평가 보고서를 제공하며 각 기관의 책임자는 이 보고서를 바탕으로 해당 기관의 위험 수준에 기반하여 CSP 도입 결정을 내린다. 모든 정부 기관에 대해 동일한 등급 체계를 운영하는 것을 원칙으로 하는 fedramp와 다른 점이다. 현재 AWS, 애저, 볼트 클라우드 등의 보고서가 공개되어 있어서 이들 중 각 기관의 자율적인 판단에 따라 선택 도입할 수 있다. 또한 눈 여겨 보아야 할 것은 HCF(Host Certification Program)이다. 민감한 데이터를 다루는 호스팅 서비스에 대해 보안, 데이터 주권, 개인정보보호 등의 요구사항을 충족하는지 평가하는 인증 제도로 Strategic, Assured, Uncertified 등급으로 분류되며. 국가핵심 자료는 Strategic 이상 등급 업체만 취급하도록 규정했다. 앞서 소개한 IRAP과는 별개로 운영되지만 상호 보완적이라고 볼 수 있다. CSP 입장에서는 자신이 제공하는 서비스의 등급에 맞는 HCF 인증이 우선 필요하지만 그와 동시에 IRAP보고서도 제공하여야 한다. 반대로 IRAP 보고서가 HCF 인증에 활용될 수도 있다. 호주의 정부기관 입장에서는 자신의 업무 등급에 해당하는 HCF 인증을 받은 CSP의 IRAP 보고서를 참고하여 활용 여부를 결정하게 된다. ISM에 정의되어 있는 DR관련 대표적인 통제항목은 다음과 같다.
3.4 싱가포르: mtcs 싱가포르는 CSA(사이버보안청)의 MTCS(Multi-Tier Cloud Security) 표준을 통해 CSP의 보안수준을 레벨 1~3으로 등급을 매기고, 공공부문은 최고 등급(레벨 3) 인증 클라우드만 사용토록 한다.6) ISO/IEC 27001을 기반으로 하고 있으며 여기에 클라우드 특화 요구사항을 추가로 정의했다. DR관련 요구사항으로는 ISO/IEC 27001의 “비즈니스 연속성 관리(BCM)” 또는 “정보 보안 연속성”의 일부로 통제 항목을 구성하고 있다. 핵심 항목은 다음과 같다.
2025년 10월 현재 IaaS, PaaS 부문에서는 AWS, 애저, GCP 등 글로벌 클라우드 서비스 벤더 뿐만 아니라 알리바바, 바이두, 화웨이 같은 중국 기업들 포함 총 16개의 벤더가 레벨3를 획득하여 공공기관이 사용할 수 있다. 특히 이 중에는 한국의 네이버 클라우드도 포함되어 있는 것이 눈길을 끈다. SaaS 부문에는 총 10개의 벤더가 레벨3 인증을 받았는데 네이버 클라우드 SaaS도 여기에 이름을 올리고 있다. 네이버의 업무용 소프트웨어인 네이버웍스, AI 서비스인 클로버 서비스 등이 목록에 들어가 있다. 2.5 일본: ISMAP/Gov-Cloud ISMAP(Information System Security Management and Assessment Program)7)은 일본 정부의 클라우드 조달을 위한 보안 기준을 수립하기 위해 만들어졌다. 사전에 검증된 CSP 목록을 제공함으로써 클라우드 도입을 가속화하는 것을 목표로 한다. ISMAP은 FedRAMP처럼 보안 요구사항에 따른 등급 구별 없이 단일 등급으로 되어 있으며 따라서 ‘인증’ 개념보다는 중앙정부나 지방정부에서 사용할 수 있는 클라우드 서비스 ‘등록’ 제도로 보는 것이 맞다. 이렇게 “정부조달 클라우드 서비스 리스트”에 등재되면 공공기관에서 쓸 수 있도록 하는 것이다. ismap 내에서 DR 및 사업연속성 관점에서 특히 주목할 만한 조치들은 다음과 같다:
다양한 서비스가 현재 IaaS/PaaS, SaaS 구분 없이 조달 가능 목록으로 등재되어 있다.8) 일본 정부는 2021년 9월 디지털청을 출범하며 행정 디지털화 및 클라우드 우선 정책을 본격화하고 있다. 이를 위해 중앙/지방행정 시스템을 포함한 약 1,000개 이상의 기존 정부 시스템을 단계적으로 클라우드로 이전하는 로드맵을 제시하였으며 이후 2022년에는 정부 전용 클라우드 생태계 개념인 “Government Cloud(Gov-Cloud)” 전략을 발표하며, AWS, 마이크로소프트 애저, 구글 클라우드, 오라클 클라우드 등 특정 CSP를 정부 업무 핵심 인프라로 선정하였고, ismap 제도를 통해 공공조달용 클라우드 서비스 등록 체계를 강화했다.9) 또한 재해복구 능력을 고려한 다중 리전 전략을 포함한 “디지털 기반을 국가 경쟁력의 축”으로 정의하여 공공데이터 활용, ai 활용 기반 확산, 사이버보안 강화 및 지자체 클라우드 전환 가속화를 추진하고 있다. 4. 클라우드 기반 DR 구현을 위한 거버넌스 체계 상용 CSP를 활용한 재난복구 체계를 구축/운영하기 위해서는 기관 차원의 거버넌스 확립이 필수다. 효과적인 DR 거버넌스란 단순 기술 구현을 넘어, 조직의 정책/절차/책임 체계 전반을 아우르는 관리체계를 의미한다. 다음과 같은 핵심 요소들이 거버넌스 체계에 담겨 있어야 한다.
요약하면, 클라우드 기반 DR의 성공은 기술보다 거버넌스에 달려있다고 해도 과언이 아니다. 명확한 계획과 책임소재, 철저한 데이터 관리와 테스트, 그리고 이를 뒷받침하는 제도와 인력이 조화를 이룰 때 비로소 재난 상황에서도 끄떡없는 디지털 정부 서비스 연속성을 구현할 수 있을 것이다. 참고문헌 1) AWS, “Disaster recovery options in the cloud”, 2) AWS, “On-premises DR to AWS” 3) https://www.gov.uk/guidance/g-cloud-suppliers-guide 4) “Innovation Stories from the UK Public Sector” 5) Australian Signals Directorate, “IRAP Common Assessment Framework”, Apr 2025 6)https://www.imda.gov.sg/regulations-and-licensing-listing/ict-standards-and-quality-of-service/it-standards-and-frameworks/compliance-and-certification 7) https://www.ismap.go.jp/csm (in japanes) 8) https://www.ismap.go.jp/csm?id=cloud_service_list (in japanes) 9) CIO, “日本のガバメントクラウドのこれまでとこれから”, Sep 2, 2025
이슈리포트 2025-10호 편집본.pdf (928 KB)
|