디지털서비스 이용지원시스템

자료실

[2026-03] 디지털서비스 이슈리포트 01 기밀 추론과 신뢰 가능한 AI 인프라

2026.03.30 (수정 : 2026.04.02)

01 기밀 추론과 신뢰 가능한 AI 인프라

│윤대균 아주대학교

본 글은 한국지능정보사회진흥원의 지원을 받아 작성되었습니다.

한국지능정보사회진흥원이 저작권을 보유하고 있으며 승인 없이 이슈리포트의 내용 일부 또는 전부를 다른 목적으로 이용할 수 없습니다.

1. 들어가며

AI 인프라 무게 중심이 학습(training)에서 추론(inference)으로 이동하고 있다. 수천억 개의 파라미터를 수십만 장의 GPU로 수개월에 걸쳐 학습시키는 작업은 소수 AI 기업의 영역이었다. 그러나 완성된 모델들이 서비스로 배포되면서, 챗GPT/클로드/제미나이 같은 플랫폼을 통해 수억 명의 사용자가 매일 수십억 건의 추론 요청을 처리하는 구조로 전환되었다.

이 전환은 AI 인프라 시장의 구조도 재편하고 있다. 앞선 글 「네오클라우드」에서 살펴보았듯, 코어위브가 오픈AI·마이크로소프트·메타와 대규모 GPU 공급 계약을 체결할 수 있었던 배경도 추론 서비스 수요 증가에 있다. 다수의 많은 분석에 따르면 AI 인프라 비용 중 추론이 차지하는 비중은 학습을 넘어섰으며, 이 격차는 지속적으로 확대될 전망이다. 추론이 AI 서비스의 핵심 실행 단계로 자리 잡으면서, 추론 인프라의 보안은 설계 단계에서 반드시 고려해야 할 요건이 되었다.

이에 기밀 추론(Confidential Inference)이란 용어가 등장하여 관심을 끌게 되었다. 기밀 추론은 민감한 사용자 입력을 보호하는 기술일 뿐 아니라, 모델 가중치 자체를 보호하고, 추론 서버와 가속기가 신뢰할 수 있는 상태에서 동작하고 있음을 암호학적으로 입증하는 체계이기도 하다. 다시 말해 기밀 추론은 AI 서비스 보안의 문제를 서버 보안에서 신뢰 가능한 추론 인프라 문제로 확장한다.

에이전트 AI의 확산은 이 문제를 한층 더 민감하게 만든다. 에이전트는 단순히 질문 하나에 답하는 시스템이 아니라, 장기간 컨텍스트를 유지하고 외부 도구를 호출하며 여러 단계를 거쳐 실제 행동을 수행한다. 이 과정에서 프롬프트뿐 아니라 메모리, 검색 결과, 도구 호출 파라미터, 실행 결과까지 모두 민감한 데이터가 된다. 따라서 추론 단계에서는 API 호출뿐만 아니라 기업 활동 전체가 공격 표면이 되어 버린다.

이 부분에서 기밀 추론의 정체성이 뚜렷하게 드러난다. 기밀 추론은 AI 모델을 더 안전하게 만드는 보조 기능이 아니라, 민감한 데이터를 가진 조직이 생성형 AI를 실제 업무에 연결할 수 있게 만드는 핵심 조건이다. 이 때문에 기밀 추론은 보안 기술이면서 동시에 AI 인프라 기술이다. 이번 글은 이런 문제의식을 바탕으로, 기밀 컴퓨팅의 후속편으로서 기밀 추론이 무엇인지, 왜 중요해졌는지, 그리고 GPU 및 NPU 중심의 추론 인프라에 어떤 변화를 요구하는지 살펴본다.

2. 기밀 추론 vs. 기밀 컴퓨팅

‘기밀 추론’과 ‘기밀 컴퓨팅’을 비교해 봄으로써 기밀 추론의 범주와 특징을 이해할 수 있다. 기밀 컴퓨팅은 하드웨어 기반 TEE(Trusted Execution Environment)를 통해 처리 중인 데이터를 보호하는 광범위한 기반 기술 개념이다. 반면 기밀 추론은 이 원리를 AI 추론 워크로드에 적용하기 위한 구체적인 프로세스 전반에 걸쳐 필요한 기술이다. 따라서 기밀 추론은 기밀 컴퓨팅의 응용 분야이지만, AI 워크로드 때문에 새롭게 생기는 문제를 함께 다뤄야 한다. 예를 들어 모델 가중치를 어떻게 안전하게 적재할 것인지, GPU나 NPU와 같은 가속기를 어떻게 신뢰 경계 안에 넣을 것인지, 멀티테넌트 추론 서버에서 다른 고객 워크로드와 어떻게 격리할 것인지 같은 문제는 일반적인 TEE 설명만으로는 충분히 다뤄지지 않는다.

기밀 추론의 핵심은 세 가지로 정리할 수 있다. 첫째, 입력 데이터는 가능한 한 암호화된 상태로 이동해야 한다. 둘째, 모델 가중치도 보호 대상 자산으로 다루어야 한다. 셋째, 복호화와 실제 연산은 검증 가능한 제한된 실행 환경에서만 일어나야 한다. 여기서 중요한 것은 단순히 TEE 안에서 코드를 실행하는 데 그치지 않고, 어떤 코드가 올라왔고 어떤 상태에서 실행되는지를 증명한 뒤 그 결과에 따라 복호화 권한을 부여하는 구조다.

구분	핵심 요약	보호 대상
기밀 컴퓨팅	하드웨어 기반 ‘data in use’ 보호	메모리 및 실행 환경
기밀 추론	AI 추론 파이프라인의 신뢰 사슬	입력 데이터, 모델 가중치, 추론 서버, 가속기

표 1 기밀 컴퓨팅과 기밀 추론 비교

기밀 추론은 입력, 모델, 서버, 가속기, 키 관리 체계를 하나의 신뢰 사슬로 연결하는 구조에 기반한다. 이 신뢰 사슬에서는 최소한 다음 네 가지에 대한 해법을 제공해야 한다. (1) 입력 데이터는 어디서 암호화되는가 (2) 모델 가중치는 언제 복호화되는가 (3) 어떤 코드가 실제로 그 복호화를 수행하는가 (4) 그리고 그 모든 과정이 정말 승인된 하드웨어와 런타임 상태에서 일어났다는 사실을 누가 어떻게 검증하는가 이다.

또한 학습은 일반적으로 단일 조직의 데이터와 모델을 다루지만, 추론은 다수의 사용자가 공유 인프라에 동시에 접근하는 멀티테넌트 환경에서 수행된다. 에이전트 AI 환경에서는 하나의 추론 세션이 수십 개의 도구 호출과 외부 서비스 연동을 포함한다. 이러한 파이프라인 전체를 보안 경계 안에 포함하는 것은 TEE 적용 이상의 시스템 설계를 요구한다. GPU 중심 연산, 멀티테넌트 환경, 에이전트 파이프라인과 같은 다양한 특성의 결합이 기밀 추론이라는 독립적인 기술 영역이 형성된 배경이기도 하다.

3. 핵심 기술: 추론에 특화된 기밀 컴퓨팅

지난 ‘기밀 컴퓨팅’ 글에서는 TEE와 엔클레이브 개념, 원격 증명의 기본 구조를 다루었다. 이 글에서는 ‘추론’이라는 워크로드가 별도의 보안 설계를 요구하는 이유에 집중한다.

추론 고유의 보호 대상

추론에는 학습에 없는 고유한 보호 대상이 있다. 첫 번째는 ‘KV 캐시(Key-Value Cache)’다. 트랜스포머 기반 LLM은 자기 회귀적 방식으로 토큰을 순차 생성한다. 이전 토큰들의 어텐션 연산 결과를 KV 캐시로 저장해두고 재사용하는데, 이 캐시는 대화 전체의 맥락을 포함한다. 멀티테넌트 서버에서 서로 다른 사용자의 KV 캐시가 물리적 메모리를 공유하는 경우, 캐시 오염이나 비인가 캐시 읽기를 통한 정보 유출이 발생할 수 있다. 기밀 추론 환경에서 KV 캐시는 사용자 단위로 암호화·격리되어야 한다.

두 번째는 ‘배치 격리(Batch Isolation)’다. 추론 서버는 처리량을 높이기 위해 여러 사용자의 요청을 하나의 배치로 묶어 처리한다(continuous batching). 이 방식은 처리 효율이 높은 반면, 서로 다른 사용자의 데이터가 동일한 연산 단위에 올라간다는 구조적 보안 문제를 수반한다. 기밀 추론에서는 배치 내 각 요청의 메모리 접근이 하드웨어 수준에서 격리되어야 한다.

세 번째는 ‘스트리밍 응답의 기밀성’이다. 추론 결과는 완성 후 일괄 전송되는 것이 아니라 토큰 생성 즉시 스트리밍으로 전달된다. TEE 내부에서 생성된 각 토큰이 외부로 전송되기 전에 암호화되어야 하며, 이 과정이 레이턴시에 민감한 인터랙티브 추론에서 응답 지연으로 이어지지 않도록 설계되어야 한다. 이를 좀 더 쉽게 설명하면, 안전한 상자(TEE) 안에서 한 글자씩 써서 밖으로 던져주는데 (스트리밍), 던지기 직전에 누가 못 보게 아주 빠르게 자물쇠를 채워야(실시간 암호화) 하며, 이 자물쇠 채우는 속도가 너무 느려서 읽는 흐름이 끊겨서는 안 된다는 뜻이다.

레이턴시 제약과 GPU TEE 기술의 발전

기밀 컴퓨팅을 학습과 추론에 적용하는 것 사이에는 본질적인 차이가 있다. 학습은 처리량(throughput) 중심의 워크로드이기에, 장시간에 걸친 연산에서 일정 수준의 오버헤드는 허용 가능하다. 추론은 레이턴시 중심의 워크로드다. 첫 토큰 생성 시간(TTFT)과 토큰 생성 속도(TPS)가 서비스 품질을 결정하며, 암호화 오버헤드로 인한 TTFT 증가나 TPS 저하는 서비스 품질에 부정적인 영향을 미친다.

CPU와 GPU 사이에서 데이터를 주고받을 때 데이터를 암호화하고 복호화하는 과정에서 CPU의 개입이 많아 병목 현상이 발생한다. 블랙웰에서는 TEE-I/O 기술을 적용하여 데이터가 PCIe 슬롯을 통해 CPU와 GPU 사이를 이동할 때 발생하는 병목 현상을 해결했다. 이전에는 CPU TEE(인텔 TDX, AMD SEV-SNP)와 GPU 사이의 데이터를 암호화하기 위해 소프트웨어 계층을 거쳐야 했다. 블랙웰에서는 TEE-I/O 기술을 적용하여 PCIe 컨트롤러가 하드웨어 수준에서 직접 암호화된 채널을 형성한다. 따라서, 기존 TEE가 CPU와 메모리 내부에서만 데이터를 보호했다면, TEE-I/O는 이 보호 영역을 GPU 같은 외부 장치(I/O 장치)까지 확장한 것이다. 즉, 블랙웰 GPU는 CPU와 함께 신뢰할 수 있는 도메인을 형성하여 데이터가 CPU 메모리를 떠나 GPU로 이동할 때도 암호화된 상태를 유지한다.

안정적인 추론 서비스를 제공하기 위해서는 레이턴시를 최소화하면서도 LLM 연산 성능을 높은 수준으로 유지하는 것이 필요하며 이를 위한 GPU TEE 기술도 보안/암호화 오버헤드를 줄이기 위한 방향으로 발전하고 있다.

종단 간 암호화 파이프라인과 KMS 연동

GPU TEE 단독으로 기밀 추론이 완성되지는 않는다. 클라이언트에서 서버까지의 입력 전달, TEE 내부 GPU 처리, 스트리밍 응답 반환의 전 과정이 하나의 신뢰 경계 안에 있어야 한다. 추론 특화 기밀 파이프라인은 다음 흐름으로 구성된다.

클라이언트 암호화 및 원격 증명 검증: 사용자는 추론 시작 전 서버 TEE의 원격 증명 보고서를 검증하고, TEE의 공개키로 입력 데이터를 암호화하여 전송한다. 서버의 운영체제, 하이퍼바이저, 클라우드 운영자는 입력 내용에 접근할 수 없다.
TEE 내부 복호화 및 추론·KV 캐시 관리: 복호화는 TEE 내부에서만 수행되며, KV 캐시는 사용자 세션 단위로 격리된 메모리 영역에 유지된다. 배치 처리 시에도 각각 요청의 어텐션 연산과 캐시는 하드웨어 경계로 분리된다.
토큰 단위 암호화 응답: 생성된 토큰은 TEE를 벗어나기 전에 암호화되어 스트리밍 전송된다.

모델 가중치 보호는 별도의 설계 축으로 구성된다. 수백 GB~수 TB에 달하는 가중치는 모델 소유자의 KMS(Key Management System) 키로 암호화된 상태로 배포된다. 추론 서버 TEE가 기동되면 원격 증명 보고서를 KMS에 제출하고, KMS는 이를 검증한 후에만 복호화 키를 TEE 내부로 전달한다. 이 구조에서 인프라 제공 사업자는 모델 가중치의 평문에 접근할 수 없으며, 모델 소유자는 자신의 인프라 없이도 서드파티 클라우드를 통해 모델 IP를 보호하면서 서비스를 배포할 수 있다.

4. 기밀 추론 시스템 설계: 앤스로픽 사례

앤스로픽은 자사의 백서에서 기밀 추론의 설계 원칙과 구현 방식을 상세히 다루고 있다. 앞선 글 ‘기밀 컴퓨팅’에서 잠깐 언급하기도 했지만 여기서 좀 더 살펴보기로 하겠다.

기밀 추론 시스템은 모델 소유자, 데이터 소유자, 그리고 클라우드 서비스 제공자(CSP) 간의 신뢰가 완전히 보장되지 않은 환경에서도 하드웨어 기반 TEE를 활용하여 연산 중인 데이터의 기밀성을 보호하는 것을 목표로 한다. 일반 기밀 컴퓨팅에서의 요구사항과 마찬가지로 데이터를 처리하는 과정에서 운영체제나 시스템 관리자조차 메모리에 접근할 수 없도록 격리하며, 암호화된 증명(Attestation)을 통해 실행 중인 워크로드의 무결성을 검증한다.

기밀 추론의 핵심 영역은 '데이터 기밀성(Confidential Data)'과 '모델 기밀성(Confidential Model)'이라는 두 가지 측면으로 나뉜다. 데이터 기밀성 측면은 사용자가 입력하는 프롬프트와 모델이 생성하는 출력값이 추론을 수행하는 호스트나 기타 애플리케이션에 노출되지 않도록 엔드투엔드 수준으로 보호하여 개인정보 및 민감 데이터를 안전하게 처리할 수 있게 한다. 모델 기밀성 측면은 AI 모델의 가중치와 아키텍처를 외부 유출이나 리버스 엔지니어링으로부터 보호하는 데 초점을 맞추며, 특히 국가 수준의 해킹 위협을 방어해야 하는 고위험 모델(SL4 및 SL5 보안 등급)의 경우 TEE 내부에서만 가중치 복호화가 이루어지도록 강력히 권고하고 있다.

이러한 기밀성을 달성하기 위해 서비스 제공자는 하드웨어 기반의 컴퓨팅 및 메모리 격리, 암호화 증명, 그리고 운영자의 엄격한 접근 통제를 보장해야 한다. AI 추론은 대규모 연산을 위해 GPU나 NPU 같은 AI 가속기를 필수적으로 요구하므로, 기밀 보호 경계(Confidential Boundary)는 CPU를 넘어 가속기까지 확장되어야 한다. 이를 위해 AI 가속기 내부에 네이티브 TEE를 구현하여 데이터를 엔드투엔드로 전송하거나, CPU의 보안 엔클레이브와 가속기를 안전하게 연결하는 보안 통로를 구축하는 기술적 접근 방식이 활용된다. 앞서 블랙웰의 TEE-I/O가 한 예이다.

시스템의 아키텍처는 크게 '기밀 추론 서비스(Confidential Inference Service)', '모델 프로비저닝 (Model Provisioning)', '엔클레이브 빌드 환경(Enclave Build Environment)'이라는 세 가지 핵심 구성 요소로 구성된다. 기밀 추론 서비스는 격리된 보안 엔클레이브 내에서 암호화된 가중치와 입력값을 받아 복호화한 후 추론을 수행하며, 이 과정에서 엔클레이브 외부 프로그램은 오직 통신 프록시 역할만 수행한다. 모델 프로비저닝 단계에서는 키 관리 시스템(KMS)을 이용해 모델을 암호화하여 저장하고, 올바른 증명 문서를 제시하는 보안 엔클레이브의 요청에만 복호화 키를 제공한다. 아울러 엔클레이브 프로그램이 악성 코드를 포함하지 않음을 보증하기 위해 투명하고 재현 가능한 형태의 안전한 빌드 환경이 필수적으로 뒷받침되어야 한다.

그림 1 앤스로픽 기밀 추론 구성도 (출처: 앤스로픽)

앤스로픽이 제시한 모델은 추론 시스템을 구동하는 호스트 머신과 클라우드 네트워크 전체가 이미 공격자에 의해 장악될 수 있음을 가정하여 설계되었다. 시스템 보안을 위협하는 요소는 하드웨어 자체의 결함이나 암호학적 취약점과 같은 '시스템적 위험'과, 잘못된 KMS 정책 설정, 안전하지 않은 엔클레이브 로딩, 빌드 환경 침해 등 구현 과정에서 발생하는 '도입된 위험'으로 구분된다. 따라서 안전한 기밀 추론 시스템을 운영하기 위해서는 하드웨어 패치를 최신화하는 것뿐만 아니라, 최소 권한 원칙을 준수하고 심층 방어 설계를 철저히 점검하는 노력이 수반되어야 한다.

5. 기밀 추론 인프라

네오클라우드의 기회

「네오클라우드」 글에서 살펴본 것처럼, 코어위브·람다·크루소·네비우스 등은 AI 인프라 서비스로 빠르게 성장했다. 추론 워크로드는 학습과 달리 지속적으로 실행되고 사용자의 민감한 데이터를 실시간으로 처리한다는 점에서, 전통적인 보안 요건과는 상이하다. 네오클라우드의 구조적 약점 중 하나는 하이퍼스케일러 대비 부족한 컴플라이언스 및 보안 인증이다. FedRAMP, HIPAA, SOC 2 등과 같은 기업 또는 정부 고객이 요구하는 보안 요건을 충족하지 못하는 경우가 많아, 금융·의료·공공 부문의 민감한 추론 워크로드는 하이퍼스케일러로 향하는 경향이 있다.

기밀 추론은 이 문제에 기술적 대안을 제공한다. 기밀 추론 환경에서 데이터 보호는 클라우드 운영자의 정책, 인증 또는 SLA(Service Level Agreement)에 의존하는 것이 아니라 하드웨어와 암호학적 메커니즘에 의해 강제된다. 이는 네오클라우드가 광범위한 규제 인증 없이도 특정 보안 요건을 암호학적으로 증명할 수 있는 경로를 제공한다.

모델 공급자 입장에서도 기밀 추론은 네오클라우드 활용을 가능하게 하는 기술적 수단이 된다. 앤스로픽의 KMS 연동 방식처럼, 모델 가중치를 암호화된 채로 네오클라우드 GPU에 배포하고 TEE 원격 증명이 확인된 환경에서만 복호화 키를 전달하면, 인프라 제공 사업자도 모델 내용에 접근할 수 없다. 기밀 추론 서비스를 선제적으로 구축하는 네오클라우드는 가격 경쟁력과 기술적 보안 증명을 동시에 제공하는 포지셔닝이 가능해진다.

추론 특화 NPU와 기밀 추론 요구사항

기밀 추론 인프라는 GPU에 한정되지 않는다. 추론 워크로드는 전력 효율과 레이턴시가 경쟁력의 척도인데, GPU보다 추론에 최적화된 NPU 기반 가속기들이 이 시장을 겨냥하고 있다. NPU는 행렬 연산에 특화된 구조로 GPU 대비 추론 전력 효율이 높고, 엣지나 온프레미스 배포에 적합한 폼팩터를 가진다. 구글 TPU, 아마존 트레이니엄(Trainium)과 인퍼런시아(Inferentia), 메타 MTIA 등 주요 클라우드들 공급자들도 자체 NPU를 추론 비용 최적화 수단으로 개발/운용하고 있다.

NPU가 기밀 추론 인프라로 활용되려면 다음과 같은 보안 요건을 충족해야 한다.

온칩 메모리 암호화: NPU 내부의 스크래치패드 메모리와 가중치 버퍼에 적재된 데이터를 하드웨어 수준에서 격리해야 한다.
하드웨어 신뢰 루트 기반 원격 증명: NPU 펌웨어와 모델 코드의 무결성을 암호학적으로 증명하고, KMS가 이를 검증하여 복호화 키를 전달하는 체계가 필요하다.
호스트 DMA 격리: 호스트 CPU가 NPU 메모리에 임의로 접근하는 DMA(Direct Memory Access) 경로를 차단해야 한다.

화웨이의 경우 자사 어센드 NPU를 대상으로 한 어센드-CC 연구에서 CPU TEE에 의존하지 않고 NPU 자체를 신뢰 경계로 삼는 기밀 추론 아키텍처를 제안했다. 어센드 910A 위에서 라마 시리즈 모델의 기밀 추론을 구현하고 성능 오버헤드를 1% 이하로 줄일 수 있음을 보여주었다.

글로벌 시장에서 주목받고 있는 대표적인 국내 NPU 기업의 경우 양산 단계에 있으나 아직 공식적으로 기밀 컴퓨팅을 지원한다는 계획이 알려진 바는 없다. 2025년 10월 퓨리오사가 기밀컴퓨팅 컨소시엄의 스타트업 멤버로 가입한 바는 있다.

엔비디아 H100이 GPU TEE를 지원하기까지 오랜 개발 기간이 소요되었다는 점을 감안하면, 국내 NPU 기업들이 기밀 추론 지원을 조기에 로드맵에 반영하는 것이 중요하다. 정부 주도 국가 AI 컴퓨팅 인프라에 국산 NPU가 채택되고 그 위에서 의료·금융·공공 부문의 민감한 추론 서비스가 운영될 경우, 기밀 추론 기능은 사실상 진입 요건으로 기능하게 된다. 삼성전자와 SK하이닉스의 HBM이 GPU TEE 생태계의 필수 부품으로 자리 잡은 것처럼, 국내 NPU 기업들이 기밀 추론 지원을 칩 설계 단계부터 통합한다면 글로벌 기밀 AI 인프라 시장에서 차별화된 위치를 확보할 수 있다.

6. 기술적 과제 및 시사점

‘기밀 컴퓨팅’에서 풀어야 할 과제는 기밀 추론에서도 모두 적용된다. 표준화, CPU/GPU 제조사로 귀결되는 신뢰체인의 기본 한계, 그리고 사이드 채널 공격 등이다. 기밀 추론에서는 분산 추론으로부터 야기되는 보안 경계 문제가 더욱 복잡해질 수 있다. 대형 모델의 추론은 수십~수백 개의 GPU에 모델을 분산하는 텐서 병렬/파이프라인 병렬 방식으로 수행된다. GPU 간 통신 경로 전체가 신뢰 경계 안에 포함되어야 하는데, 이를 확장 가능한 방식으로 구현하는 것은 현재 진행 중인 과제다. 블랙웰의 NV링크 암호화는 이 방향으로 다소 진전한 것으로 볼 수 있지만 다중 노드로 확장되는 경우는 또 다른 차원의 얘기다.

기밀 추론은 우리나라 AX 전략에서도 매우 중요한 의미가 있다. 의료, 금융, 공공 영역의 AI 서비스 확산에 있어 기술적 기반이 될 수 있다. 환자 진료 기록의 클라우드 AI 처리를 기피하는 의료기관, 고객 거래 데이터의 외부 AI 전달을 우려하는 금융기관은 기밀 추론 환경에서 기술적으로 보장된 데이터 보호가 전제되어야 본격적으로 AI를 도입할 수 있다.

「네오클라우드」 글에서 언급된 국가 AI 데이터센터 구축 전략과 기밀 추론도 연결된다. 공공 AI 컴퓨팅 인프라를 민간 기업과 연구 기관이 활용할 때, 각 사용자의 데이터와 모델을 기술적으로 격리/보호하는 수단이 필요하다. 공공 인프라에서의 데이터 주권 문제를 정책·계약이 아닌 기술로 해결하는 도구로서 기밀 추론이 기능할 수 있다.

반도체 산업 관점에서도 기밀 추론은 기회를 제공한다. 「기밀 컴퓨팅」 글에서 언급했듯이 삼성전자와 SK하이닉스의 HBM이 GPU TEE 인프라의 필수 부품이다. GPU TEE에서 사용되는 메모리 암호화 기술과의 연동 최적화, 국산 AI 가속기의 TEE 기능 통합이 추진 가능한 방향이다. 기밀 추론이 AI 서비스의 표준 요건으로 자리 잡을 경우, 이 생태계에서의 위치는 당장 얼마나 빨리 로드맵을 설정하고 기술 투자를 하는가에 의해 결정된다.

AI 서비스에서 신뢰의 기술적 근거가 변화하고 있다. 서비스 제공업체의 약관, 법적 의무, 평판에 기반한 신뢰에서, 원격 증명을 통한 암호학적 검증으로 신뢰의 근거가 이행하고 있다. 에이전트 AI가 기업의 핵심 데이터를 처리하고 의료/금융 의사결정을 지원하는 환경이 확대될수록, 이 기술적 신뢰의 토대가 AI 서비스의 사회적 수용성을 결정하는 요인이 될 것이다.

참고문헌

1) 윤대균, “네오클라우드 - AI 시대의 새로운 인프라 패러다임”, 디지털서비스 이슈리포트, Jan 2026

2) The Wall Street Journal, “Can Nvidia’s Dominance Survive the Sea Change Under Way in AI Computing?”, Mar 16, 2026

3) 윤대균, “기밀 컴퓨팅이 여는 에이전트 AI 시대의 보안 혁신”, 디지털서비스 이슈리포트, Feb 2026

4) Nvidia, “NVIDIA Blackwell Architecture Technical Brief”, 2025 https://resources.nvidia.com/en-us-blackwell-architecture

5) Anthropic, “Confidential Inference Systems Design principles and security risks”, Jun 2025

6) 랜드 연구소가 2024년에 발표한 보고서인 "AI 모델 가중치 보안: 프론티어 모델의 탈취 및 악용 방지(Securing AI Model Weights: Preventing Theft and Misuse of Frontier Models)"에서 AI 모델의 가중치를 보호하기 위한 보안 시스템의 방어 능력을 SL1부터 SL5까지 총 5단계로 나누어 정의했다. 이중, SL4, SL5는 아주 높은 최상위 수준의 공격까지 방어해야 하는 등급이다.

7) Aritra Dhar et al., “Ascend-CC: Confidential Computing on Heterogeneous NPU for Emerging Generative AI Workloads”, arXiv, Jul, 2024

8) https://confidentialcomputing.io/2025/10/14/welcoming-furiosaai-to-the-confidential-computing-consortium/

이슈리포트_2026-03호.pdf (1 MB)

목록보기

이용안내

자료실

[2026-03] 디지털서비스 이슈리포트 01 기밀 추론과 신뢰 가능한 AI 인프라