2025.04.30 (수정 : 2025.04.30)
|
|
[2025-04] 디지털서비스 이슈리포트 03 뉴로모픽 프로세서는 GPU의 대안이 될 수 있을까? | |
---|---|
03 뉴로모픽 프로세서는 GPU의 대안이 될 수 있을까? │윤대균 아주대학교 1. 들어가며 초거대 언어모델(LLM)의 성능이 좋아지고 텍스트뿐만 아니라, 음성, 이미지, 영상 등 ‘멀티 모달’ 형태의 다양한 서비스로 더 많은 일반인이 쉽게 접하게 되면서 LLM을 학습시키고 이를 바탕으로 추론하는 데에 드는 에너지 등 소요 자원에 대한 부담이 더욱 심각한 이슈로 대두되고 있다. 이에 학습 및 추론 효율화를 위한 다양한 모델 최적화 기법이 등장했고 실제 효과를 보여주고 있다. 최근 스포트라이트가 집중된 딥시크-R1에서도 MoE(Mixture of Experts), MLA(Multi-head Latent Attention), FP8 등을 적용하여 획기적으로 효율을 높였다고 알려져 있다. 한편 프로세서 성능 자체를 최적화하는 연구 및 개발은 꾸준히 이어져 오며 엔비디아의 후속 제품이나 구글의 최신 TPU 등에 적용되고 있다. 특히 일반 사용자들이 주로 사용하는 LLM 추론 성능에 초점을 맞춘 새로운 프로세서들이 속속 등장하고 있다. 퓨리오사의 레니게이트(RNGD)라는 제품도 다중 선형대수(Multilinear Algebra)의 핵심 연산 중 하나인 텐서축약(Tensor Contraction)을 프로세서에 적용해 AI 추론 성능을 최적화한 제품이다.1) 이외에도 CPU와 GPU 그리고 TPU를 조합하여 성능을 최적화하거나 특정 목적에 최적화하여 소프트웨어로 구동되는 연산을 하드웨어화하여 효율을 극대화한 FPGA(Field Programmable Gate Array) 기술을 활용하기도 한다. 이런 가운데 인간의 뇌 작동 방식에서 영감을 얻은 새로운 패러다임으로 등장한 것이 바로 ‘뉴로모픽 컴퓨팅(Neuromorphic Computing)’과 이를 구현하는 뉴로모픽 프로세서(Neuromorphic Processor)다. 현재 컴퓨팅 시스템의 기본 구조인 폰 노이만 아키텍처에서는 CPU와 메모리가 분리되어 끊임없이 데이터를 주고받아야 하며 이러한 데이터 이동 과정에서 발생하는 병목 현상과 에너지 소모를 피할 수 없다. 이러한 폰 노이만 구조의 한계를 넘어, 뇌처럼 정보를 처리하고 학습하는 방식을 모방하여 궁극적인 에너지 효율성과 성능을 달성하고자 하는 것이 뉴로모픽 프로세서의 궁극적인 목표이다. 이 새로운 접근 방식은 과연 LLM 시대를 지배하는 GPU의 대안이 될 수 있을까? 2. 뉴로모픽 컴퓨팅 기본 개념 2.1 폰노이만 vs. 뉴로모픽 폰노이만 구조와의 비교를 통해 뉴로모픽 프로세서 구조의 기본 개념을 이해할 수 있다. (그림 1) 그림 1 폰노이만 아키텍처와 뉴로모픽 아키텍처 비교2) 뉴로모픽 프로세서의 주요 특징을 열거하면 다음과 같다.
2.2 스파이킹 뉴럴 네트워크 뉴로모픽 아키텍처에서 가장 특징적인 부분은 실제 연산을 수행하는 스파이킹 뉴럴 네트워크(SNN: Spiking Neural Network)이다. 기존 딥러닝 네트워크(MLP, RNN, CNN 등3))가 실숫값을 주고받으며 동작하는 것과는 달리 SNN에서는 뉴런에서 ‘특정 시간’에 스파이크가 발생했는가 아닌가에 대한 정보만 주고받으며 신경망이 동작한다. 기초적인 동작 원리를 살펴보면 다음과 같다. (그림 2) (B) (A) 그림 2 SNN 동작 방식4) 첫 번째 그림(A)에서 시간이 흐르며 프리시냅틱 뉴런으로부터 포스트시냅틱 뉴런으로 3개의 스파이크가 발생한 것을 볼 수 있다. 스파이크는 SNN의 가장 기초적인 정보 전달 단위이다. 이렇게 발생한 스파이크에 따른 막전위(Membrane Potential)의 변화 움직임을 표시한 것이 두 번째(파란색) 그래프이다. 막전위는 세포막 안팍의 전위차를 의미하며, 스파이크가 들어오면서 일부 세포의 막전위가 일시적으로 순간 상승했다가 서서히 떨어지는 것을 볼 수 있다. 뉴런은 이 자극에 의해 조금씩 반응하며 막전위가 상승하다가 임곗값(Ut)을 넘는 순간 스파이크가 발생하고 막전위는 0으로 초기화된다. 스파이크가 많이/자주 발생하면 뉴런 간의 연결이 강화되고 적게 발생하면 뉴런 간의 연결이 약화하는 방식으로 작동한다. 이를 DNN(Deep Neural Network)처럼 여러 개의 뉴런으로 네트워크를 구성한 예시가 그림 2의 두번째 그림(B)이다. 여러 개의 입력 뉴런으로부터 입력을 받아 스파이크를 생성하는 것을 볼 수 있다. 실제 데이터를 SNN에서 처리하기 위해서는 적절한 ‘신경 코딩’ 방식이 필요하다. 예를 들어 이미지를 분석해야 한다고 가정하면 입력 픽셀을 뉴런으로 전송되는 스파이크로 변환하기 위한 코딩 방식이 필요하다. 여기에는 속도 코딩(Rate), 시간 코딩(TTFS: 첫 번째 스파이크까지의 시간), 위상(Phase)코딩, 버스트(Burst) 코딩 등 여러 방식이 존재한다. 5) 그림 2(A)에서 보여주는 뉴런의 동작 방식에 의하면 입력 스파이크가 들어오면 현재 내부 상태를 나타내는 막전위가 누적되며 변화한다. 이 값이 임계점을 넘길 때 이 뉴런에서 스파이크를 생성하므로 뉴런은 이 막전위를 일종의 ‘메모리’로 유지하여야 한다. 즉 이를 다시 풀어 얘기하면, 각 뉴런은 입력 신호를 받아 처리(연산)하면서 동시 그 상태를 유지(저장)한다. 즉 그림 1에서처럼 뉴런 자체에 메모리와 연산이 통합되어 있으므로 뉴로모픽 프로세서는 ‘인메모리 컴퓨팅(In-Memory) 구조’를 가지고 있으며, 뉴로모픽 프로세서가 일반 폰노이만 프로세서와 구분되는 핵심적인 부분이다. 2.3 뉴로모픽 프로세서 뉴로모픽 프로세서를 만들기 위해서는 생물학적 신경망을 시뮬레이션하기 위한 모델 및 이를 구현하기 위한 하드웨어 기술이 필요하다. 우선 뉴로모픽 프로세서의 가장 핵심인 뉴런을 구현하기 위해서는 복잡한 생물학적 뉴런을 단순화할 필요가 있다. 가장 보편적으로 사용되는 것이 누출통합발화 (LIF:Leaky Integrate and Fire) 모델이다. 이를 간단히 설명하면:
이 과정은 앞서 그림 2(A)에서 소개된 과정과 동일하다. 뉴런의 스파이크 생성 메커니즘과 시간의 흐름에 따른 동적 특성을 반영하면서도 매우 단순하기 때문에 뉴런을 하드웨어로 구현하기에 매우 적합한 모델이다. 6) 그다음으로 중요한 것은 뉴런을 서로 연결하는 시냅스 구현이다. 이는 멤리스터(Memristor) 소자를 활용한 크로스바 어레이로 구현된다. 멤리스터는 ‘메모리(Memory)’와 ‘레지스터(Resistor)”의 합성어로 전류가 흐른 방향과 양에 따라 저항값이 변하는 특성을 가진다. 앞서 두 뉴런 사이에 스파이크가 자주 발생하면 시냅스의 연결 강도가 높아진다고 했는데, 한쪽으로 흐른 전류가 많을 경우 멤리스터의 저항값이 낮아지며, 따라서 이 방향으로의 더 많은 정보 전송이 가능하다는 것이 시냅스의 연결 강도가 높음을 의미한다. 또 다른 중요한 특성으로는 전원이 꺼져도 멤리스터 소자의 마지막 저항 상태가 그대로 유지된다는 사실이다. 이러한 비휘발성 특성은 시냅스 어레이를 통해 연결되는 뉴런 간의 가중치로 활용될 수 있으며 뇌의 시냅스 가소성(Synaptic Plasticity)7)을 시뮬레이션할 수 있도록 한다. 멤리스터에 저항값이 저장되는 사실도 인메모리 컴퓨팅의 특성 중 하나이다. 세 번째로 뉴런들 사이에 이벤트(스파이크)를 전송하기 위한 통신 프로토콜이 필요하다. 이때 활용되는 프로토콜이 AER(Address Event Representation)이다. AER은 뉴런 간의 스파이크 통신을 효율적으로 처리하기 위해 개발된 통신 방식으로, 스파이크를 발생시킨 뉴런의 주소(address)와 타임스탬프를 해당 이벤트와 함께 인코딩하여 전송하는 방식이다. 한 뉴런이 발화하여 다른 뉴런에 신호를 전달할 경우 같은 코어에 있으면 로컬 시냅스 어레이로 바로 전달하면 되지만, 다른 코어에 있을 경우 하나 혹은 그 이상의 AER 라우터를 통해 전달하게 된다. 이러한 방식을 통해 뉴로모픽 프로세서 확장이 가능하다. 뉴런, 시냅스 어레이, AER이 포함된 뉴로모픽 프로세서의 개략적인 구조도가 그림 3이다. 뉴런 코어에서는 일반적으로 다수의 뉴런이 포함되며 한 프로세서/칩은 여러 코어로 구성된다. 그림 3 뉴로모픽 프로세서 기본 구조 3. 뉴로포믹 프로세서를 활용한 모델링 뉴로모픽 프로세서가 본격적으로 AI 애플리케이션 구동에 활용되기 위해서는 우선 개발된 DNN, RNN, CNN 등의 모델을 뉴로모픽 프로세서 기반으로 전환하는 방식이 가능하다. 그다음으로는 직접 SNN(Spiking Neural Network)을 학습시키는 것이다. 그리고 이 둘의 장점을 결합하는 하이브리드 방식이 있다. 기존 딥러닝 모델을 전환하기 위해서는 학습된 가중치를 SNN의 시냅스 어레이 구조로 복사하고 활성화 함수를 스파이크 생성 메커니즘으로 변환하는 것이 필요하다. 앞서 언급한 다양한 코딩 방식을 활용하여 아날로그 입력 데이터를 스파이크 신호로 변환하는 것이 가능하다. 직접 SNN을 학습하는 방식으로는 대리 기울기 방식(Surrogate Gradient)을 이용하여 미분할 수 없는 스파이크 함수에 대해 근사 기울기를 사용하거나, 생물학적 학습 규칙을 적용한 학습 방식인 스파이크 타이밍 의존 가소성(STDP: Spike-Timing Dependent Plasticity) 방식이 있다. STDP는 시냅스 전후 뉴런의 스파이크 타이밍 차이에 따라 가중치를 조정하며 학습하는 방식이다. 하이브리드 방식으로는 계층을 분할하여 일부 계층은 기존 DNN 모델로 나머지는 SNN으로 구현하는 방식, 그리고 각각의 장점을 활용하여 전처리 또는 후처리를 각각 담당하는 방식이 있다. 또한 모델별 특화된 변환 방식도 가능한데, 특히 시계열과 연관된 RNN의 경우 시간정보 처리가 가능한 SNN으로 매핑이 비교적 자연스럽게 이루어질 수 있다. LLM의 근간이 되는 트랜스포머의 경우 어텐션 가중치를 시냅스 연결 강도, 즉 시냅스 어레이의 멤리스터 소자에 저장된 값으로 매핑 가능하며, 토큰 간 관계를 스파이크 타이밍으로 나타낼 수도 있다. 하지만 스파이크의 특성상 나타날 수 있는 정확도의 결여, 이를 해결하는 데 필요한 스파이크 타이밍 정교화 등 해결해야 할 과제가 많이 남아 있다. 4. 뉴로모픽 칩 시장 현황 뉴로모픽 칩 시장은 아직 본격적인 상용화가 이루어지고 있다고 보긴 어려운 상황이다. 인텔, IBM과 같은 대기업 및 여러 스타트업이 뉴로모픽 칩을 개발하고 일부 양산도 하고 있으나 아직은 특정 목적의 니치 마켓을 대상으로 하거나 대부분 연구용으로 활용되고 있다. 이중 대표격인 인텔의 경우 Loihi 2라는 뉴로모픽 칩을 기반으로 한 제품 라인업을 가지고 있다.8) Loihi 2 칩 하나에 최대 100만 뉴런과 1억 2천만 시냅스를 가질 수 있다. Loihi 2 칩 8개를 묶어 만든 Kapoho Point가 있고, 2024년 발표한 마찬가지로 Loihi 2 기반 시스템인 Hala Point는 11억 5천 개의 뉴런과 1,280억 개의 시냅스를 갖는다. Hala Point는 초당 240회의 뉴런 실행 및 380조 회의 시냅스 실행이 가능하다. 인메모리 컴퓨팅 특성에서 나타나는 성능을 메모리 전송 속도로 치환한다면 초당 16페타바이트의 메모리 대역폭을 제공하는 것과 동일한 효과를 나타낸다. IBM의 뉴로모픽 칩인 TrueNorth의 경우 4,096개의 뉴런 코어에 총 100만 개의 뉴런을 가지고 있으며 2억 5천만 개의 시냅스가 연결되어 있다. 이 밖에도 퀄컴, Innatera, BrainChip, SynSense AG 등의 회사에서 뉴로모픽 칩을 개발하고 있다. 북미가 주류시장을 이루고 있으며 2025년 125억 달러에서 2034년 5천억 달러 시장 규모를 예상하고 있다. 이는 CAGR 67.3%에 달한다.9) 5. 나가며 다시 원래의 질문으로 돌아와서 과연 뉴로모픽 프로세서가 GPU의 대안이 될 수 있는가? 현시점에서 이에 대한 답은 ‘아니다’이다. DNN 기반 모델을 SNN으로 구현하는 데에는 아직 넘어야 할 산이 많다. 특히 LLM을 SNN 기반으로 구현하는 것은 아직은 요원한 것으로 보인다. 하지만 뉴로모픽 프로세서가 가진 에너지 효율성 및 인메모리 컴퓨팅 구조에 특화된 지속적인 학습이 가능하다는 점은 당장 다양한 응용 분야에서 활용이 가능할 것으로 전망한다. 특히 저전력, 실시간 처리, 비동기성 이벤트 기반 데이터 처리가 중요한 분야에서 적용이 유망하다. 다음과 같은 것들이 포함될 수 있다.
뉴로모픽 컴퓨팅이 주류기술로 자리 잡기 위해서는 이를 활용한 다양한 알고리듬 개발과 함께 표준화된 프로그래밍 모델 등 소프트웨어 생태계가 구축되어야 한다. 이런 도전과제를 조금씩 풀어가며 뉴로모픽 컴퓨팅 시장도 점차 확대될 것이다. 결론적으로 뉴로모픽 프로세서는 GPU의 대안이 될 수 있는 경쟁 관계가 아니라 AI를 효과적으로 구현할 수 있는 상호 보완적인 형태로 시장에서 주요한 한 축을 담당하게 될 것이다. 참고문헌 1) https://furiosa.ai/ 2) Catherine D. Schuman et al “Opportunities for neuromorphic computing algorithms and applications”, Nature Computational Science, Jan. 2022 3) 각각 Multi-Layer Perceptron, Recurrent Neural Network, Convolutional Neural Network을 말한다. 4) 그림 (A)출처: Doo Seok Jeong, “Tutorial: Neuromorphic spiking neural networks for temporal learning”, Journal of Applied Physics, Oct. 2018, 그림 (B)출처: Hyeryung Jang, “Compute With Time, Not Over It: An Introduction to Spiking Neural Networks”, King’s Clollege London, Aug. 16, 2019, 5) Wenzhe Guo1, et al.,”Neural Coding in Spiking Neural Networks: A Comparative Study for Robust Neuromorphic Systems”, Front. Neurosci., Vol 04 Mar. 2021 6) 단순한 RC(Resistor Capacitor)회로를 이용해 구현 가능하다. 7) 시냅스가 활동의 증가 또는 감소에 반응하여 시간이 지남에 따라 강화 또는 약화되는 능력이다. 기억은 뇌에서 복잡하게 상호 연결된 신경 회로 표현되므로 시냅스 가소성은 학습과 기억의 중요한 신경 화학적 기반 중 하나다. 8) https://www.intel.com/content/www/us/en/research/neuromorphic-computing.html 9) Einpresswire, “Neuromorphic Chip Market Demand, Innovations, and Key Players | 2025 To 2034 Outlook Report”, Mar 28, 2025
이슈리포트_2025-04호.pdf (937 KB)
|