
|
2025.07.30 (수정 : 2025.07.31)
|
|
|
04 DATA+AI 서밋 2025: 데이터브릭스(Databricks), 데이터와 AI의 미래를 그리다 │정채상 메가존 클라우드 기술 자문 엔지니어 들어가며: 데이터 시대의 새로운 지평 – 데이터브릭스의 부상 지난 호에서 클라우드 데이터 웨어하우스의 선두 주자 스노우플레이크(Snowflake)를 분석한 데 이어, 이번 달에는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 '레이크하우스 아키텍처'의 선구자인 데이터브릭스를 조명한다. 데이터브릭스는 단순한 데이터 분석 도구를 넘어, 데이터와 AI의 융합을 선도하는 '데이터 인텔리전스 플랫폼'으로서 기업의 디지털 혁신을 가속화하고 있다. 특히 올해 Data + AI 서밋 2025를 비롯한 다양한 혁신적인 발표를 통해 그 입지를 더욱 공고히 하고 있다. 데이터브릭스는 방대한 양의 정형 및 비정형 데이터를 효율적으로 저장, 처리, 분석하고, 나아가 머신러닝 및 AI 워크로드까지 지원하는 엔드-투-엔드 통합 플랫폼이다.1) 특히 오픈 소스 기술에 대한 깊은 기여와 이를 기반으로 한 혁신은 데이터브릭스를 현대 데이터 환경의 핵심 플레이어로 만들고 있다. 이러한 맥락에서, 스노우플레이크와 데이터브릭스를 연속적으로 다루며 비교하는데, 스노우플레이크가 클라우드 데이터 웨어하우스의 강력한 주자로서 SQL 기반 분석과 비즈니스 인텔리전스(BI)에 특화된 반면,2) 데이터브릭스는 레이크하우스 아키텍처를 통해 데이터와 AI의 통합이라는 더 넓은 비전을 제시한다. 이는 시장의 관심이 단순 데이터 저장 및 분석을 넘어 AI와의 시너지를 추구하는 방향으로 진화하고 있음을 반영하며, 각 플랫폼이 현대 데이터 환경에서 어떤 고유한 가치를 제공하는지 이해하는 데 필수적이다. 데이터브릭스: 통합된 데이터 인텔리전스 플랫폼의 핵심 레이크하우스 패러다임 데이터브릭스의 핵심은 '레이크하우스(Lakehouse)' 아키텍처이다(그림 9). 이 아키텍처는 데이터 레이크의 유연성(다양한 데이터 형식 지원, 저비용 스토리지)과 데이터 웨어하우스의 구조 및 성능(ACID 트랜잭션, 스키마 강제 적용, 데이터 품질, BI/SQL 성능)을 결합한 것이다. 이를 통해 기업은 정형 및 비정형 데이터를 모두 처리하고 분석하며, 머신러닝 워크로드까지 단일 소스에서 지원할 수 있다. 그리고, 데이터브릭스는 아파치 스파크(Apache Spark), 델타레이크(Delta Lake), MLflow 등 핵심 오픈 소스 프로젝트를 기반으로 이 레이크하우스를 구현하며, 데이터의 신뢰성과 성능을 보장한다. 그림 1 레이크하우스 레퍼런스 구조 주요 기능 및 강점 데이터브릭스 플랫폼은 다양한 데이터 및 AI 워크로드를 지원하는 포괄적인 기능을 제공한다.
데이터브릭스 vs. 스노우플레이크: 데이터브릭스와 스노우플레이크는 현대 데이터 관리 및 분석 시장에서 각기 다른 아키텍처 철학과 강점을 가지고 경쟁하고 있다. 아키텍처 철학 비교 데이터브릭스(레이크하우스): 데이터 레이크를 기반으로 데이터 웨어하우스의 기능을 통합하여, 정형/비정형 데이터, ETL, BI, ML/AI를 단일 플랫폼에서 처리하는 데 중점을 둔다. 이는 유연성과 확장성, 그리고 특히 AI/ML 워크로드에 최적화된 환경을 제공한다. 스노우플레이크(클라우드 데이터 웨어하우스): 스토리지, 연산, 서비스 계층이 완벽하게 분리된 독점적인 클라우드 네이티브 아키텍처를 통해 SQL 기반의 데이터 웨어하우징 및 비즈니스 인텔리전스(BI) 분석에 최적화된 성능과 관리 용이성을 제공한다. 스노우플레이크는 하드웨어 선택, 설치, 구성 또는 관리가 필요 없는 '거의 제로에 가까운 관리' 플랫폼으로 설계되었다. 주요 기능 및 사용 사례 비교 두 플랫폼은 각자의 강한 영역에서 차별화된 기능을 제공한다. 데이터 웨어하우징 및 BI: 스노우플레이크는 SQL 쿼리 및 BI 애플리케이션에서 탁월한 성능을 제공하며, '자동 스케일링', '제로-카피 클로닝', '타임 트래블', '데이터 공유' 등의 독점적 기능으로 데이터 분석가에게 편리함을 제공한다. 데이터브릭스는 레이크하우스 아키텍처를 통해 데이터 웨어하우스 기능을 수행할 수 있지만, 주로 빅데이터 처리 및 복잡한 데이터 엔지니어링에 강점을 가진다. 머신러닝 및 AI : 데이터브릭스는 MLflow, 데이터브릭스 런타임, 에이전트 브릭스(Agent Bricks), 딥스피드(DeepSpeed) 등 포괄적인 ML/AI 도구와 프레임워크를 이용하여 데이터 과학자 및 ML 엔지니어에게 강력한 환경을 제공한다. 스노우플레이크는 인-데이터베이스 머신러닝을 지원하며 파이썬 UDFs 및 저장 프로시저를 지원하지만, 데이터브릭스만큼 ML/AI 생태계가 깊이 통합되어 있지는 않다. 오픈 소스 및 개방성: 데이터브릭스는 델타레이크, 아파치 아이스버그 등 오픈 소스 표준에 대한 강력한 지지를 통해 데이터 형식에 대한 벤더 종속성을 최소화한다. 반대로 스노우플레이크는 독점적인 아키텍처를 가지며, 데이터 객체는 SQL 쿼리 작업을 통해서만 직접 접근 가능하다. 멀티-클라우드 전략: 데이터브릭스는 AWS, 애저, GCP 전반에 걸쳐 원활하게 작동하며, 통합 제어 플레인을 통해 벤더 종속성을 피할 수 있는 유연성을 제공한다. 스노우플레이크 또한 클라우드 기반이지만, 데이터브릭스처럼 오픈 소스 기반의 멀티-클라우드 유연성을 강조하지는 않는다. 데이터브릭스의 2025년 혁신: 데이터와 AI의 경계를 허물다 데이터브릭스는 2025년 한 해 동안, 특히 2025년 6월 9일부터 12일까지 샌프란시스코 모스콘 센터에서 개최된 Data + AI 서밋 2025에서 데이터 관리, 분석, AI 개발 및 배포 전반에 걸쳐 수많은 혁신적인 기능을 발표하며 '데이터 인텔리전스 플랫폼'으로서의 입지를 더욱 공고히 했다. 강화된 거버넌스 및 데이터 검색 데이터브릭스는 유니티 카탈로그를 중심으로 데이터 거버넌스와 검색 기능을 대폭 강화했다.
그림 2 유니티 카탈로그의 통합 거버넌스 구조 이러한 유니티 카탈로그의 발전은 데이터 거버넌스가 더 이상 규제 준수를 위한 단순한 부담이 아니라, 데이터 자산의 신뢰도를 높이고, 비즈니스 사용자가 필요한 데이터를 더 쉽고 안전하게 찾아 활용하며, 궁극적으로 데이터 기반 의사 결정의 속도와 정확성을 높이는 핵심적인 비즈니스 가치로 진화하고 있음을 보여준다. 특히 AI 기반 자동화는 거버넌스 오버헤드를 줄이면서 효율성을 극대화하는 방향으로 나아가고 있다. 데이터 접근 및 분석의 민주화 데이터브릭스는 비즈니스 사용자들이 데이터에 더 쉽게 접근하고 활용할 수 있도록 지원하는 기능들을 선보였다.
그림 3 데이터브릭스 지니 화면 데이터 운영 및 마이그레이션 가속화 데이터브릭스는 데이터 운영의 효율성을 높이고 기존 데이터 웨어하우스에서 레이크하우스로의 전환을 가속화하는 데 중점을 두었다.
그림 4 레이크플로우 디자이너 화면
AI 개발 및 배포의 진화 데이터브릭스는 생성형 AI 시대에 발맞춰 AI 개발 및 배포 환경을 크게 발전시켰다.
이러한 광범위한 AI 관련 발표는 데이터브릭스가 레이크하우스 기반의 데이터 인텔리전스 플랫폼 비전을 통해, 기업이 생성형 AI를 실제 비즈니스에 적용하고 확장하는 데 필요한 엔드-투-엔드 인프라와 도구를 제공하려는 강력한 의지를 보여준다. 데이터브릭스는 데이터 관리와 분석을 넘어, AI 모델의 개발, 배포, 거버넌스까지 아우르는 통합 플랫폼으로서 생성형 AI 시대의 핵심 인프라 제공자로 자리매김하려 하고 있으며, 이는 스노우플레이크가 아직 따라잡지 못한 영역에서 데이터브릭스의 강점을 보여준다. 맺으며: 데이터와 AI의 미래를 향한 데이터브릭스의 비전 데이터브릭스는 레이크하우스 아키텍처를 기반으로 데이터 엔지니어링, 분석, 머신러닝, 그리고 생성형 AI까지 아우르는 통합 '데이터 인텔리전스 플랫폼'으로 진화하고 있음을 2025년의 여러 혁신을 통해 명확히 보여주고 있다. 오픈 소스에 대한 강력한 지지와 비즈니스 사용자 중심의 접근 방식은 이러한 비전을 현실화하는 핵심 동력으로 작용하고 있다. 데이터 플랫폼 시장은 통합과 전문화라는 이중 트렌드를 동시에 보인다. 스노우플레이크가 클라우드 데이터 웨어하우징 및 BI 분야에서 여전히 강력한 강점을 유지하는 전문화된 길을 걷는 반면, 데이터브릭스는 복잡한 데이터 엔지니어링, AI/ML 워크로드, 그리고 이제는 트랜잭션 데이터까지 포괄하는 통합 플랫폼으로서의 입지를 굳히고 있는데, 이는 기업들이 '단일 통합 플랫폼'을 선호할지, 아니면 '각 분야 최고의 전문 솔루션'을 조합할지에 대한 전략적 고민이 심해지는 것을 의미한다. 데이터브릭스는 전자의 길을 강력하게 추진하며, 특히 AI/ML 워크로드에 대한 통합적 접근을 통해 차별화를 꾀하고 있다. 2025년 발표된 유니티 카탈로그의 거버넌스 확장, 레이크베이스를 통한 OLTP 통합, 지니 AI/BI를 통한 비즈니스 사용자 민주화, 그리고 에이전트 브릭스를 통한 AI 에이전트 개발 간소화는 모두 이러한 통합 비전의 구체적인 구현 사례로서, 데이터와 AI의 융합이 가속화되는 미래 데이터 환경에서 데이터브릭스는 엔터프라이즈 AI의 핵심 인프라 제공자로서 중요한 역할을 수행할 것으로 전망된다. 기업은 자사의 특정 니즈와 워크로드 특성을 면밀히 분석하여, 두 플랫폼 중 어떤 것이 더 적합한지, 혹은 상호 보완적으로 활용될 수 있는지에 대한 심층적인 고려가 필요할 것이다. 참고문헌 1) https://learn.microsoft.com/en-us/azure/databricks/introduction/ 2) https://docs.snowflake.com/en/user-guide/intro-key-concepts
이슈리포트 2025-07호.pdf (1 MB)
|