GPU 가속 Apache Spark™

GPU 가속 Apache Spark 데이터 분석, 머신 러닝, 딥 러닝 파이프라인용

Apache Spark™ 3 데이터 사이언스 파이프라인을 코드 변경 없이 GPU 가속화하여 인프라 비용을 대폭 낮추면서 데이터 처리 및 모델 트레이닝 속도를 높여 보십시오.

 

NVIDIA GPU에서 Spark의 주요 이점

NVIDIA GPU에서 Spark의 주요 이점
Faster Execution Time

더 빠른 실행 시간

데이터 준비 작업의 성능을 가속화하여 파이프라인의 다음 단계로 빠르게 이동할 수 있습니다. 이를 통해 모델을 더 빠르게 학습시키면서 데이터 사이언티스트와 엔지니어는 가장 중요한 활동에 집중할 수 있습니다.

Streamline Analytics to AI

인프라 비용 절감

더 적은 비용으로 더 많은 작업을 수행하세요: NVIDIA® GPU의 Spark는 CPU에 비해 더 적은 하드웨어로 더 빠르게 작업을 완료하므로 조직의 시간뿐만 아니라 온프레미스 자본 비용 또는 클라우드 운영 비용도 절약할 수 있습니다.

Reduced Infrastructure Costs

간소화된 AI 여정

RAPIDS 가속기를 포함한 엔드투엔드 AI 소프트웨어 플랫폼인 NVIDIA AI 엔터프라이즈를 사용하면 데이터 준비 및 처리부터 모델 트레이닝, 시뮬레이션 및 추론에 이르는 엔드투엔드 AI 파이프라인을 대규모로 가속화하여 생산 시간을 단축할 수 있습니다.

NVIDIA GPU와 함께하는 Spark의 주요 혜택

Faster Execution Time

더욱 빨라진 실행 시간

파이프라인의 다음 단계로 빠르게 넘어갈 수 있도록 데이터 준비 작업의 성능을 가속화합니다. 이를 통해 모델 트레이닝 속도를 높일 수 있는 동시에 데이터 사이언티스트와 엔지니어가 가장 중요한 활동에 집중할 수 있는 시간이 확보됩니다.

Streamline Analytics to AI

분석에서 AI까지의 과정을 간소화

Spark 3은 데이터 수집부터 모델 트레이닝과 비주얼라이제이션에 이르는 엔드 투 엔드 파이프라인을 구현합니다. Spark 및 ML/DL(딥 러닝) 프레임워크 모두에 동일한 GPU 가속 인프라를 사용하여 별도의 클러스터에 대한 필요성을 없애고 전체 파이프라인에 GPU 가속화를 적용할 수 있습니다.

Reduced Infrastructure Costs

인프라 비용 절감

더 적은 비용으로 더 많은 작업 수행: NVIDIA® GPU의 Spark는 CPU에 비해 적은 하드웨어로 작업을 더 빠르게 완수하므로 조직의 시간을 절감하는 것은 물론, 온프레미스 자본 비용 또는 클라우드 운영 비용도 절감해 줍니다.

Upfront Insights

학습 전 인사이트

지능형 워크로드 최적화 도구를 사용하여 GPU 가속화에 적합한 Apache Spark™ 워크로드의 비용 이익을 검증 및 추정합니다. 이 도구는 비용 절감 및 성능을 위해 최적화된 GPU 매개변수를 추천합니다.

분석 도구

5배 더 빠르게 Apache Spark 실행

GPU 가속화를 위한 워크로드를 평가하고 최적의 비용 절감을 위한 클러스터 구성 방법을 알아보세요.

Spark 3 혁신

수많은 데이터 처리 작업의 “당혹스러운 병렬” 성질을 감안하면, Spark 데이터 처리 쿼리에 당연히 GPU의 아키텍처를 활용해야 하며 이는 GPU가 AI에서 DL 워크로드를 가속화하는 방식과 유사합니다. GPU 가속화는 개발자에게 투명하며 이러한 혜택을 얻기 위해 코드를 변경할 필요가 없습니다. 투명한 GPU 가속화를 제공하는 데 기여한 Spark 3의 주요 발전 사항 3가지:

Spark 3을 위한 새로운 RAPIDS 가속기

NVIDIA CUDA® 는 NVIDIA GPU 아키텍처에서의 연산 작업 가속화를 지원하는 혁신적인 병렬 컴퓨팅 아키텍처입니다. NVIDIA에서 개발된 RAPIDS는 데이터 사이언스 파이프라인의 GPU 가속화를 지원하는 CUDA를 기반으로 계층화된 일련의 오픈 소스 라이브러리입니다.

NVIDIA가 제작한 Spark 3용 RAPIDS 가속기는 Spark SQL과 DataFrame 작업의 성능을 대폭 향상해 ETL 파이프라인을 가로채서 가속화합니다.

Spark 구성 요소 수정

Spark 3은 RAPIDS 가속기가 SQL 및 DataFrame 연산자 가속화를 위해 연결되는 Catalyst 쿼리 최적화 프로그램의 주상 처리를 지원합니다. 쿼리 계획을 실행할 때 이러한 연산자는 Spark 클러스터 내부의 GPU에서 실행될 수 있습니다.

또한, NVIDIA는 Spark 프로세스 간 데이터 전송을 최적화하는 새로운 Spark 셔플 구현을 만들었습니다. 이 셔플 구현은 UCX, RDMA 및 NCCL을 포함하는 GPU 가속 통신 라이브러리에 구축됩니다.

Spark의 GPU 지원 스케줄링

Spark 3은 CPU 및 시스템 메모리와 함께 GPU를 첫 번째 클래스 리소스로 인식합니다. 이를 통해 Spark 3은 작업 가속화 및 완료에 필요한 경우 해당 GPU 리소스가 포함된 서버로 GPU 가속 워크로드를 직접 배치할 수 있습니다.

NVIDIA 엔지니어가 이 주요 Spark 기능 향상에 기여하여 Spark 독립형, YARN 및 Kubernetes 클러스터의 GPU 리소스에서 Spark 애플리케이션 실행이 가능합니다.

deep-learning-apache-spark-3-innovations-refactored

Spark의 가속 분석 및 AI

이제 ML 및 DL 애플리케이션이 동일한 GPU 인프라를 활용하는 동안 ETL 작업이 가속화되므로 Spark 3 은 분석 및 AI에서 큰 획을 그은 것입니다. 이러한 가속화된 데이터 사이언스 파이프라인의 전체 스택은 아래와 같습니다.

엔터프라이즈급 Spark 가속

아파치 스파크용 RAPIDS 가속기는 NVIDIA AI 엔터프라이즈와 함께 사용할 수 있습니다. Amazon EMR, Google Cloud Dataproc, Databricks 등 온프레미스에서 클라우드에 이르는 인증된 플랫폼에서 엔터프라이즈급 지원, 보안 및 안정성에 대한 완전한 액세스와 함께 Spark 배포에 최적화된 성능을 얻으세요. 보장된 응답 시간, 우선 보안 알림, NVIDIA의 데이터 사이언스 전문가에 대한 액세스를 활용하세요.

IRS

Clouddera와 NVIDIA의 통합으로 데이터 기반 인사이트를 활용하여 미션 크리티컬한 활용 사례를 향상시킬 수 있습니다. 저희는 현재 이 통합을 구현하고 있으며, 이미 데이터 엔지니어링 및 데이터 사이언스 워크플로우 비용의 절반으로 10배 이상의 속도 향상을 경험하고 있습니다.

– Joe Ansaldi, IRS/Research Application Analytics & Statistics Division,n(RAAS)/Technical Branch Chief

Adobe

NVIDIA는 CPU에서 Spark를 실행하는 것에 비해 NVIDIA 가속 Spark 3을 실행함으로써 엄청나게 더 빨라진 성능을 경험하고 있습니다. 이러한 획기적인 GPU 성능 혜택으로 당사의 전체 Adobe Experience Cloud 앱 제품군에서 AI 기반 기능에 대한 완전히 새로운 가능성이 열리고 있습니다.

- William Yan, Adobe머신 러닝 부문 선임 이사

databricks

NVIDIA와의 지속적인 협력으로 Databricks와 Apache Spark™ 3에 대한 RAPIDS 최적화 관련 성능이 향상되어 Adobe 등의 공동 고객이 이점을 누리고 있습니다. 이러한 기여 덕분에 데이터 파이프라인, 모델 트레이닝 및 채점이 더욱 빨라지게 되어 데이터 엔지니어와 데이터 사이언티스트 커뮤니티에서 더 많은 돌파구와 인사이트를 바로 얻을 수 있습니다.

- Matei Zaharia, Apache Spark™ 창안자이자 Databricks 최고 기술 책임자

IRS

Clouddera와 NVIDIA의 통합으로 데이터 기반 인사이트를 활용하여 미션 크리티컬한 활용 사례를 향상시킬 수 있습니다. 저희는 현재 이 통합을 구현하고 있으며, 이미 데이터 엔지니어링 및 데이터 사이언스 워크플로우 비용의 절반으로 10배 이상의 속도 향상을 경험하고 있습니다.

- Joe Ansaldi, IRS/Research Application Analytics & Statistics Division,n(RAAS)/Technical Branch Chief

Adobe

NVIDIA는 CPU에서 Spark를 실행하는 것에 비해 NVIDIA 가속 Spark 3을 실행함으로써 엄청나게 더 빨라진 성능을 경험하고 있습니다. 이러한 획기적인 GPU 성능 혜택으로 당사의 전체 Adobe Experience Cloud 앱 제품군에서 AI 기반 기능에 대한 완전히 새로운 가능성이 열리고 있습니다.

- William Yan, Adobe머신 러닝 부문 선임 이사

databricks

NVIDIA와의 지속적인 협력으로 Databricks와 Apache Spark™ 3에 대한 RAPIDS 최적화 관련 성능이 향상되어 Adobe 등의 공동 고객이 이점을 누리고 있습니다. 이러한 기여 덕분에 데이터 파이프라인, 모델 트레이닝 및 채점이 더욱 빨라지게 되어 데이터 엔지니어와 데이터 사이언티스트 커뮤니티에서 더 많은 돌파구와 인사이트를 바로 얻을 수 있습니다.

- Matei Zaharia, Apache Spark™ 창안자이자 Databricks 최고 기술 책임자

IRS

Clouddera와 NVIDIA의 통합으로 데이터 기반 인사이트를 활용하여 미션 크리티컬한 활용 사례를 향상시킬 수 있습니다. 저희는 현재 이 통합을 구현하고 있으며, 이미 데이터 엔지니어링 및 데이터 사이언스 워크플로우 비용의 절반으로 10배 이상의 속도 향상을 경험하고 있습니다.

- Joe Ansaldi, IRS/Research Application Analytics & Statistics Division,n(RAAS)/Technical Branch Chief

Adobe

NVIDIA는 CPU에서 Spark를 실행하는 것에 비해 NVIDIA 가속 Spark 3을 실행함으로써 엄청나게 더 빨라진 성능을 경험하고 있습니다. 이러한 획기적인 GPU 성능 혜택으로 당사의 전체 Adobe Experience Cloud 앱 제품군에서 AI 기반 기능에 대한 완전히 새로운 가능성이 열리고 있습니다.

- William Yan, Adobe머신 러닝 부문 선임 이사

databricks

NVIDIA와의 지속적인 협력으로 Databricks와 Apache Spark™ 3에 대한 RAPIDS 최적화 관련 성능이 향상되어 Adobe 등의 공동 고객이 이점을 누리고 있습니다. 이러한 기여 덕분에 데이터 파이프라인, 모델 트레이닝 및 채점이 더욱 빨라지게 되어 데이터 엔지니어와 데이터 사이언티스트 커뮤니티에서 더 많은 돌파구와 인사이트를 바로 얻을 수 있습니다.

- Matei Zaharia, Apache Spark™ 창안자이자 Databricks 최고 기술 책임자

무료 백서 다운로드

AI 성능으로 빅 데이터의 가치를 최대한 활용하고 싶으신가요? 새로운 백서인, “Apache Spark™ 3.x 가속화 – NVIDIA GPU를 활용하여 차세대 분석 및 AI 강화"를 다운로드해 Apache Spark™ 의 다음 혁신에 관해 자세히 알아보세요.