GPU의 성능을 활용하여 데이터 사이언스, 머신 러닝 및 AI 워크플로우를 쉽게 가속화하세요.
고속 GPU 컴퓨팅으로 데이터 사이언스 워크플로우 전체를 실행하고 데이터 로딩, 데이터 조작 및 머신 러닝을 병렬화하여 50배 빠른 엔드 투 엔드 데이터 사이언스 파이프라인을 실현하세요.
데이터 사이언스와 머신러닝은 세계에서 가장 큰 컴퓨팅 세그먼트입니다. 분석 모델의 정확도를 약간만 개선하면 그 순이익은 수십억 달러에 이릅니다. 따라서 데이터 사이언티스트는 최고의 모델을 구축하여 매우 정확한 결과와 성능 모델을 얻기 위해 훈련, 평가, 반복 및 재훈련에 힘씁니다. RAPIDS™를 사용하면 며칠이 걸리는 프로세스가 몇 분 만에 완료되므로 가치 창출 모델을 보다 쉽고 빠르게 구축하고 전개할 수 있습니다. NVIDIA LaunchPad를 사용하면 RAPIDS 랩을 직접 사용할 수 있으며 NVIDIA AI Enterprise에서는 AI 프로젝트의 모든 측면에서 기업을 지원할 수 있습니다.
워크플로우에서 원시 데이터를 트레이닝 데이터로 여러 번 반복하여 변환하고, 이는 여러 알고리즘 조합에 피드되며, 하이퍼 매개변수 조정을 거쳐 최적의 정확도 및 성능을 위해 모델, 모델 매개변수 및 데이터 기능의 올바른 조합을 찾아냅니다.
RAPIDS는 데이터 사이언스 파이프라인을 완전히 GPU에서 실행하기 위한 일체의 오픈 소스 소프트웨어 라이브러리 및 API로, 트레이닝 시간을 며칠에서 몇 분으로 줄일 수 있습니다. NVIDIA® CUDA-X AI™를 기반으로 구축된 RAPIDS에는 수년에 걸쳐 개발된 그래픽, 머신 러닝, 딥 러닝, 고성능 컴퓨팅(HPC) 등의 기능이 통합되어 있습니다.
데이터 사이언스를 사용하면 더 많은 컴퓨팅을 통해 인사이트를 더 빨리 얻을 수 있습니다. RAPIDS는 NVIDIA CUDA®를 활용하여 전체 데이터 사이언스 트레이닝 파이프라인 전체를 GPU에서 실행함으로써 워크플로우를 가속화합니다. 이를 통해 모델 트레이닝 시간을 며칠에서 몇 분으로 줄일 수 있습니다.
GPU 사용의 복잡성과 데이터센터 아키텍처 이면의 통신 프로토콜까지 숨김으로써, RAPIDS는 데이터 사이언스를 간단하게 해낼 수 있는 방법을 만들어줍니다. Python 및 높은 수준의 다른 언어를 사용하는 데이터 사이언티스트가 많아짐에 따라, 코드 변경 없이 가속화를 제공하는 것은 빠르게 발전하는 개발 과정에 필수적인 요소가 되었습니다.
RAPIDS는 클라우드나 온프레미스 중 어디서도 실행할 수 있습니다. 워크스테이션에서 멀티 GPU 서버, 멀티 노드 클러스터에 이르기까지 쉽게 확장할 수 있으며, Dask, Spark, MLFlow, 및 쿠버네티스를 통한 제작에도 배포할 수 있습니다.
핵심적인 인사이트를 얻기 위해 데이터 사이언스를 사용하는 조직에는 신뢰할 수 있는 지원에 대한 액세스가 필수적인 경우가 많습니다. 글로벌 NVIDIA 엔터프라이즈 지원은 엔드투엔드 AI 소프트웨어 제품군인 *NVIDIA AI 엔터프라이즈*와 함께 제공되며, 응답 시간 보장, 우선 보안 알림, 정기 업데이트 및 NVIDIA AI 전문가에 대한 액세스를 포함합니다.
결과에 따르면 GPU는 소규모 및 대규모 빅데이터 분석 문제의 비용 및 시간을 매우 크게 절감해 줍니다. RAPIDS는 Pandas 및 Dask 등의 익숙한 API를 사용하여, 10테라바이트 규모에서 최고 CPU 기준선보다 GPU에서 최대 20배 더 빠른 성능을 제공합니다. CPU 기반 서버 350대의 성능을 달성하는 데 단 16대의 NVIDIA DGX A100을 사용하는 NVIDIA의 솔루션은 HPC 수준의 성능을 제공하는 동시에 7배 더 비용 효율적입니다.
일반적인 데이터 처리 작업에는 Hadoop에서 효율적으로 처리할 수 없는 여러 단계(데이터 파이프라인)가 있습니다. Apache Spark는 모든 데이터를 시스템 메모리에 두어 더 유연하고 복잡한 데이터 파이프라인을 가능하게 만듦으로써 이 문제를 해결했지만, 새로운 병목 현상이 생겨났습니다. 수백 개의 CPU 노드가 있는 Spark 클러스터에서는 몇 백 기가바이트(GB)의 데이터를 분석하는 것만으로도 몇 시간, 심하게는 며칠이 걸릴 수도 있었습니다. 데이터 사이언스의 진정한 잠재력을 실현하려면 GPU는 데이터센터 설계의 중심에 위치하여 컴퓨팅, 네트워킹, 스토리지, 배포 및 소프트웨어라는 5가지 요소로 이루어져 있어야 합니다. 일반적으로, GPU의 엔드 투 엔드 데이터 사이언스 워크플로우는 CPU에서보다 10배 더 빠릅니다.
RAPIDS와 통합된 Plotly Dash 는 단일 GPU에서도 멀티기가바이트 데이터세트의 실시간 인터랙티브 비주얼 분석을 가능하게 만듭니다.
Apache Spark용 RAPIDS Accelerator 는 GPU를 활용하여 RAPIDS 및 UCX 소프트웨어를 통해 처리를 가속화하는 Apache Spark용 플러그인 모음을 제공합니다.
RAPIDS는 낮은 수준의 컴퓨팅 최적화를 위해 CUDA 기초 요소에 의존하지만 사용자 친화적인 Python 인터페이스를 통해 그러한 GPU 병렬 처리와 높은 메모리 대역폭을 제공합니다. RAPIDS는 데이터 로딩 및 사전 처리부터 머신 러닝, 그래프 분석 및 비주얼라이제이션에 이르는 엔드 투 엔드 데이터 사이언스 워크플로우를 지원합니다. 엔터프라이즈 빅데이터 사용 사례로 확장되는 완전한 기능의 Python 스택입니다.
RAPIDS의 데이터 로딩, 사전 처리 및 ETL 기능은 데이터 사이언티스트에게 익숙한 Pandas와 비슷한 API에서 데이터 로딩, 결합, 에그리게이션, 필터링 및 기타 조작 전부를 수행하기 위해 Apache Arrow를 기반으로 구축되었습니다. 사용자는 일반적으로 10배 이상의 속도 증가를 기대할 수 있습니다.
RAPIDS의 머신 러닝 알고리즘 및 수학적 기초 요소는 익숙한 Scikit-learn과 비슷한 API를 따릅니다. XGBoost, Random Forest 등의 여러 인기 있는 도구는 단일 GPU 및 대규모 데이터센터 배포 둘 다에서 지원됩니다. 대규모 데이터세트의 경우, 이러한 GPU 기반의 구현은 비슷한 CPU보다 10~50배 빠르게 완료될 수 있습니다.
RAPIDS의 PageRank 등의 그래프 알고리즘 및 NetworkX 등의 기능은 GPU의 대규모 병렬 처리를 효율적으로 활용하여 대규모 그래프의 분석을 1,000배 이상 가속화합니다. 단일 NVIDIA A100 Tensor 코어 GPU에서 최대 2억 개의 엣지를 탐색하고 NVIDIA DGX™ A100 클러스터에서 수십억 개의 엣지로 확장하세요.
RAPIDS의 비주얼라이제이션 기능은 GPU 가속 교차 필터링을 지원합니다. 원본의 JavaScript 버전에서 영감을 얻어, 1억 개 이상의 행 테이블 형식 데이터세트의 매우 빠른 인터랙티브 다차원 필터링을 지원합니다.
딥 러닝은 컴퓨터 비전, 자연어 처리 및 추천과 같은 영역에서 효과적이지만, 딥 러닝이 주류가 아닌 영역도 있습니다. 범주형 및 연속형 변수의 열로 이루어진 테이블 형식 데이터 문제는 일반적으로 XGBoost, 그라데이션 부스트 또는 선형 모델 등의 기술을 활용합니다. RAPIDS는 GPU에서 테이블 형식 데이터의 사전 처리를 간소화하며 PyTorch, TensorFlow 및 MxNet 등의 DLPack을 지원하는 모든 프레임워크에 데이터를 직접 원활하게 핸드오프합니다. 이러한 통합은 풍부한 워크플로우를 생성하는 새 기회를 열어주어, 이전에는 이치에 맞지 않던 딥 러닝 프레임워크에서 만든 새 기능을 다시 머신 러닝 알고리즘에 피드하는 워크플로우까지 만들 수 있게 해 줍니다.
엔터프라이즈에서 AI 최적화 데이터센터를 구축하는 데에는 5가지 핵심 요소가 있습니다. 설계의 핵심은 GPU를 중심에 두는 것입니다.
NVIDIA GPU가 있는 시스템은 엄청난 컴퓨팅 성능으로 인해 AI 데이터센터의 핵심 컴퓨팅 구성 요소가 됩니다. NVIDIA DGX 시스템은 혁신적인 AI 성능을 제공하며 평균적으로 50개의 듀얼 소켓 CPU 서버를 대체할 수 있습니다. 이렇게 데이터 사이언티스트에게 데이터 탐색을 위한 업계에서 가장 강력한 도구를 제공하는 것이 첫 단계입니다.
데이터센터 아키텍처 내의 이면 커뮤니케이션 프로토콜과 GPU 사용의 복잡성을 숨김으로써, RAPIDS는 데이터 사이언스를 간단하게 해낼 수 있는 방법을 만들어줍니다. Python 및 높은 수준의 다른 언어를 사용하는 데이터 사이언티스트가 많아짐에 따라, 코드 변경 없이 가속화를 제공하는 것은 빠르게 발전하는 개발 과정에 필수적인 요소가 되었습니다.
NVIDIA Mellanox® NIC(Network Interface Controller), NCCL2 (NVIDIA collective communication library) 및 OpenUCX(오픈 소스 포인트 투 포인트 커뮤니케이션 프레임워크)의 RDMA(Remote Direct Memory Access)는 트레이닝 속도의 엄청난 발전을 가져왔습니다. RDMA를 통해 GPU가 노드 간에 초당 최대 100기가비트(Gb/s)의 속도로 서로 직접 통신할 수 있어, 여러 노드에 걸쳐 있으면서 하나의 거대한 서버에 있는 것처럼 작동할 수 있습니다.
엔터프라이즈는 대규모 파이프라인을 배포하기 위해 쿠버네티스 및 Docker 컨테이너로 이동하고 있습니다. 컨테이너화된 애플리케이션을 쿠버네티스와 결합하면 비즈니스는 어떤 작업이 가장 중요한지에 대한 우선 순위를 변경하고 AI 데이터센터에 복원력, 안정성 및 확장성을 더할 수 있습니다.
GPUDirect® 스토리지는 NVMe 및 NVMe-oF(NVMe over Fabric) 둘 다 CPU 및 시스템 메모리를 우회하여 GPU에서 직접 데이터를 읽고 쓰도록 허용합니다. 이렇게 하면 각 GPU에서 최대 50% 더 높은 대역폭으로 몇 배나 많은 데이터에 액세스할 수 있는 동시에 다른 작업을 위한 CPU 및 시스템 메모리를 확보하게 됩니다.
NVIDIA는 오픈 소스 커뮤니티를 위해 데이터 사이언스를 단순화, 통합 및 가속화하기 위해 노력합니다. 하드웨어에서 소프트웨어에 이르는 모든 스택을 최적화하고 반복적 데이터 사이언스에 대한 병목 현상을 제거함으로써, NVIDIA는 모든 곳의 데이터 사이언티스트가 더 적은 노력으로 그 어느 때보다도 많은 일을 하도록 돕습니다. 이를 통해 엔터프라이즈는 엔터프라이즈의 가장 귀중한 리소스, 즉 데이터 및 데이터 사이언티스트로부터 더 많은 가치를 얻게 됩니다. RAPIDS는 Apache 2.0 오픈 소스 소프트웨어로서 GPU에서 에코시스템을 한곳으로 모이게 합니다.