GPU 加速的 Apache Spark™

資料分析、機器學習和深度學習流程專用

無需變更程式碼,即可使用 GPU 加速 Apache Spark™ 3 資料科學流程,幫助你加速資料處理和模型訓練,並大幅降低基礎架構成本。

 

Spark 在 NVIDIA GPU 上的主要優勢

NVIDIA GPU での Spark の主な利点
Faster Execution Time

更快的執行時間

加速資料運算準備任務的效能,以快速進入管道的下一階段。這使得模型可以更快進行訓練,同時讓資料科學家和工程師能夠專注於至關重要的項目。

Streamline Analytics to AI

降低基礎設施成本

事半功倍:與 CPU 相比,NVIDIA® GPU 上的 Spark 可以用更少的硬體更快地完成作業,如此一來,企業不僅可節省時間,亦能減少本地或雲端的運營成本。

Reduced Infrastructure Costs

簡化 AI 之旅

NVIDIA AI Enterprise,是一個包含 RAPIDS Accelerator 的端到端 AI 軟體平台,可加快從資料準備和處理到大規模模型訓練、模擬和推理的全面性 AI 管道生產速度。

採用 NVIDIA GPU 的 Spark 的主要優勢

Faster Execution Time

縮短執行時間

提高資料準備工作效能,以更快進入流程的下一階段。不只能夠提升模型訓練速度,也讓資料科學家與工程師得以專注在最重要的活動上。

Streamline Analytics to AI

簡化人工智慧分析技術

Spark 3 可以編排各種端對端流程,包括資料擷取、模型訓練到視覺化。 相同的 GPU 加速基礎架構可用於 Spark 和 ML/DL (深度學習) 框架,免除使用不同叢集的需求,讓整個流程都能存取 GPU 加速功能。

Reduced Infrastructure Costs

降低基礎架構成本

以更少的成本完成更多工作:在 NVIDIA® GPU 上使用 Spark 加速完成工作,與使用 CPU 相比,耗費的硬體資源較少,為組織節省時間以及本機資本成本或雲端營運成本。

Upfront Insights

前期分析

使用智慧工作負載最佳化工具以符合需求,並預估適合 GPU 加速的 Apache Spark™ 工作負載成本效益。此工具將推薦最佳化 GPU 參數,以節省成本和效能。

分析工具

提升 Apache Spark 運算速度高達 5 倍

評估 GPU 加速的工作負載,並了解如何配置成本最為節省的整體。

Spark 3 創新技術

由於許多資料處理工作具備「不易平行」的特性,因此針對 Spark 資料處理需求使用 GPU 架構是理所當然的事,此與使用 GPU 加速人工智慧 DL 工作負載類似。開發人員可掌握 GPU 加速的細節,而且不需變更程式碼即可獲得這些優勢。Spark 3 的三項重大技術進展對於讓 GPU 加速變得淺顯易懂貢獻良多:

適用於 Spark 3 的全新 RAPIDS 加速器

NVIDIA CUDA® 是一種革命性的平行運算架構,可支援 NVIDIA GPU 架構上的加速運算作業。NVIDIA 開發的 RAPIDS 是建立在 CUDA 之上的一組開放原始碼函式庫,可以讓你在資料科學流程中使用 GPU 加速功能。

NVIDIA 為 Spark 3 建立了 RAPIDS 加速器,能藉由大幅提高 Spark SQL 與 DataFrame 作業的效能來攔截和加速 ETL 流程。

修改 Spark 元件

Spark 3 為 Catalyst 需求最佳化工具提供欄式處理支援,這正是 RAPIDS 加速器為了加速 SQL 與 DataFrame 運算所採用的功能。執行需求計畫時,就可以透過 Spark 叢集中的 GPU 執行這些運算。

NVIDIA 也建立了新的 Spark 隨機實作,將 Spark 處理序之間的資料傳輸作業最佳化。此隨機實作構建在 GPU 加速的通訊函式庫 (包含 UCX、RDMA 和 NCCL) 基礎上。

Spark 中的 GPU-Aware 排程

Spark 3 將 GPU 視為首要資源 接著才是 CPU 和系統記憶體。這讓 Spark 3 可以將 GPU 加速的工作負載直接放在包含必要 GPU 資源的伺服器上,因為這些資源是加速和完成工作所必需。

NVIDIA 工程師也協助開發這項重大的 Spark 增強功能,讓 Spark 應用程式可以透過 Spark 單機版、YARN 和 Kubernetes 叢集中的 GPU 資源啟動。

deep-learning-apache-spark-3-innovations-refactored

Spark 上的加速分析和人工智慧技術

Spark 3 代表分析和人工智慧技術的重要里程碑,現在已可加速 ETL 作業,並讓 ML 和 DL 應用使用相同的 GPU 基礎架構。此加速資料科學流程的完整堆疊如下所示:

Spark 上的加速分析和人工智慧技術

開始使用 GPU 加速的 SPARK

下載 Spark 3 適用的 RAPIDS 加速器,利用 GPU 加速 Apache Spark™ 資料科學流程。客戶也可以與 GitHub 中的 NVIDIA Spark 團隊聯繫。

企業級 Spark 加速

RAPIDS Accelerator for Apache Spark 可用於 NVIDIA AI Enterprise 中,在經過認證的本地到雲端的認證平台上,包括 Amazon EMR、Google Cloud Dataproc 和 Databricks 等,您可以充分取得企業級支援、安全性和穩定性,實現 Spark 部署的優化效能表現。此外,可享受保證回覆時間、優先安全通知以及來自 NVIDIA 的資料科學專家的專業支援。

IRS

Cloudera 和 NVIDIA 的整合將讓我們能透過資料分析中獲得的見解,來支援關鍵任務應用案例… 我們正在執行整合工作,目前已從中發現其速度提高了 10 倍以上,而且同時節省了一半的資料工程和資料科學工作流程成本。

– 美國國稅局 (IRS) 研究應用分析與統計 (RAAS) 技術部門主管 Joe Ansaldi

Adobe

相較於運用 CPU 執行 Spark,NVIDIA 加速 Spark 3 的效能明顯更快。顛覆性的 GPU 效能提升開闢了全新可能性,讓我們得以在全套 Adobe Experience Cloud 應用程式中強化人工智慧功能。

- Adobe機器學習資深總監 William Yan

databricks

我們持續與 NVIDIA 合作,透過 Apache Spark™ 3 和 Databricks 的 RAPIDS 最佳化功能改善效能,使我們的共同客戶如 Adobe 從中受惠。這些貢獻有助於加速資料流程、模型訓練和評分,並能直接為我們的資料工程師和資料科學家社群帶來更多突破與洞見。

- Apache Spark™ 原創作者及 Databricks 技術長 Matei Zaharia

IRS

Cloudera 和 NVIDIA 的整合將讓我們能透過資料分析中獲得的見解,來支援關鍵任務應用案例… 我們正在執行整合工作,目前已從中發現其速度提高了 10 倍以上,而且同時節省了一半的資料工程和資料科學工作流程成本。

– 美國國稅局 (IRS) 研究應用分析與統計 (RAAS) 技術部門主管 Joe Ansaldi

 

Adobe

相較於運用 CPU 執行 Spark,NVIDIA 加速 Spark 3 的效能明顯更快。顛覆性的 GPU 效能提升開闢了全新可能性,讓我們得以在全套 Adobe Experience Cloud 應用程式中強化人工智慧功能。

- Adobe機器學習資深總監 William Yan

databricks

我們持續與 NVIDIA 合作,透過 Apache Spark™ 3 和 Databricks 的 RAPIDS 最佳化功能改善效能,使我們的共同客戶如 Adobe 從中受惠。這些貢獻有助於加速資料流程、模型訓練和評分,並能直接為我們的資料工程師和資料科學家社群帶來更多突破與洞見。

- Apache Spark™ 原創作者及 Databricks 技術長 Matei Zaharia

IRS

Cloudera 和 NVIDIA 的整合將讓我們能透過資料分析中獲得的見解,來支援關鍵任務應用案例… 我們正在執行整合工作,目前已從中發現其速度提高了 10 倍以上,而且同時節省了一半的資料工程和資料科學工作流程成本。

– 美國國稅局 (IRS) 研究應用分析與統計 (RAAS) 技術部門主管 Joe Ansaldi

Adobe

相較於運用 CPU 執行 Spark,NVIDIA 加速 Spark 3 的效能明顯更快。顛覆性的 GPU 效能提升開闢了全新可能性,讓我們得以在全套 Adobe Experience Cloud 應用程式中強化人工智慧功能。

- Adobe機器學習資深總監 William Yan

databricks

我們持續與 NVIDIA 合作,透過 Apache Spark™ 3 和 Databricks 的 RAPIDS 最佳化功能改善效能,使我們的共同客戶如 Adobe 從中受惠。這些貢獻有助於加速資料流程、模型訓練和評分,並能直接為我們的資料工程師和資料科學家社群帶來更多突破與洞見。

- Apache Spark™ 原創作者及 Databricks 技術長 Matei Zaharia

免費下載電子書

你想藉助人工智慧的強大功能發揮巨量資料的價值嗎?請下載我們全新的電子書,《Accelerating Apache Spark™ 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI 》,深入瞭解 Apache Spark™ 未來的發展。