GPU 対応 Apache Spark™

データ分析、機械学習、ディープラーニング パイプラインに対応

GPU を活用した Apache Spark™ 3 データ サイエンス パイプラインは—コードを変更することなく—インフラ費用を大幅に抑えて、データ処理とモデル トレーニングを高速化します。

 

NVIDIA GPU での Spark の主な利点

NVIDIA GPU での Spark の主な利点
Faster Execution Time

実行時間の短縮

データ準備タスクのパフォーマンスを加速して、パイプラインの次のステージに迅速に移行します。これにより、データ サイエンティストやエンジニアは最も重要な作業に集中できるようになり、モデルの学習が高速化されます。

Streamline Analytics to AI

インフラ費用の削減

より少ないリソースでより多くのことを実現: NVIDIA® GPU 上の Spark は、CPU と比較してより少ないハードウェアでジョブをより速く完了し、組織の時間を節約するだけでなく、オンプレミスの資本コストやクラウドでの運用コストも節約することができます。

Reduced Infrastructure Costs

合理化された AI の取り組み

RAPIDS Accelerator を含むエンドツーエンドの AI ソフトウェア プラットフォームである NVIDIA AI Enterprise を使用すれば、データの準備と処理から、大規模なモデルの学習、シミュレーション、推論に至るまでエンドツーエンドの AI パイプラインを大規模に高速化し、本番稼働までの時間を短縮することができます。

Spark 上で NVIDIA GPU を活用する主な利点

Faster Execution Time

実行時間を短縮する

データ準備作業を短時間で終わらせるため、パイプラインの次の段階にすぐに進むことができます。これにより、モデルを短時間でトレーニングできるだけでなく、そういった作業から解放されたデータ サイエンティストやエンジニアは最も重要な活動に集中することができます。

Streamline Analytics to AI

分析から AI まで合理化

Spark 3 では、データ取り込みからモデル トレーニングにビジュアライゼーションまで、エンドツーエンドのパイプラインを調整します。 同じ GPU 対応インフラストラクチャを Spark と ML/DL (ディープラーニング) フレームワークの両方で利用できるため、個別のクラスターが必要なくなり、パイプライン全体を GPU アクセラレーションに活用できます。

Reduced Infrastructure Costs

インフラ費用を削減

少ないリソースでより多くの成果: NVIDIA® GPU と Spark の組み合わせにより、CPU と比較してより少ないハードウェアでジョブをより速く完了できるため、組織は時間だけでなく、オンプレミスの資本コストやクラウドの運営コストも節約できます。

Upfront Insights

先行分析情報

インテリジェントなワークロード最適化ツールを使用して、GPU アクセラレーションに適した Apache Spark™ ワークロードのコスト上の利点を確認、評価してください。このツールは、コスト削減とパフォーマンスのために最適化された GPU パラメーターを推奨します。

分析ツール

Apache Spark を 5 倍高速に実行

GPU アクセラレーションに適したワークロードを評価し、最適なコスト削減を実現するクラスターを構成する方法を学びます。

Spark 3 のイノベーション

多くのデータ処理タスクの性質が、徹底した並列処理であることを考えると、AI の DL ワークロードを GPU で高速化する方法と同様に、Spark のデータ処理クエリに GPU のアーキテクチャが活用されるのは当然です。GPU アクセラレーションは開発者にとって透過的であり、コードを変更しなくても利点が得られます。Spark 3 では次の 3 点が大きく進化しており、透過的な GPU アクセラレーションの実現を可能にしています。

Spark 3 の新しい RAPIDS アクセラレータ

NVIDIA CUDA®は、NVIDIA GPU アーキテクチャにおける演算処理を加速する革新的な並列計算処理アーキテクチャです。NVIDIA で開発された RAPIDS は、CUDA 上層で実装されるオープンソース ライブラリ スイートであり、データ サイエンス パイプラインの GPU 高速化を可能にします。

NVIDIA は、Spark SQL と DataFrame 演算のパフォーマンスを劇的に改善することで ETL パイプラインをインターセプトして高速化する Spark 3 の RAPIDS アクセラレータを開発しました。

Spark コンポーネントの変更点

Spark 3 では、SQL と DataFrame の演算子を高速化するために RAPIDS アクセラレータをプラグインするもので、Catalyst クエリ最適化のカラム型処理サポートを提供します。クエリ計画が実行されると、これらの演算子を Spark クラスター内の GPU で実行できます。

NVIDIA はまた、新たな Spark シャッフル実装を開発し、Spark プロセス間のデータ転送を最適化します。このシャッフル実装は、UCX、RDMA、NCCL など、GPU 対応通信ライブラリの上に構築されます。

Spark の GPU 対応スケジューリング

Spark 3 は GPU を、CPU やシステム メモリと共に、第一級のリソースとして認識します。それにより Spark 3 は、ジョブの高速化と遂行に GPU リソースが必要な場合、GPU リソースが含まれるサーバーを認識し GPU 対応のワークロードを投入します。

NVIDIA のエンジニアはこの主要な Spark の機能強化に貢献し、Spark スタンドアロン、YARN、Kubernetes クラスターの GPU リソースで Spark アプリケーションの起動を可能にしました。

deep-learning-apache-spark-3-innovations-refactored

Spark で加速する分析と AI

ML アプリケーションと DL アプリケーションで同じ GPU インフラストラクチャを活用する一方で ETL 演算が高速化されるため、Spark 3 は分析と AI の重要なマイルストーンとなります。このアクセラレーテッド データ サイエンス パイプラインの完全なスタックは以下のようになります。

Spark で加速する分析と AI

GPU 対応 Spark を始める

RAPIDS Accelerator for Spark 3 をダウンロードして、Apache Spark™ データ サイエンス パイプラインを GPU で加速しましょう。お客様は、こちらの GitHub から NVIDIA Spark チームに問い合わせることもできます。

エンタープライズ対応の Spark アクセラレーション

RAPIDS Accelerator for Apache Spark は、NVIDIA AI Enterprise で利用することができます。 Amazon EMR、Google Cloud Dataproc、Databricks など、オンプレミスからクラウドまで、認定されたプラットフォーム上でエンタープライズ グレードのサポート、セキュリティ、安定性をフル活用して、Spark デプロイメントに最適化されたパフォーマンスを実現します。保証された応答時間、優先的なセキュリティ通知、NVIDIA のデータ サイエンス エキスパートへのアクセスをご利用ください。

IRS

Cloudera と NVIDIAの統合により、データを活用したインサイトを使用して、ミッション クリティカルなユースケースを強化することができます。現在、この統合を実施しており、データ エンジニアリングとデータサイエンスのワークフローにおいて、半分のコストで 10 倍以上の速度向上をすでに実現しています。

– IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief、Joe Ansaldi 氏

Adobe

NVIDIA 対応の Spark 3 は、CPU 上で Spark を実行する場合と比較して、パフォーマンスの大幅な向上を確認できました。このような圧倒的な GPU パフォーマンスの向上により、Adobe Experience Cloud アプリの完全なスイート製品で AI を活用した機能を強化するためのまったく新しい可能性を押し広げています。

- Adobe 社の機械学習部門シニア ディレクター、William Yan 氏

databricks

NVIDIA との継続的な協力により、Apache Spark™ 3 と Databricks のための RAPIDS 最適化でパフォーマンスを向上でき、Adobe などの共同顧客にメリットをもたらします。このような貢献がデータ パイプライン、モデル トレーニング、スコアリングの高速化につながり、データ エンジニアとデータ サイエンティストのコミュニティにとってより画期的かつ優れた洞察に直接転換することができます。

- Apache Spark™ の開発者兼 Databricks の主任技術者、Matei Zaharia 氏

IRS

Cloudera と NVIDIAの統合により、データを活用したインサイトを使用して、ミッション クリティカルなユースケースを強化することができます。現在、この統合を実施しており、データ エンジニアリングとデータサイエンスのワークフローにおいて、半分のコストで 10 倍以上の速度向上をすでに実現しています。

- IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief、Joe Ansaldi 氏

Adobe

NVIDIA 対応の Spark 3 は、CPU 上で Spark を実行する場合と比較して、パフォーマンスの大幅な向上を確認できました。このような圧倒的な GPU パフォーマンスの向上により、Adobe Experience Cloud アプリの完全なスイート製品で AI を活用した機能を強化するためのまったく新しい可能性を押し広げています。

- Adobe 社の機械学習部門シニア ディレクター、William Yan 氏

databricks

NVIDIA との継続的な協力により、Apache Spark™ 3 と Databricks のための RAPIDS 最適化でパフォーマンスを向上でき、Adobe などの共同顧客にメリットをもたらします。このような貢献がデータ パイプライン、モデル トレーニング、スコアリングの高速化につながり、データ エンジニアとデータ サイエンティストのコミュニティにとってより画期的かつ優れた洞察に直接転換することができます。

- Apache Spark™ の開発者兼 Databricks の主任技術者、Matei Zaharia 氏

IRS

Cloudera と NVIDIAの統合により、データを活用したインサイトを使用して、ミッション クリティカルなユースケースを強化することができます。現在、この統合を実施しており、データ エンジニアリングとデータサイエンスのワークフローにおいて、半分のコストで 10 倍以上の速度向上をすでに実現しています。

- IRS/Research Applied Analytics & Statistics Division (RAAS)/Technical Branch Chief、Joe Ansaldi 氏

Adobe

NVIDIA 対応の Spark 3 は、CPU 上で Spark を実行する場合と比較して、パフォーマンスの大幅な向上を確認できました。このような圧倒的な GPU パフォーマンスの向上により、Adobe Experience Cloud アプリの完全なスイート製品で AI を活用した機能を強化するためのまったく新しい可能性を押し広げています。

- Adobe 社の機械学習部門シニア ディレクター、William Yan 氏

databricks

NVIDIA との継続的な協力により、Apache Spark™ 3 と Databricks のための RAPIDS 最適化でパフォーマンスを向上でき、Adobe などの共同顧客にメリットをもたらします。このような貢献がデータ パイプライン、モデル トレーニング、スコアリングの高速化につながり、データ エンジニアとデータ サイエンティストのコミュニティにとってより画期的かつ優れた洞察に直接転換することができます。

- Apache Spark™ の開発者兼 Databricks の主任技術者、Matei Zaharia 氏

無料の eBook をダウンロードしてください

AI の力でビッグ データから価値を引き出す方法をお探しですか?NVIDIA の新しい eBook、「Accelerating Apache Spark™ 3.x – Leveraging NVIDIA GPUs to Power the Next Era of Analytics and AI」 (Apache Spark™ 3.x の高速化 – NVIDIA GPU を活用して次世代の分析と AI にパワーをもたらす) をダウンロードしてください。Apache Spark™ の次の進化をご覧いただけます。