Apache Spark™ с ускорением на GPU

Для конвейеров анализа данных, машинного и глубокого обучения

Используйте ускорение на GPU для конвейера обработки данных в Apache Spark™ 3 без изменений кода, а также ускорьте обработку данных и тренировку моделей, существенно снизив затраты на инфраструктуру.

 

Ключевые преимущества Spark на GPU NVIDIA

Ускорение выполнения операций

Ускорение выполнения операций

Ускорьте подготовку данных, чтобы быстрее перейти к следующему этапу. Это позволит быстрее обуч��ть модели, а специалисты по data science и инженеры смогут сосредоточиться на более сложных задачах.

Ускорение аналитики для ИИ

Ускорение аналитики для ИИ

Spark 3 управляет всем конвейером: от ввода данных до обучения моделей и визуализации. Для Spark и фреймворков машинного/глубокого обучения можно использовать одну и ту же инфраструктуру, что устраняет необходимость в разных кластерах и обеспечивает ускорение на GPU для всего конвейера.

Снижение затрат на инфраструктуру

Снижение затрат на инфраструктуру

Больше возможностей с меньшими затратами: Spark на GPU NVIDIA® выполняет задачи быстрее, чем на CPU, экономя время и сокращая затраты компании на основные средства или операционные расходы при использовании облачных платформ.

Предварительный анализ

Предварительный анализ

Используйте интеллектуальный инструмент оптимизации нагрузок, чтобы определить и оценить экономическую выгоду для ваших задач Apache Spark™, подходящих для ускорения на GPU. Инструмент предоставит рекомендации по оптимизированным параметрам графических процессоров для экономии средств и повышения производительности.

Практикум

Ускоряем выполнение задач на платформе Spark

Хотите ускорить выполнение задач Spark с помощью графических процессоров? Запишитесь на бесплатный практикум, чтобы оценить свои задачи уже сегодня.

Инновации в Spark 3

Учитывая чрезвычайную параллельность многих задач обработки данных, вполне естественно использовать архитектуру GPU для запросов обработки данных Spark, аналогично ускорению на GPU для нагрузок глубокого обучения при работе с ИИ. Разработчик получает прозрачное ускорение на GPU и все преимущества без каких-либо изменений в коде. В Spark 3 реализованы три ключевых инновации для прозрачного ускорения на GPU:

Новый RAPIDS Accelerator для Spark 3

NVIDIA® CUDA® — это передовая архитектура параллельных вычислений, которая поддерживает ускорение вычислительных операций на GPU NVIDIA. RAPIDS — это разработанный NVIDIA набор открытых библиотек на основе CUDA, который обеспечивает GPU-ускорение для обработки данных.

Для Spark 3 NVIDIA создала RAPIDS Accelerator, который ускоряет конвейеры ETL, значительно повышая скорость выполнения операций Spark SQL и DataFrame.

Модификации компонентов Spark

Spark 3 поддерживает обработку колоночных данных в оптимизаторе запросов Catalyst, к которому подключается RAPIDS Accelerator для ускорения операторов SQL и DataFrame. Когда план запроса выполнен, эти операторы можно поставить в очередь для запуска на GPU в кластере Spark.

NVIDIA также создала в Spark новую реализацию распределения, которая оптимизирует передачу данных между процессами. Она создана на базе GPU-ускоренных библиотек коммуникации, включая UCX, RDMA и NCCL.

Планирование выполнения задач на GPU в Spark

Spark 3 распознает GPU как ресурс первого класса, наряду с CPU и системной памятью. Это позволяет Spark 3 размещать GPU-ускоренные нагрузки прямо на серверах с необходимыми ресурсами GPU, которые требуются для ускорения и выполнения задачи.

Инженеры NVIDIA внесли вклад в это улучшение Spark, обеспечив запуск приложений Spark на ресурсах GPU в Spark, кластерах YARN и Kubernetes.

deep-learning-apache-spark-3-innovations-refactored

Ускорение аналитики и ИИ в Spark

В Spark 3 реализован важный этап для аналитики и ИИ: операции ETL теперь получают ускорение, а GPU-ускоренные приложения глубокого и машинного обучения используют ту же инфраструктуру GPU. Ниже показан полный стек для ускоренного конвейера обработки данных.

Ускорение аналитики и ИИ в Spark

Начало работы с GPU-ускорением в Spark

Загрузите RAPIDS Accelerator и используйте ускорение на GPU для конвейера обработки данных в Spark 3. Вы можете связаться со специалистом команды Nvidia Spark на GitHub здесь.

IRS

Интеграция Cloudera и NVIDIA позволит использовать информацию, полученную в результате работы с данными, для выполнения критически важных сценариев... мы уже можем наблюдать более чем 10-кратное увеличение производительности процессов data science и разработки.

— Джо Ансальди (Joe Ansaldi), IRS, руководитель отдела исследований, прикладной аналитики и статистики

Adobe

Мы видим, что Spark 3 на базе GPU NVIDIA работает значительно быстрее, чем на CPU. Благодаря этому революционному повышению производительности графического процессора открываются совершенно новые возможности для улучшения функций на базе ИИ в нашем полном наборе приложений Adobe Experience Cloud.

— Уильям Ян (William Yan), старший директор по машинному обучению, Adobe

databricks

Наше постоянное сотрудничество с NVIDIA повышает производительность благодаря оптимизациям RAPIDS для Apache Spark™ 3 и Databricks, что приносит пользу нашим общим клиентам, например Adobe. Эта работа позволяет ускорить конвейер обработки данных, обучение и оценку моделей, что приводит к новым достижениям и идеям для сообщества разработчиков и специалистов по data science.

— Матей Захария (Matei Zaharia), первоначальный создатель Apache Spark™ и главный инженер в Databricks

IRS

Интеграция Cloudera и NVIDIA позволит использовать информацию, полученную в результате работы с данными, для выполнения критически важных сценариев... мы уже можем наблюдать более чем 10-кратное увеличение производительности процессов data science и разработки.

— Джо Ансальди (Joe Ansaldi), IRS, руководитель отдела исследований, прикладной аналитики и статистики

Adobe

Мы видим, что Spark 3 на базе GPU NVIDIA работает значительно быстрее, чем на CPU. Благодаря этому революционному повышению производительности графического процессора открываются совершенно новые возможности для улучшения функций на базе ИИ в нашем полном наборе приложений Adobe Experience Cloud.

— Уильям Ян (William Yan), старший директор по машинному обучению, Adobe

databricks

Наше постоянное сотрудничество с NVIDIA повышает производительность благодаря оптимизациям RAPIDS для Apache Spark™ 3 и Databricks, что приносит пользу нашим общим клиентам, например Adobe. Эта работа позволяет ускорить конвейер обработки данных, обучение и оценку моделей, что приводит к новым достижениям и идеям для сообщества разработчиков и специалистов по data science.

— Матей Захария (Matei Zaharia), первоначальный создатель Apache Spark™ и главный инженер в Databricks

IRS

Интеграция Cloudera и NVIDIA позволит использовать информацию, полученную в результате работы с данными, для выполнения критически важных сценариев... мы уже можем наблюдать более чем 10-кратное увеличение производительности процессов data science и разработки.

— Джо Ансальди (Joe Ansaldi), IRS, руководитель отдела исследований, прикладной аналитики и статистики

Adobe

Мы видим, что Spark 3 на базе GPU NVIDIA работает значительно быстрее, чем на CPU. Благодаря этому революционному повышению производительности графического процессора открываются совершенно новые возможности для улучшения функций на базе ИИ в нашем полном наборе приложений Adobe Experience Cloud.

— Уильям Ян (William Yan), старший директор по машинному обучению, Adobe

databricks

Наше постоянное сотрудничество с NVIDIA повышает производительность благодаря оптимизациям RAPIDS для Apache Spark™ 3 и Databricks, что приносит пользу нашим общим клиентам, например Adobe. Эта работа позволяет ускорить конвейер обработки данных, обучение и оценку моделей, что приводит к новым достижениям и идеям для сообщества разработчиков и специалистов по data science.

— Матей Захария (Matei Zaharia), первоначальный создатель Apache Spark™ и главный инженер в Databricks

Скачайте брошюру бесплатно

Хотите узнать больше о важности больших данных и возможностях ИИ? Скачайте новую брошюру «Ускорение Apache Spark™ 3.x. Использование графических процессоров NVIDIA для обеспечения новой эры аналитики и ИИ», чтобы узнать больше о следующих инновациях в Apache Spark™.