SparkRDMA

Обзор

Apache Spark™ — быстрый механизм общего назначения с открытым исходным кодом, предназначенный для обработки больших объемов данных. Spark предоставляет интерфейс для программирования целых кластеров с неявным параллелизмом данных и отказоустойчивостью.

Apache Spark™ заменяет MapReduce

Реализованный в Hadoop механизм MapReduce популярен и широко используется. Однако, несмотря на популярность MapReduce, в нем есть ряд недостатков, включая высокий показатель задержки и медленное время реакции в пакетном режиме. Эти недостатки затрудняют работу многих приложений для обработки и анализа данных. Как и MapReduce, Apache Spark представляет собой систему общего назначения, но при этом работает намного быстрее и может выполнять более разнообразные рабочие задачи. Одна из наиболее интересных характеристик Spark — эффективное использование памяти, в отличие от механизма MapReduce, который в основном работает с данными на дисках.

Ускорение Spark Shuffle

Перетасовка — это процесс перераспределения данных между разделами (перенастройка разделов) на разных этапах вычислительного процесса. Это дорогостоящий процесс, которого по возможности следует избегать. В Hadoop при перетасовке промежуточные файлы записываются на диск и используются на следующем этапе.  В Spark при перетасовке наборы данных хранятся в памяти, благодаря чему данные всегда находятся под рукой. Однако при работе в кластере для доставки блоков данных требуются сетевые ресурсы, что увеличивает общее время исполнения. Надстройка SparkRDMA ускоряет доставку блоков данных в сети с помощью технологии RDMA/RoCE, которая снижает нагрузку на процессор и ускоряет выполнение задач.




Надстройка SparkRDMA

SparkRDMA — высокопроизводительная, масштабируемая и эффективная надстройка ShuffleManager с открытым исходным кодом, предназначенная для Apache Spark.
Она использует технологию RDMA/RoCE для сокращения количества циклов процессора, требуемых для перемещения данных при перетасовке. Она снижает использование памяти за счет многократного использования памяти для передачи данных вместо многократного копирования данных (как в традиционной системе TCP).
Надстройка SparkRDMA создана для обеспечения наилучшей производительности без дополнительной настройки. Кроме того, она поддерживает ряд вариантов настройки для дополнительной оптимизации SparkRDMA при выполнении отдельных задач.


Преимущества надстройки SparkRDMA

  • Обеспечивает более высокую производительность
    • Снижение времени передачи блоков
    • Снижение потребления памяти
    • Снижение загрузки процессора
  • Удобство развертывания
    • Один файл JAR
    • Поддерживается с простой настройкой конфигурации
    • Возможность более точной настройки
  • Масштабируемость
    • Возможность поэтапного развертывания
    • Возможность использования только для задач с перетасовкой данных
  • Поддерживается всеми устройствами семейства ConnectX с поддержкой RDMA

Дополнительную информацию по оптимизации системы можно найти в руководствах на этой вики-странице.

Страница сообщества по надстройке SparkRDMA


Политика в отношении Cookie-файлов компании NVIDIA Mellanox​​​​​​​

На этом веб-сайте используются cookie-файлы, которые могут помочь в доставке контента в соответствии с вашими предпочтениями и интересами, обеспечить лучший поиск и проанализировать наш трафик. Вы можете удалить и/или заблокировать cookie-файлы с этого сайта, но это может повлиять на работу сайта. Более подробная информация приведена в < a1 > Политике конфиденциальности .