RDMA и RoCE для высокой производительности сетей Ethernet





Удаленный прямой доступ к памяти (RDMA)

Удаленный прямой доступ к памяти (RDMA) обеспечивает прямой доступ из памяти одного хоста (СХД или вычислительной системы) к памяти другого хоста без привлечения удаленной операционной системы и процессора, что позволяет повысить производительность сети и хоста благодаря снижению задержек, уменьшению нагрузки на процессор и повышению пропускной способности. Для сравнения: чтобы обеспечить связь с поддержкой TCP/IP, как правило, требуются операции копирования, которые вызывают дополнительные задержки и потребляют значительные ресурсы процессора и памяти.
Удаленный прямой доступ к памяти (RDMA) обеспечивает прямой доступ из памяти одного хоста к памяти другого хоста без привлечения удаленной операционной системы и процессора.

RoCE (RDMA over Converged Ethernet)

Удаленный прямой доступ к памяти через конвергентный Ethernet (RoCE) - это стандартный протокол, который обеспечивает эффективную передачу данных RDMA по сетям Ethernet благодаря разгрузке транспортных средств за счет внедрения механизма RDMA, и высочайшую производительность. RoCE - это стандартный протокол, определенный в торговой ассоциации InfiniBand (IBTA). RoCE использует инкапсуляцию UDP, что позволяет данному протоколу выходить за рамки сетей уровня 3. RDMA - это ключевая функция, которую технология интерконнекта InfiniBand использует по умолчанию. Протоколы RoCE для сетей InfiniBand и Ethernet совместно используют общий пользовательский интерфейс API, но при этом у них разные физический и канальный уровни.

Инфраструктура RoCE

Устройство Mellanox ConnectX-4 и устройства последующих поколений используют технологию Resilient RoCE, обеспечивающую самую высокую производительность путем простого внедрения в сетевых коммутаторах функции явного уведомления о перегрузке (ECN). Таким образом больше не требуется использовать инфраструктуру, не допускающую потерь данных, что достигалось за счет внедрения PFC. Технология управления перегрузками Resilient RoCE, внедренная в устройства ConnectX NIC, обеспечивает надежное функционирование устройств даже при использовании UDP в сети с потерями.

Коммутаторы Mellanox Spectrum Ethernet обеспечивают пропускную способность линии канала связи 100GbE и стабильно низкую задержку без потери пакетов. Благодаря своей высокой производительности, низким задержкам, интеллектуальному комплексному управлению перегрузками и возможностям QoS коммутаторы Mellanox Spectrum Ethernet идеально подходят для внедрения инфраструктуры RoCE в требуемом масштабе. Кроме того, коммутаторы Spectrum позволяют без труда производить настройку RoCE и обеспечивают сквозную видимость уровней потоков.

Внедрение приложений через RDMA/RoCE

Разработчики приложений могут воспользоваться несколькими вариантами, позволяющими обеспечить ускорение в RDMA/RoCE с помощью операторов/библиотек инфраструктуры RDMA или библиотек межплатформенного программного обеспечения.

Инфраструктура

  • Операторы RDMA - использование библиотеки libibverbs (доступна в версии Inbox для дистрибутивов основных операционных систем) предоставляет интерфейсы API, необходимые для отправки и приема данных.
  • Диспетчер связи RDMA (RDMA-CM) - библиотека RDMA CM представляет собой диспетчер связи (CM), который используется для обеспечения надежной, связанной и ненадежной передачи данных датаграмм. Он работает совместно с интерфейсом API операторов RDMA, который определяется библиотекой libibverbs.

Межплатформенное программное обеспечение

  • Unified Communication X (UCX) - платформа связи промышленного уровня с открытым исходным кодом для приложений по обработке данных и высокопроизводительных приложений, используемых в промышленности, лабораториях и научной деятельности http://www.openucx.org.
  • Accelio - библиотека высокопроизводительной асинхронной надежной передачи сообщений, регулируемая сообществом разработчиков программного обеспечения RPC с открытым кодом.
    ПРИМЕЧАНИЕ. Accelio больше не рекомендуется для новых проектов. Для новых проектов используйте UCX.

Soft RoCE

Soft RoCE - это программная реализация RoCE, которая позволяет использовать RoCE в любом сетевом адаптере Ethernet, независимо от того, поддерживает он аппаратное ускорение или нет. Soft RoCE выпускается как часть восходящего ядра 4.8, а также как часть Mellanox OFED 4 (и более поздних версий).

Комплект поставки Soft-RoCE можно загрузить здесь:



Преимущества RDMA

  • Нулевое копирование: отправляйте данные в удаленные буфера и принимайте данные из удаленных буферов.
  • Обход ядра: снижение задержек и повышение пропускной способности.
  • Низкая загруженность процессора: доступ к памяти удаленного сервера без потребления циклов процессора на удаленном сервере.
  • Конвергенция: единая инфраструктура с поддержкой хранения и вычислений.
  • Производительность в инфраструктуре сети Lossy Fabrics, близкая к скорости передачи данных по проводам.
  • Возможность использования в InfiniBand и Ethernet (L2 и L3).

Где используется RDMA?

  • Высокопроизводительные вычислительные системы (HPC): MPI и SHMEM.
  • Машинное обучение: TensorFlow™, Caffe, Microsoft Cognitive Toolkit (CNTK), PaddlePaddle и другие.
  • Большие данные: Spark, Hadoop.
  • Базы данных: Oracle, SAP (HANA).
  • СХД: NVMe-oF (удаленный поблочный доступ к NVMe SSD), iSER (расширения iSCSI для RDMA), Lustre, GPFS, HDFS, Ceph, EMC ScaleIO, VMware Virtual SAN, Dell Fluid Cache, Windows SMB Direct.

Аппаратная поддержка для RDMA и RoCE

NIC/HCA ConnectX-3 Pro ConnectX-4 и выше
Аппаратное ускорение RDMA
Поддержка/аппаратное ускорение RoCE ✔ + Технология Resilient RoCE позволяет использовать RoCE в инфраструктуре Lossy Fabrics.

Поддержка программных драйверов для RDMA и RoCE

RDMA и RoCE поддерживаются в следующих версиях основных операционных систем.

Операционная система Версия Inbox Версия Async
Linux RedHat 7,3
SLES 12 SP2
Kernel 4,4
MLNX_OFED 3
Windows Server Windows Server 2016 WinOF-2 1,2
WinOF 4,7
VMware ESXi 6,5 MLNX-NATIVE-ESX 4.16.8.8
FreeBSD Запланировано на 2017 H2

Политика в отношении Cookie-файлов компании NVIDIA Mellanox​​​​​​​

На этом веб-сайте используются cookie-файлы, которые могут помочь в доставке контента в соответствии с вашими предпочтениями и интересами, обеспечить лучший поиск и проанализировать наш трафик. Вы можете удалить и/или заблокировать cookie-файлы с этого сайта, но это может повлиять на работу сайта. Более подробная информация приведена в < a1 > Политике конфиденциальности .