nixp.ru v3.0

23 декабря 2024,
понедельник,
02:30:27 MSK

16 января 2015, 09:36

Open Source-проект Apache Spark поставил новый мировой рекорд в сортировке 100 терабайт данных

3
Логотип Apache Spark
Логотип Apache Spark
Иллюстрация с сайта Spark.Apache.Org

По итогам тестирования по бенчмарку Sort Benchmark, Open Source-проекту Apache Spark удалось поставить новый мировой рекорд в сортировке 100 терабайт данных (1 триллион 100-байтовых записей).

Тестирование проводилось компанией Databricks еще в октябре 2014 года. Программное обеспечение на базе Apache Spark запускали на 207 виртуальных машинах, находящихся в облаке EC2, — в результате теста удалось отсортировать 100 терабайт данных за 23 минуты. Предыдущий мировой рекорд, созданный с помощью другой популярной Open Source-платформы — Hadoop MapReduce, — проводился на 2100 машинах в частном дата-центре и привёл к результату в 72 минуты. Для тестирования использовался бенчмарк имени Джима Грея (Sort Benchmark), в применении которого соревнуются организации со всего мира.

После проведения основного теста энтузиасты решили провести ещё один Big Data-тест и воспользовались Apache Spark для сортировки 1 петабайта данных (10 триллионов записей): на 190 машинах это удалось сделать за 4 часа. Этот показатель также превосходит прошлый рекорд, установленный Hadoop MapReduce: 16 часов на 3800 хостах. Сообщается, что это первый случай использования свободного ПО в комбинации с публичной облачной инфраструктурой (Amazon EC2) для достижения подобного рекорда в сортировке, и вообще первая в мире попытка сортировки 1 Пб данных в публичном облаке.

Постоянная ссылка к новости: http://www.nixp.ru/news/13099.html. Дмитрий Шурупов по материалам opensource.com.

fb twitter vk