Open Source-проект Apache Spark поставил новый мировой рекорд в сортировке 100 терабайт данных
3Иллюстрация с сайта Spark.Apache.Org
По итогам тестирования по бенчмарку Sort Benchmark, Open Source-проекту Apache Spark удалось поставить новый мировой рекорд в сортировке 100 терабайт данных (1 триллион 100-байтовых записей).
Тестирование проводилось компанией Databricks еще в октябре 2014 года. Программное обеспечение на базе Apache Spark запускали на 207 виртуальных машинах, находящихся в облаке EC2, — в результате теста удалось отсортировать 100 терабайт данных за 23 минуты. Предыдущий мировой рекорд, созданный с помощью другой популярной Open Source-платформы — Hadoop MapReduce, — проводился на 2100 машинах в частном дата-центре и привёл к результату в 72 минуты. Для тестирования использовался бенчмарк имени Джима Грея (Sort Benchmark), в применении которого соревнуются организации со всего мира.
После проведения основного теста энтузиасты решили провести ещё один Big Data-тест и воспользовались Apache Spark для сортировки 1 петабайта данных (10 триллионов записей): на 190 машинах это удалось сделать за 4 часа. Этот показатель также превосходит прошлый рекорд, установленный Hadoop MapReduce: 16 часов на 3800 хостах. Сообщается, что это первый случай использования свободного ПО в комбинации с публичной облачной инфраструктурой (Amazon EC2) для достижения подобного рекорда в сортировке, и вообще первая в мире попытка сортировки 1 Пб данных в публичном облаке.
Постоянная ссылка к новости: http://www.nixp.ru/news/13099.html. Дмитрий Шурупов по материалам opensource.com.
AT&T добавила Kubernetes и Helm в свою промышленную облачную платформу на базе OpenStack
ASF рассказала о росте популярности фреймворка для распределённых программ Apache Hadoop 2.8
Apache Software Foundation исполняется 18 лет: статистика по Open Source-проектам организации
Microsoft запустила свой первый SaaS-сервис на базе Linux — HDInsight в Azure — и выбрала для него Ubuntu
Microsoft предложила в Azure свое решение HDInsight на базе Hadoop, которое работает в Linux 3 2
Итоги опроса Canonical: Публичные облака уступают частным в популярности 1
Последние комментарии
- OlegL, 17 декабря 2023 года в 15:00 → Перекличка 21
- REDkiy, 8 июня 2023 года в 9:09 → Как «замокать» файл для юниттеста в Python? 2
- fhunter, 29 ноября 2022 года в 2:09 → Проблема с NO_PUBKEY: как получить GPG-ключ и добавить его в базу apt? 6
- Иванн, 9 апреля 2022 года в 8:31 → Ассоциация РАСПО провела первое учредительное собрание 1
- Kiri11.ADV1, 7 марта 2021 года в 12:01 → Логи catalina.out в TomCat 9 в формате JSON 1