MapReduce уступает по производительности СУБД

14 апреля 2009, Никонова Екатерина 0
Исследования показали, что скорость работы параллельных баз данных превосходит характеристики фреймворка от Google.

Команда исследователей выяснила, что SQL-системы управления параллельными базами данных значительно превосходят по скорости работы технологию обработки данных MapReduce, созданную компанией Google. Некоторые СУБД обладают быстродействием, в 6,5 раз большим, чем фреймворк MapReduce.

Разработка MapReduce для индексирования страниц глобальной сети при помощи распределенной системы недорогих серверов была попыткой Google отказаться от использования традиционных параллельных баз данных. К январю 2008 года система MapReduce обрабатывала 20 петабайт информации каждый день. Проведенные в конце ноября тесты системы показали, что для сортировки 1 терабайта данных тысяче серверов понадобилось 68 секунд.

Подобные результаты позволили как самой технологии MapReduce, так и ее версии с открытым исходным кодом Hadoop, приобрести множество поклонников, считавших, что она во всех отношениях превосходит традиционные системы управления реляционными базами данных, впервые появившиеся 40 лет назад. Начали звучать предположения, что устаревшие базы данных больше не будут использоваться в крупномасштабных вычислительных системах, таких как системы облачной обработки данных.

MapReduce уступает по производительности СУБД

Впрочем, уже тогда сотрудники компаний Microsoft и Vertica Systems утверждали, что в MapReduce отсутствуют многие важные функции, ставшие для СУБД фактически стандартом, и потому называли фреймворк Google шагом назад. В летнем номере журнала американской ассоциации по вычислительной технике ACM (Association for Computing Machinery) будет опубликована статья под названием "Сопоставление технологий крупномасштабного анализа данных", в которой недостатки MapReduce будут продемонстрированы в виде числовых показателей.

Для этого исследования были протестированы две параллельные кластерные базы данных, состоящие из 100 узлов. Одна из них работала под управлением СУБД производства Vertica Systems Inc., а для другой использовали СУБД крупного производителя, имя которого не называется. Их показатели сравнили с MapReduce, запущенной на системе того же размера. Серверы работали под управлением 64-битной операционной системы Red Hat Enterprise Linux, имели процессоры Intel Core 2 Duo с тактовой частотой 2,4 ГГц, 4 Гб оперативной памяти и два жестких диска с интерфейсом SATA-I объемом по 250 Гб.

СУБД показали гораздо более впечатляющее быстродействие, выполняя различные аналитические задачи в 3,1 и 6,5 раза быстрее. Однако, несмотря на более компактный код, потребовавшийся для осуществления операций, их настройка и загрузка данных заняли гораздо больше времени, чем для MapReduce. Впрочем, многие операции, выполняемые SQL-СУБД автоматически, при использовании MapReduce приходится проделывать вручную. Это привело испытателей к выводу, что система Google больше подходит для предприятий с небольшим штатом программистов и ограниченной сферой деятельности. Крупным широкопрофильным компаниям удобнее пользоваться традиционными СУБД, которые считаются более зрелым решением.

Загрузка данных в MapReduce осуществлялась в 3 и в 20 раз быстрее, чем в другие опытные образцы, что позволило исследователям признать ее преимущество в узких сферах, таких как индексирование текстовой информации и веб-поиск, при условии, что количество кластеров в системе будет приближаться к тысяче – именно такое количество использует Google.

Источник: www.computerworld.com

Отзывы

0 Оставить отзыв

    Добавить отзыв

    загрузить другую
    Ваш отзыв

    Свежие новости раздела

    Все новости раздела

    Все свежие новости

    Все новости