MapReduce уступает по производительности СУБД
14 апреля 2009, Никонова Екатерина
0
|
Команда исследователей выяснила, что SQL-системы управления параллельными базами данных значительно превосходят по скорости работы технологию обработки данных MapReduce, созданную компанией Google. Некоторые СУБД обладают быстродействием, в 6,5 раз большим, чем фреймворк MapReduce.
Разработка MapReduce для индексирования страниц глобальной сети при помощи распределенной системы недорогих серверов была попыткой Google отказаться от использования традиционных параллельных баз данных. К январю 2008 года система MapReduce обрабатывала 20 петабайт информации каждый день. Проведенные в конце ноября тесты системы показали, что для сортировки 1 терабайта данных тысяче серверов понадобилось 68 секунд.
Подобные результаты позволили как самой технологии MapReduce, так и ее версии с открытым исходным кодом Hadoop, приобрести множество поклонников, считавших, что она во всех отношениях превосходит традиционные системы управления реляционными базами данных, впервые появившиеся 40 лет назад. Начали звучать предположения, что устаревшие базы данных больше не будут использоваться в крупномасштабных вычислительных системах, таких как системы облачной обработки данных.
Впрочем, уже тогда сотрудники компаний Microsoft и Vertica Systems утверждали, что в MapReduce отсутствуют многие важные функции, ставшие для СУБД фактически стандартом, и потому называли фреймворк Google шагом назад. В летнем номере журнала американской ассоциации по вычислительной технике ACM (Association for Computing Machinery) будет опубликована статья под названием "Сопоставление технологий крупномасштабного анализа данных", в которой недостатки MapReduce будут продемонстрированы в виде числовых показателей.
Для этого исследования были протестированы две параллельные кластерные базы данных, состоящие из 100 узлов. Одна из них работала под управлением СУБД производства Vertica Systems Inc., а для другой использовали СУБД крупного производителя, имя которого не называется. Их показатели сравнили с MapReduce, запущенной на системе того же размера. Серверы работали под управлением 64-битной операционной системы Red Hat Enterprise Linux, имели процессоры Intel Core 2 Duo с тактовой частотой 2,4 ГГц, 4 Гб оперативной памяти и два жестких диска с интерфейсом SATA-I объемом по 250 Гб.
СУБД показали гораздо более впечатляющее быстродействие, выполняя различные аналитические задачи в 3,1 и 6,5 раза быстрее. Однако, несмотря на более компактный код, потребовавшийся для осуществления операций, их настройка и загрузка данных заняли гораздо больше времени, чем для MapReduce. Впрочем, многие операции, выполняемые SQL-СУБД автоматически, при использовании MapReduce приходится проделывать вручную. Это привело испытателей к выводу, что система Google больше подходит для предприятий с небольшим штатом программистов и ограниченной сферой деятельности. Крупным широкопрофильным компаниям удобнее пользоваться традиционными СУБД, которые считаются более зрелым решением.
Загрузка данных в MapReduce осуществлялась в 3 и в 20 раз быстрее, чем в другие опытные образцы, что позволило исследователям признать ее преимущество в узких сферах, таких как индексирование текстовой информации и веб-поиск, при условии, что количество кластеров в системе будет приближаться к тысяче – именно такое количество использует Google.
Рекомендуем также почитать
Свежие новости раздела
ETegro Fastor FS200 G4: серьёзная СХД
Новая система рассчитана на консолидацию данных, высокопроизводительные вычисления, виртуализацию и т.п.
ETegro Hyperion RS230 G5: новый сервер
Представлена новая модель сервера на мощных энергоэффективных процессорах.
ETegro Hyperion RS530 G4: мощный сервер для "больших данных"
Новая модель проддерживает четыре процессора, 6 Тбайт памяти и 12 дисков с горячей заменой.
ETegro представляет серверы для HPC
Новые модели рассчитаны на установку в ЦОДах и обслуживание облачных приложений.
ETegro Therascale OCP: решение для облачных ЦОДов
Новое решение на базе Open Compute Project снижает энергопотребление и повышает наработку на отказ.
ETegro Hyperion ES200 G5: новый сервер для малого бизнеса
Компактная модель оснащается энергоэффективным процессором и поддерживает до четырёх накопителей.
Статьи раздела
-
ETegro Hyperion ES200 G5: обзор микросервера
Серверы
-
SRV|LEGION SL1000/Tmini: обзор микросервера на базе Intel Xeon E3
Серверы
-
ETegro Hyperion ES200 G4: обзор микросервера на базе Intel Xeon E3
Серверы
-
Thecus N6850: обзор NAS-сервера на шесть дисков
Серверы
-
Hitachi Unified Storage 110: обзор HUS 110, сетевого хранилища корпоративного уровня
Серверы
-
Thecus N10850: обзор NAS-сервера на десять дисков
Серверы
Все свежие новости
Apple обменивается исками с Ericsson, в 2022-м году сохранится дефицит микросхем
Apple обменивается исками с Ericsson, в 2022-м году сохранится дефицит микросхем
Google готовит Android 11 и думает о запуске собственного процессора
Google хочет, чтобы новый дизайн платформы напоминал медиаадаптер Chromecast
ТОП-3 тарифов на интернет для загородных домов и коттеджей
ТОП-3 выгодных тарифов на интернет для загородных домов и коттеджей от провайдеров
ZenFone Max Pro (M1) – новый смартфон от ASUS
ZenFone Max Pro – смартфон с высокой емкостью аккумулятора
ONYX BOOX Note – новый ридер с экраном 10,3"
Букридер с ридер с экраном 10,3" весит всего 325 граммов
Отзывы
0 Оставить отзывДобавить отзыв