Статья посвящена реализации алгоритма RAID-5 в распределенной файловой системе GlusterFS. Анализ требований предъявляемых к масштабируемой файловой системе (ФС), способной задействовать в дисковые ресурсы узлов вычислительного кластера, показывает, что реализация распределенной версии алгоритма RAID-5 позволяет существенно повысить устойчивость ФС к сбоям отдельных узлов и даже стоек кластера. В статье дается краткий обзор принципов функционирования распределенной файловой системы GlusterFS и описывается способ встраивания алгоритма RAID-5 в эту систему. Описываются основные алгоритмы и структуры данных, реализованные для адаптации RAID-5 в распределенную ФС. Делаются выводы об устойчивости и производительности разработанной ФС. Показано, что реализованный алгоритм позволяет наращивать пропускную способность ФС до пропускной способности нижележащей сетевой системы, незначительно теряя в производительности при наличии отказавших узлов.
Целью работы является создание системы обработки изображений в параллельном режиме под управлением Apache Hadoop на основе технологии MapReduce, которая скрывает от прикладного программиста детали внутреннего устройства Hadoop и предоставляет простой программный интерфейс для работы с изображением, уже загруженным в память. Основными результатами являются архитектура системы обработки изображений с автоматическим распараллеливанием на основе Hadoop и ее практическая реализация в виде первой очереди комплекса программ. Созданный комплекс программ применен для обработки изображений от системы Particle Image Velocimetry (источник данных проект PIV Challenge). Тестирование комплекса программ на кластере Hadoop из четырех узлов показало почти линейную масштабируемость. Практическое применение возможно в научной сфере (обработка изображений от физических экспериментальных установок, астрономических наблюдений, спутниковых снимков земной поверхности и т.д.), медицине (обработка изображений...