В настоящий момент объемы данных увеличиваются в геометрической прогрессии. Геопространственные данные являются одним из основных элементов концепции больших данных. Существует очень большое количество инструментов для анализа больших данных, но далеко не все они учитывают особенности и обладают возможностями обрабатывать геопространственные данные. В статье рассматриваются три платформы с открытым исходным кодом, такие как Hadoop Spatial, GeoSpark, GeoFlink для работы c геопространственными данными очень больших объемов. Рассмотрены их архитектура, достоинства и недостатки, зависимость от времени выполнения и объема использованных данных. Также выполнена оценка обработки с точки зрения, как потоковых, так и пакетных данных. Эксперименты выполнялись на наборах растровых и векторных данных, представляющих собой спутниковые снимки в видимом диапазоне, индексы NDVI и NDWI, климатические показатели (снежный покров, интенсивность осадков, температура поверхности), данные из Open Street M...
Предложен подход для организации распределенной обработки сейсмических данных на базе свободно распространяемого пакета Seismic Un*x и системы активного хранения данных с использованием TSim и ФС Lustre. В работе рассмотрены ключевые проблемы обработки сейсмических данных, и для каждой предложено и обосновано использование соответствующего инструмента из арсенала системы активного хранения данных. Обработка данных непосредственно на узлах хранения позволяет продемонстрировать значительную эффективность за счет минимизации количества дорогостоящих операций передачи данных по сети. Проведено исследование производительности разработанного программного прототипа по обработке сейсмических данных в системе активного хранения для оценки перспектив полноценной интеграции.