В настоящие время обработка и хранение большого объема информации является одной из сложных и интересных задач. От того, насколько качественно реализованы производительность и надежность базы данных, зависит быстродействие системы в целом. Одним из сложных моментов данного вопроса является обработка запроса к базе данных и его эффективное выполнение. В данной работе рассмотрены современные методы и модели обработки запросов в базах данных. Предложен алгоритм для обслуживания запроса пользователей, который предполагает использование параллельных технологий при обмене информацией с узлами распределенной базы данных и словарем, а также позволяет увеличить время выполнения запроса, что в свою очередь увеличивает быстродействие системы в целом. Приведены актуальные на данный момент технологии хранения большого объема данных: параллельные и распределенные базы данных, парадигма MapReduce.
Сэмплинг является популярным подходом к обработке сверхбольших баз данных в широком спектре приложений, связанных с интеллектуальным анализом данных, построением гистограмм, приблизительное исполнение запросов и др. Использование сэмпла вместо оригинальной базы данных может уменьшить точность результатов, но компенсируется сокращением времени выполнения обработки. Репрезентативный сэмплинг позволяет сохранить в сэмпле определенные характеристики базы данных. Однако существующие алгоритмы репрезентативного сэмплинга не могут быть применены для параллельных систем баз данных, поскольку не учитывают характеристики данных, распределяемых по вычислительным узлам кластерной системы. В данной статье предлагается алгоритм репрезентативного сэмплинга для параллельных реляционных систем баз данных на основе фрагментного параллелизма. Приведены результаты вычислительных экспериментов над предложенным алгоритмом, показавшие адекватное сохранение репрезентативности свойств базы данных, распредел...