MapReduce-алгоритм построения инвертированного индекса
DOCX
Современные системы сталкиваются с объёмами информации, для обработки которых будет недостаточно ресурсов одного вычислительного устройства. При этом к части этих объёмов также предъявляется требование по скорости их обработки, а сами данные могут быть представлены в различных структурированных или полуструктурированных форматах. Такого рода информацию относят к категории больших данных.
Для обработки больших данных, как правило, не выгодно выполнять увеличение производительности одного узла системы (выполнять вертикальное масштабирование), поскольку это достаточно сложно и затратный процесс. Вместо этого мощность данных систем обычно наращивается путём добавления дополнительных узлов в систему.
Целью данной работы является получение практических навыков в реализации Map-Reduce алгоритма решения задачи, описанной далее в следующем разделе на базе платформы Apache Hadoop.