В ходе проекта создается комплекс научных и научно-технических решений в области разработки методов и алгоритмов, обеспечивающих повышение эффективности научных исследований посредством агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в распределенной сети электронных потребительских устройств (Internet of Things).
Ключевые задачи проекта:
- Исследование современных средств обработки и визуализации больших данных. Для решения этой задачи должен быть выполнен аналитический обзор научных и информационных источников, затрагивающих проблему, исследуемую в рамках проекта, в том числе статьи в ведущих зарубежных и российских научных журналах, монографии, патенты. Должны быть проведены патентные исследования в соответствии ГОСТ Р 15.011-96. Это позволит разработать варианты возможных решений задачи, провести их сравнительную оценку и обосновать предлагаемые методы обработки больших массивов данных.
- Разработка математических методов и алгоритмов агрегации, нормализации, анализа и визуализации больших массивов данных с применением приемов и методов параллельных вычислений. Для обработки больших объемов данных должны быть применены методы обработки данных (data mining), а именно: алгоритмы агрегации для синхронного и асинхронного получения мер центральной тенденции и экстремумов, алгоритмы нормализации и анализа больших данных, и приведения полуструктурированных и неструктурированных данных к структурированному виду, алгоритмы визуализации больших данных с использованием GIS-систем, диаграмм и графиков, инфографики, таблиц, иерархий. Для больших объемов данных указанные методы должны быть расширены, оптимизированы и доработаны с учетом конвейеризации и распараллеливания вычислений на массиве виртуальных машин, составляющих единый вычислительный кластер. Предлагаемый в ПНИ подход основан на формализации выбора конфигурации виртуальных машин, оптимальной для решения задач определенного типа: нормализация, обработка, визуализация больших данных. Новизна предлагаемого решения заключается в том, что предлагаемый подход ориентирован на использование вычислительных процедур, организованных как конвейерно-параллельные процессы. Для параметрической оптимизации предлагается использовать рекуррентные алгоритмы, что позволит учитывать динамический характер процессов выделения вычислительных ресурсов и адаптировать конфигурацию вычислительной среды к текущему классу решаемых прикладных задач обработки больших данных.На базе разработанных методов реализуются соответствующие им алгоритмы, а также общая методика построения высокопроизводительной системы обработки больших данных.
- Создание экспериментальной реализации предложенных алгоритмов в виде экспериментального образца (ЭО) программного комплекса обработки больших данных. Созданная в результате выполнения проекта экспериментальная реализация должна:
- обеспечивать реализацию разработанных алгоритмов обработки и визуализации больших данных;
- планировать распределение задач по виртуальными машинам путем их подключения, выключения и динамической миграции в виртуализированной вычислительной среде в зависимости от текущего распределения ресурсов виртуальных машин: загруженности процессора и объема используемой памяти;
- предоставлять удобный пользовательский интерфейс для работы с большими массивами данных.
- Проведение экспериментальных исследований в соответствии с разработанной «Программой и методиками экспериментальных исследований». В ходе экспериментов проводится оценка предложенных научно-технических решений на предмет выполнения технических требований.
- Доведение результатов ПНИ до потребителя.Создаваемый комплекс методов и их реализаций в виде программных средств использует принципы вычислительного параллелизма на уровне виртуальных вычислительных узлов и алгоритмических блоков, что определяет такое преимущество как универсальность, производительность и масштабируемость. Предлагаемые оригинальные методы параллельных вычислений, используемые для больших массивов данных, с применением вирутализированного вычислительного кластера и динамической оптимизаций вычислительной среды в зависимости от типа решаемой задачи, являются новыми и охраноспособными.
По результатам проекта планируется получение РИД, способных к патентованию и регистрации в виде программ для ПЭВМ. Результаты работы найдут свое отражение в дальнейшем ОКР, в том числе с участием индустриального партнера.
В этой связи предлагаемое технологическое решение характеризуется как инновационное, направленное на завоевание лидирующей позиции отечественных разработок на мировом рынке средств обработки и визуализации больших данных.