Современные вычислительные и распределенные информационные системы (например, грид-системы, системы облачных вычислений, одноранговые сети типа «mesh», сети, построенные на основе динамических архитектур VANET и MANET, сети типа «умный дом», сети «интеллектуальных» контроллеров и сенсоров и т.п.) представляют собой сложные информационно-телекоммуникационные системы (ИТКС), которые включают множество разнотипных сетевых устройств, которые объединены в единый информационно-вычислительный комплекс, работают с высокой сетевой нагрузкой, являются источником больших объемов данных и поддерживают множество реконфигурируемых соединений.

В настоящее время, когда все мобильные и большинство потребительских цифровых устройств имеют сетевые интерфейсы, используемые для обмена служебными и пользовательскими данными, разветвленность и многокомпонентность такого рода сетей, гетерогенность и практически неограниченный объем узлов позволяют определить новый феномен сетевых технологий – Интернет вещей (от англ. Internet of Things).

internetdesobjets

Internet of Things – собирательная технология межмашинного взаимодействия (machine-to-machine, M2M), зародившаяся в 1999 г. и получающая активное развитие в настоящее время в связи с ее проникновением в огромный потребительский сектор товаров и услуг широкого профиля (например, радиочастотные метки на товарах, товарных упаковках, бумажных документах, сетевые мобильные устройства, бытовые приборы с поддержкой сетевых коммуникаций и т.п.). Под M2M понимают конгломерат сетевых технологий, обеспечивающих устройствам возможность взаимодействия с другими устройствами. При этом совместная деятельность устройств выходит за пределы простого взаимодействия конечного количества устройств (например, роевые интеллектуальные группы микросамолетов-дронов, автотранспортный поток в системе городского трафика и т.п.). Работы в области M2M сегодня координируют несколько организаций: Eclipse Foundation, группа Focus Group on Machine-to-Machine, входящая в Международный союз электросвязи, инженерный комитет TR-50 M2M по интеллектуальным устройствам. Разработки в этом направлении ведутся такими мировыми корпорациями как Intel, IBM, Cisco, Google.

С 2010 г. на базе Internet of Things активно продвигается новая парадигма «туманных вычислений» (fog computing) как развитие технологии облачных вычислений, которые переносятся из центров обработки данных на огромное множество гетерогенных вычислительных устройств разной вычислительной мощности и степени мобильности. Туманные вычисления определяются как виртуализированная платформа, верхний уровень которой занимают облачные центры обработки данных, предоставляющие ресурсы, необходимые для выполнения аналитических приложений, средний – распределенные управляющие системы, в которых реализуется интеллектуальная составляющая туманной системы, нижний образован миллионами потребительских устройств, имеющими сетевые интерфейсы взаимодействия.

Актуальность разработок в данном направлении подтверждается тем, что лидер аналитических исследований и прогнозов в IT-индустрии, компания Gartner, поместила технологию Internet of Things в общий цикл зрелости новых технологий на этап «технологического скачка» с указанием срока становления 10 лет [«Hype Cycle for the Internet of Things». Hype Cycles. Gartner, 2012].

исследование Gartner-2012-Hype-Cycle

Ключевые особенности технологии Internet of Things:

  • географически плотное распределение взаимодействующих компонентов: модель Internet of Things децентрализована, отдельные устройства предоставляют друг другу сервисы независимо от центров обработки данных, вследствие чего они связаны между собой плотными потоками разнородных данных (например, сервисная и служебная информация, потоки данных, распространяемых по сети взаимодействующих устройств по принципу peer-to-peer);
  • сложная динамически меняющаяся топология, мобильность и гетерогенность: миллионы различных перемещающихся вычислительных узлов создают разнообразные неизвестные заранее связи, что определяет необходимость установления новых коммуникационных каналов и передачи данных по новым маршрутам.

Следствием этих особенностей является в Internet of Things огромный объем гетерогенных данных, генерируемый в реальном времени. Источниками данных являются датчики различных типов, в том числе генерирующие телеметрические данные экспериментов и контролируемых процессов, информацию с сенсоров, служебный трафик мониторинга состояний устройств, неструктурированную информацию с камер наблюдения и т.п. В этой связи актуальной становится задача обработки большого количества данных, поступающих от устройств, входящих в состав Internet of Things. Начиная с 2008 г., для обозначения совокупности технологических принципов по обработке данных, объемы которых превышают ограничения современных баз данных, используется неформальный термин «большие данные» (big data). Согласно отчету Cisco Connected World Technology Report, около 75% компаний собирают различные данные с пользовательских вычислительных устройств, причем почти половину этого объема составляют данные мониторинга: например, зафиксированные сенсорами показатели среды функционирования, телеметрическая информация, поступающая от датчиков, установленных на объектах контроля, метрологические данные о состояниях различных потребительских электронных устройств (статус, температурный режим, давление, работоспособность, производительность, влажность и т.п.), персонализированная информация от мобильных абонентских устройств (адресация, поисковые запросы и т.п.), геолокационные данные для предоставления мобильных электронных сервисов и т.п.

инфорграфика Data mining

Для обработки больших объемов данных создаются и используются методы обработки данных (data mining), однако, для больших объемов данных указанные методы расширяются, оптимизируются и дорабатываются с учетом значительного увеличения объемов обрабатываемой информации. Примерами таких методик по анализу и обработке больших данных являются:

  • Association rule learning (выявление взаимосвязей между переменными величинами в больших массивах данных);
  • Classification (предсказание поведения объекта в определенной функциональной области;
  • Cluster analysis (классификация объектов по группам за счет выявления заранее не известных общих признаков);
  • генетические алгоритмы (поиск оптимального решения на основе биоинспирированного подхода генной инженерии);
  • Unsupervised learning (выявление скрытых функциональных взаимосвязей в анализируемых массивах данных);
  • визуализация данных (графическое представление результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации и облегчения понимания полученных результатов анализа).

логотип Apache Hadoop

Для работы с большими данными в настоящее время существует ряд комплексных подходов и решений на их основе. Наиболее успешной является технология NoSQL (от англ. not only SQL, не только SQL), которая вбирает в себя ряд проектов, направленных на реализацию модели баз данных, имеющей существенные отличия от используемой в традиционных реляционных СУБД с доступом к данным посредством языка SQL-запросов. Описание схем данных в случае NoSQL-решений базируется на других, нереляционных, принципах, а именно на основе хеш-таблиц и деревьев. Такие решения характеризует распределенность хранения и горизонтальная масштабируемость. На базе технологии NoSQL построен ряд программных решений по обработке больших данных, а именно: Hadoop, Amazon simple DB, Cloudata и т.п. Типичным образцом NoSQL-решения является продукт Apache Hadoop ­– свободный Java-фреймворк, поддерживающий выполнение распределенных приложений, работающих на больших кластерах, построенных на обычном оборудовании. В Hadoop реализована вычислительная парадигма, известная как MapReduce. Согласно этой парадигме приложение разделяется на большое количество небольших заданий, каждое из которых может быть выполнено на любом из узлов кластера. В дополнение предоставляется распределенная файловая система, использующая для хранения данных вычислительные узлы кластера, что позволяет достичь высокой агрегированной пропускной способности кластера. Разработки масштаба, подобного Apache Hadoop, в Российской Федерации не ведутся.

Для создания отечественной программной платформы поддержки анализа, обработки и визуализации больших данных в рамках настоящего ПНИ разрабатывается отечественный высокопроизводительный программный комплекс, предназначенный для реализации алгоритмов обработки больших данных, генерируемых в Internet of Things, в виде набора программ осуществляющих адаптивную конвейерно-параллельную обработку данных на кластере виртуальных машин, что позволит ликвидировать отставание отечественных разработок в области высокопроизводительных методов для обработки больших массивов данных и предложить отечественное конкурентоспособное решение на рынке распределенной обработки данных в Internet of Things.

Любая виртуальная машина, используемая как узел данных кластера типа Apache Hadoop (Data Node), предъявляет повышенные требования к подсистеме ввода-вывода, но остается толерантной к объему оперативной памяти и ресурсам центрального процессора. Нескоординированное в масштабе всей виртуальной вычислительной среды распределение виртуальных машин для решения задач параллельной обработки больших данных может привести к неэффективному расходу вычислительных ресурсов и снижению качества предоставляемого сервиса анализа и визуализации. Исправить данный недостаток можно, если при распределении задач по виртуальным машинам и при распределении виртуальных машин по физическим серверам вычислительной системы использовать критерий оптимизации, в котором учитываются архитектура вычислительных узлов и загрузка ресурсов.

Актуальность такого рода разработок для современных сетевых систем подтверждается тем, что информационно-телекоммуникационные системы отнесены Указном Президента РФ №899 от 07.07.2011 «Об утверждении приоритетных направлений науки, технологий и техники в Российской Федерации и перечня критических технологий Российской Федерации» к приоритетным направлениям развития отечественных наукоемких технологий, а технологии и программное обеспечение распределенных и высокопроизводительных вычислительных систем., — к критическим технологиям, разработки по теме которых относятся к наиболее приоритетным направлениям развития инфотелекоммуникационной отрасли России.

Результаты ПНИ направлены на дальнейшее использование в реальном секторе экономики, а также в дальнейших исследованиях и разработках, что обеспечивается проведением технико-экономической оценки рыночного потенциала полученных результатов и разработкой проекта технического задания на проведение ОКР.