В ЛЭТИ знают, как эффективно и безопасно работать с данными при обучении искусственного интеллекта



Ученые из СПбГЭТУ «ЛЭТИ» совместно с компанией Smartilizer исследовали новый подход к анализу распределенных данных в целях машинного обучения – он не требует передачи данных от источника к месту анализа и не нарушает их приватности.


В настоящее время данные активно используются для обучения искусственного интеллекта. В то же время, повышаются требования к безопасности и приватности таких данных. Для решения этой проблемы в 2017 году компанией Google была предложена новая концепция машинного обучения – так называемое федеративное обучение (Federated learning). Она позволяет выполнять обучение нейронных сетей на данных, хранящихся на разных устройствах, не передавая их никому. Ученые петербургского ЛЭТИ проверили эффективность существующих открытых систем на различных наборах данных, а также оценили возможности этих систем применительно к устройствам Интернета вещей – простоту использования и развертывания, возможности анализа, точность и производительность.


Интернет вещей (IoT) – это концепция сети передачи данных между физическими объектами, в которых есть встроенные средства для взаимодействия друг с другом или с внешней средой. Например, в концепции «умного» дома техника связана как между собой, так и с внешним управлением, что позволяет человеку осуществлять контроль с мобильного телефона. Типичное построение системы IoT, используемой во многих областях информационных технологий, включает в себя три уровня. Первый (уровень устройства) – аппаратные устройства, которые производят и собирают данные. Средний уровень отвечает за передачу данных с устройств на третий уровень – уровень приложения, который включает в себя сервисы, использующие или анализирующие данные.

Традиционные подходы к работе с такими системами основаны на сборе данных с устройств в одно централизованное хранилище для дальнейшего анализа. Однако они не всегда применимы из-за большого объема информации, использования каналов связи с ограниченной пропускной способностью, требований безопасности и конфиденциальности. Важными недостатками являются: увеличение времени анализа, рост сетевого трафика, повышение риска несанкционированного доступа к данным. Поэтому разрабатываются новые подходы к анализу таких данных. Одним из них является федеративное обучение (Federative Learning) – подход, который позволяет анализировать данные непосредственно в их источниках и объединять результаты таким образом, чтобы результаты анализа были не хуже, чем в традиционных подходах. Нагрузка и риски при этом меньше, потому что вся обработка данных выполняется локально, на источниках.


Одним из основных аспектов применения этой технологии в области искусственного интеллекта является безопасность и конфиденциальность персональных данных, которые собираются по всему миру буквально ежесекундно. Этот вопрос стал чрезвычайно важным после принятия нескольких законодательных положений, таких как GDPR в Европейском Союзе, CCPA в США и PDPA в Сингапуре. Они требуют прозрачной обработки персональных данных с четко указанной целью и согласия субъекта данных.


Например, в ситуации с «умным» домом, источниками данных будут служить устройства в каждой квартире: будильник, кран в ванной, теплые полы и светильники. В традиционном подходе, для интеллектуального управления всеми этими устройствами, все данные из каждой квартиры собираются в централизованном хранилище. С их помощью происходит обучение модели (например, нейронной сети), которая затем передается обратно в систему управления устройствами квартиры. Когда человек ставит будильник перед сном в «умном» доме, такая модель «знает», что по звонку будильника теплый пол должен начать согреваться, ванна набираться, а свет в определенных комнатах включится. С одной стороны, сбор данных необходим, чтобы обучить такую модель, ведь чем больше данных, тем модель «умнее». С другой стороны, информация о вас – когда вы встаете, умываетесь, едите и так далее – становится доступна кому-то еще. Неизвестно, кем и как эта информация может быть использована. Согласно принципам федеративного обучения, данные будут обрабатываться в вашей квартире, не выходя за ее пределы. При этом общий результат будет не хуже, чем в традиционном решении, за счет того, что система будет обобщать модели, обученные внутри вашей квартиры. Благодаря этому, нагрузка на систему самого «умного» дома будет меньше, каждое устройство будет отвечать само за себя. В результате систему труднее взломать и людям, которые не имеют к ней доступа, сложнее ей управлять.


Ученые из СПбГЭТУ «ЛЭТИ» проверили возможности систем разных компаний: Google, Webank, Baidu, сообщества OpenMined и других. Авторы провели серию экспериментов с ними на трех различных наборах данных. Первый набор данных содержал информацию о параметрах движущегося легкового автомобиля (средняя скорость, нагрузка на двигатель и прочее) и был нужен для оценки стиля вождения человека, дорожного покрытия и характеристики дорожной обстановки, в которой машина находится. Второй содержал аналогичные сигналы для грузовых автомобилей и анализ позволял получить информацию о работе машины. Наконец, третий набор представлял собой рентгеновские изображения, полученные от 5232 пациентов (3883 с признаками пневмонии и 1349 нормальных). Анализ позволял отличить больных людей от здоровых.


«Мы сравнили все имеющиеся в настоящее время библиотеки федеративного обучения с открытым исходным кодом и оценили их характеристики. Оказалось, что во всех трех случаях подход дает довольно точные результаты. Однако не все они сейчас могут быть использованы для промышленной разработки. Некоторые системы пока находятся на начальных стадиях и не готовы к широкому применению. Тем не менее, сама по себе технология федеративного обучения очень актуальна и быстро развивается», – рассказывает декан факультета компьютерных технологий и информатики СПбГЭТУ «ЛЭТИ», доктор технических наук Иван Холод. – Например, сейчас, если учесть большую загрузку серверов, которые работают с данными о коронавирусной инфекции, о ее распространении и других аспектах, с помощью такой технологии можно будет быстро анализировать данные из разных больниц и составлять статистику. При этом не будут нарушаться права пациентов, ведь информация о них не будет передаваться за пределы больницы».


Директор по развитию и совладелец компании Smartilizer Евгений Филиппов высоко оценил совместную работу с учеными ЛЭТИ: «Наша компания уделяет большое внимание исследованиям в области искусственного интеллекта и, в частности, федеративного обучения. Ряд платформ с открытым кодом уже в ближайшее время позволят реализовывать коммерческие проекты. Данное исследование в очередной раз показало возможность эффективного сотрудничества компании Smartilizer и СПбГЭТУ «ЛЭТИ». Мы будем продолжать совместные исследования и в 2021 году планируем приступить к коммерческому внедрению технологии федеративного обучения».


В настоящее время в СПбГЭТУ «ЛЭТИ» ведется разработка собственной библиотеки федеративного обучения. Результаты проведенного исследования опубликованы в журнале Sensors