Быстрее, точнее, безопаснее: Как искусственный интеллект помогает обезличить персональные данные

Москва

04.05.2023

Проблема утечки данных становится для бизнеса все более острой. Роскомнадзор подсчитал, что в 2022 году было более 60 крупных инцидентов, в несанкционированный доступ попали свыше 230 млн записей с персональной информацией россиян.

К репутационным и операционным рискам добавляется финансовый: законодатели готовы принять положение об оборотных штрафах в случае утраты критически важной информации. Планируется, что уже с 1 июля бизнес будет вынужден выплатить 1% от годового оборота, а при попытке скрыть ситуацию штраф достигнет 3%. А это зачастую десятки миллионов рублей. Сегодня максимальная санкция при повторном нарушении — 500 тысяч рублей. Вместе с Вячеславом Борисовым, владельцем продукта Сфера.Обезличивание данных, попробуем разобраться, каким образом можно замаскировать важную информацию, чтобы снизить вероятность негативного сценария, и как повысить эффективность защиты персональных данных (ПД) с помощью искусственного интеллекта.

Зачем нужны инструменты обезличивания данных?

Правила обращения с ПД в России предписаны сразу несколькими законодательными актами. Помимо профильного 152-ФЗ «О персональных данных», действуют 98-ФЗ «О коммерческой тайне» и 395-ФЗ «О банковской тайне». Кроме того, процессы регулируются внутренними требованиями компании. Например, службы информационной безопасности часто запрещают использовать ПД клиентов для проверки новой функциональности цифровых сервисов. В этом случае тестировщикам приходится оперировать пустыми базами данных или создавать тестовые среды вручную. В итоге страдает качество проверок, так как большинство багов разработки открывается только на промышленных объемах информации.

Решение проблемы — обезличивание ПД, которое позволяет сохранить их исходную структуру и формат значений, а также интеграционную целостность. Это важно, так как в разных базах данных хранятся фрагменты информации об одном и том же клиенте. Унифицированный подход к обезличиванию позволяет находить и сохранять все связи.

Одно из основных требований, которое предъявляется к инструментам обезличивания — необратимость, то есть зашифрованные данные не должны поддаваться повторной персонализации.

Где бизнесу взять инструменты обезличивания?

Ряд компаний самостоятельно разрабатывают инструменты для автоматического обезличивания, считая, что написание алгоритмов поиска, профилирования и маскирования данных не такая уж сложная задача. Однако, с учетом объема и количества баз данных, в которых содержится очень разнородная информация, и часть которых не задокументирована надлежащим образом, на выходе зачастую получается решение, которое работает с данными несистемно, и эффективность обезличивания разнится от случая к случаю.

Вариант такого подхода — заказная разработка. В среднем создание решения занимает минимум полгода, стоит от 15 млн рублей, и, как правило, через полгода выясняется, что инвестиции надо удвоить, а 30-40% решения переделать.

Наконец, можно использовать рыночные продукты для обезличивания. До недавнего времени наиболее популярным было ПО известных западных вендоров Ataccama, DatProf, Informatica, Brillix и др. Они с разной степенью успешности адаптируются к российским реалиям, но с их использованием риски утечек резко снижаются. Однако есть нюанс: в ближайшее время заканчиваются сроки лицензий, продлить которые бизнес не может сразу по нескольким причинам. Альтернатива — отечественные IT-решения, которые за последнее время нарастили функциональность и созрели, как, например, продукт Группы Т1 Сфера.Обезличивание данных.

Что такое Сфера.Обезличивание данных?

Это коробочное решение для обезличивания ПД «под ключ», необходимое в первую очередь специалистам, обеспечивающим информационную безопасность, менеджерам тестовых сред, сотрудникам, участвующим в тестировании программных продуктов.

Сфера.Обезличивание данных позволяет:

Создавать обезличенные базы данных (поддержка СУБД Postgres, MS SQL, Oracle) и обезличенные датасеты (поддержка форматов Avro, Parquet, CSV).
Создавать облегченные базы данных с опцией настройки критериев усечения.
Загружать данные из одной базы в другую без изменения. Проводить инкрементальную загрузку данных с настройкой критериев инкремента.
Искать и классифицировать в автоматическом режиме атрибуты с персональными данными на основе ML-моделей (Machine learning).
Размечать пустые поля и таблицы баз данных. Отключать индексы, констрейнты и триггеры баз перед загрузкой данных, восстанавливать их по окончанию загрузки.
Использовать библиотеку алгоритмов обезличивания, построенных на базе алгоритмов FPE-шифрования с сохранением формата значений и интеграционной целостности.
Обезличивать большие данные.
Формировать «белые списки» значений полей для исключения из обезличивания.
Формировать отчеты с результатами поиска, классификации и обезличивания данных.

Конкурентные преимущества российского решения определяются тем, что его разработчики много лет занимались решением проблем обезличивания ПД в крупных финансовых компаниях. У команды был опыт написания собственных скриптов и интеграции инструментов зарубежных вендоров, продукты которых справлялись не со всеми типами персональных данных, принятых в России, или произвольно их зашифровывали. Например, последнее число в ИНН рассчитывается по математической формуле, то есть не может быть случайным, иначе система проверки целостности данных, обязательная для финансовой организации, не пропустит этот идентификатор. Из-за того, что ИНН неправильно обезличен, формируется некорректно работающий процесс.

В тот момент, когда стало понятно, что система фильтров не очень эффективна: требует постоянной актуализации правил для поиска ПД и «ручного» отслеживания исключения, возникла гипотеза, что ML-модель справится гораздо лучше, что и было подтверждено на практике.

Модель обучалась постепенно, по мере того как команда накапливала знания. Сейчас для запуска Сфера.Обезличивание данных у корпоративного заказчика достаточно двух дней. Срок возрастает, если информация, которой оперирует конкретная компания слишком специфическая. В этом случае пустая модель будет обучаться на данных пользователя, что может занять от одного месяца до полугода.

В чем преимущества технологии машинного обучения при обезличивании данных?

Автоматизированный поиск с помощью ML-модели предсказуемо выигрывает у ручного метода, базирующегося исключительно на правилах и точности. Полнота обнаружения ПД у Сфера.Обезличивание данных на сегодняшний день составляет 97,3%, а точность поиска достигает 95%.

Даже когда в источнике данных попадаются записи типовых персональных данных в формате, ранее не встречавшемся, система с высокой вероятностью правильно классифицирует подобную запись — определит, что это с высокой степенью вероятности фамилия человека, или номер телефона, или ИНН.

В итоге разработчики и тестировщики получают реалистичную базу данных с сохраненными структурными связями, позволяющую обрабатывать клиентские запросы, но без рисков утраты ПД.

Так, решение Сфера.Обезличивание данных используется в крупной российской финансовой организации. Компания еженедельно генерирует терабайты данных, и их обезличивание дает возможность передавать задачи по тестированию и выпуску качественных финтех-сервисов дочерним организациям.

Бонусом идет экономия средств, так как снижение класса конфиденциальности информации за счет деперсонализации позволяет существенно оптимизировать затраты на защиту. Уменьшатся и расходы на оплату труда. Поскольку ETL-процессы осуществляются автоматически, и система позволяет проводить обезличивание одновременно в нескольких базах данных буквально нажатием одной кнопки, существенно снижаются требования к команде и ее стоимость. Больше не нужно растить или нанимать высококвалифицированных сотрудников, с задачей по обезличиванию справиться любой тестировщик, без глубоких специфических навыков.

Типовой процесс обезличивания данных с помощью Сфера

Запрос об источнике данных для обезличивания.

Подготовка баз данных. Получение доступа или разворачивание источника и приемника данных.

Профилирование. Поиск и классификация подлежащих обезличиванию полей. Именно на этом этапе подключается искусственный интеллект. Классификация баз данных ведется с помощью технологии машинного обучения. В финале формируется отчет, в котором указано какой идентификатор присвоен каждому полю исходя из информации, содержащейся в нем.
Анализ результатов профилирования. Заказчик и служба ИБ изучают готовый отчет, верифицируют результаты и при необходимости вносят свои коррективы.
Непосредственно обезличивание. Идет процесс загрузки данных из источника в приемник с применением правил FPE-шифрования.
Итоговая проверка результатов Службой ИБ.
Несмотря на сложность ИТ-ландшафта и насыщенность баз данных, решение запускает процесс обезличивания без долгих и сложных настроек.