Ряд компаний самостоятельно разрабатывают инструменты для автоматического обезличивания, считая, что написание алгоритмов поиска, профилирования и маскирования данных не такая уж сложная задача. Однако, с учетом объема и количества баз данных, в которых содержится очень разнородная информация, и часть которых не задокументирована надлежащим образом, на выходе зачастую получается решение, которое работает с данными несистемно, и эффективность обезличивания разнится от случая к случаю.
Вариант такого подхода — заказная разработка. В среднем создание решения занимает минимум полгода, стоит от 15 млн рублей, и, как правило, через полгода выясняется, что инвестиции надо удвоить, а 30-40% решения переделать.
Наконец, можно использовать рыночные продукты для обезличивания. До недавнего времени наиболее популярным было ПО известных западных вендоров Ataccama, DatProf, Informatica, Brillix и др. Они с разной степенью успешности адаптируются к российским реалиям, но с их использованием риски утечек резко снижаются. Однако есть нюанс: в ближайшее время заканчиваются сроки лицензий, продлить которые бизнес не может сразу по нескольким причинам. Альтернатива — отечественные IT-решения, которые за последнее время нарастили функциональность и созрели, как, например, продукт Группы Т1 Сфера.Обезличивание данных.
Это коробочное решение для обезличивания ПД «под ключ», необходимое в первую очередь специалистам, обеспечивающим информационную безопасность, менеджерам тестовых сред, сотрудникам, участвующим в тестировании программных продуктов.
Сфера.Обезличивание данных позволяет:
Создавать обезличенные базы данных (поддержка СУБД Postgres, MS SQL, Oracle) и обезличенные датасеты (поддержка форматов Avro, Parquet, CSV).
Создавать облегченные базы данных с опцией настройки критериев усечения.
Загружать данные из одной базы в другую без изменения. Проводить инкрементальную загрузку данных с настройкой критериев инкремента.
Искать и классифицировать в автоматическом режиме атрибуты с персональными данными на основе ML-моделей (Machine learning).
Размечать пустые поля и таблицы баз данных. Отключать индексы, констрейнты и триггеры баз перед загрузкой данных, восстанавливать их по окончанию загрузки.
Использовать библиотеку алгоритмов обезличивания, построенных на базе алгоритмов FPE-шифрования с сохранением формата значений и интеграционной целостности.
Обезличивать большие данные.
Формировать «белые списки» значений полей для исключения из обезличивания.
Формировать отчеты с результатами поиска, классификации и обезличивания данных.
Конкурентные преимущества российского решения определяются тем, что его разработчики много лет занимались решением проблем обезличивания ПД в крупных финансовых компаниях. У команды был опыт написания собственных скриптов и интеграции инструментов зарубежных вендоров, продукты которых справлялись не со всеми типами персональных данных, принятых в России, или произвольно их зашифровывали. Например, последнее число в ИНН рассчитывается по математической формуле, то есть не может быть случайным, иначе система проверки целостности данных, обязательная для финансовой организации, не пропустит этот идентификатор. Из-за того, что ИНН неправильно обезличен, формируется некорректно работающий процесс.
В тот момент, когда стало понятно, что система фильтров не очень эффективна: требует постоянной актуализации правил для поиска ПД и «ручного» отслеживания исключения, возникла гипотеза, что ML-модель справится гораздо лучше, что и было подтверждено на практике.
Модель обучалась постепенно, по мере того как команда накапливала знания. Сейчас для запуска Сфера.Обезличивание данных у корпоративного заказчика достаточно двух дней. Срок возрастает, если информация, которой оперирует конкретная компания слишком специфическая. В этом случае пустая модель будет обучаться на данных пользователя, что может занять от одного месяца до полугода.
В чем преимущества технологии машинного обучения при обезличивании данных?
Автоматизированный поиск с помощью ML-модели предсказуемо выигрывает у ручного метода, базирующегося исключительно на правилах и точности. Полнота обнаружения ПД у Сфера.Обезличивание данных на сегодняшний день составляет 97,3%, а точность поиска достигает 95%.
Даже когда в источнике данных попадаются записи типовых персональных данных в формате, ранее не встречавшемся, система с высокой вероятностью правильно классифицирует подобную запись — определит, что это с высокой степенью вероятности фамилия человека, или номер телефона, или ИНН.
В итоге разработчики и тестировщики получают реалистичную базу данных с сохраненными структурными связями, позволяющую обрабатывать клиентские запросы, но без рисков утраты ПД.
Так, решение Сфера.Обезличивание данных используется в крупной российской финансовой организации. Компания еженедельно генерирует терабайты данных, и их обезличивание дает возможность передавать задачи по тестированию и выпуску качественных финтех-сервисов дочерним организациям.
Бонусом идет экономия средств, так как снижение класса конфиденциальности информации за счет деперсонализации позволяет существенно оптимизировать затраты на защиту. Уменьшатся и расходы на оплату труда. Поскольку ETL-процессы осуществляются автоматически, и система позволяет проводить обезличивание одновременно в нескольких базах данных буквально нажатием одной кнопки, существенно снижаются требования к команде и ее стоимость. Больше не нужно растить или нанимать высококвалифицированных сотрудников, с задачей по обезличиванию справиться любой тестировщик, без глубоких специфических навыков.
Типовой процесс обезличивания данных с помощью Сфера
Запрос об источнике данных для обезличивания.
Подготовка баз данных. Получение доступа или разворачивание источника и приемника данных.
Профилирование. Поиск и классификация подлежащих обезличиванию полей. Именно на этом этапе подключается искусственный интеллект. Классификация баз данных ведется с помощью технологии машинного обучения. В финале формируется отчет, в котором указано какой идентификатор присвоен каждому полю исходя из информации, содержащейся в нем.
Анализ результатов профилирования. Заказчик и служба ИБ изучают готовый отчет, верифицируют результаты и при необходимости вносят свои коррективы.
Непосредственно обезличивание. Идет процесс загрузки данных из источника в приемник с применением правил FPE-шифрования.
Итоговая проверка результатов Службой ИБ.
Несмотря на сложность ИТ-ландшафта и насыщенность баз данных, решение запускает процесс обезличивания без долгих и сложных настроек.