
#Технологии информационного моделирования
Цифровая основа девелопмента: от инноваций к операционке и обратно
23.03.2026

07.04.2026
#Информационная безопасность
Новое
В информационной инфраструктуре крупных организаций генерируется огромный объём данных: события безопасности средств защиты и оконченных устройств, события работы инфраструктурных сервисов, результаты сканирования уязвимостей, корреляционные события SIEM-систем, записи об инцидентах ИБ, данные инвентаризации активов, информация из Active Directory и LDAP каталогов, сведения об индикаторах компрометации, белых и черных списках и множество иной информации из различных источников данных. При этом каждый источник обладает собственной структурой, форматом выгрузки и периодичностью обновления данных.
На практике в большинстве организаций работа с этими данными при анализе информации выглядит одинаково: аналитик вручную выгружает данные из каждой системы, сводит их в электронные таблицы Excel, пытается сопоставить данные и построить аналитические отчеты. Этот процесс занимает колоссальное количество времени от нескольких часов до нескольких дней, при этом результат устаревает сразу после выгрузки данных.

В типичной информационной инфраструктуре количество источников данных информационной безопасности исчисляется десятками. Сканер уязвимостей генерирует от десятков тысяч до миллионов записей, SIEM обрабатывает миллиарды событий в сутки от активности пользователей и сервисов, количество устройств в инфраструктуре и их свойства постоянно меняются. Объекты в зависимости от типа в различных источниках данных могут быть представлены по-разному: как hostname, FQDN, IP-адрес, MAC-адрес, серийный номер, заводской номер, имя пользователя, его синоним, и так далее. Объединить все данные в одном месте непростая задача.
Для нашей команды информационной безопасности это был вызов, мы не хотели тратить десятки часов на анализ и поиск нужной информации. Мы решили сразу все проблемы, создав озеро данных информационной безопасности (SDL).
Ответом на проблемы стало создание озера данных информационной безопасности (Security Data Lake, SDL) — централизованной аналитической платформы данных, объединяющей все данные ИБ в единое хранилище.
Ключевой принцип: все данные, все метрики, все состояния объектов — в одном месте. Полный отказ от Excel. Обеспечение DataDriven подхода во всех процессах ИБ.

Архитектура выстроена по принципу многослойной обработки (layered data architecture). Данные проходят последовательные этапы от извлечения данных из источника до преобразования и презентации в виде аналитических витрин данных под различные задачи и потребности.

Apache Airflow — центральный оркестратор. Каждый источник обслуживается отдельным DAG (Directed Acyclic Graph): подключение, извлечение, валидация данных, нормализация данных, пробразование, отправка данных в Kafka. Airflow также обеспечивает контроль схемы данных и отслеживает версионность схемы, в случае изменения схемы осуществляет оповещение специалистов, одновременно сохраняет версию схемы источника и отправляет мета данные об источнике в каталог данных.
Разработан собственный стандарт создания DAG:
Для потоковой обработки событий, их фильтрации, нормализации и обогащения мы используем Vector с его языком обработки VRL (Vector Remap Language). Vector позволяет принимать данные от источников, которые не умеют отправлять события напрямую в Kafka, также одновременно события обогащаются дополнительной мета информацией из централизованных справочников, сокращая в дальнейшем время на обработку. Vector позволяет также обеспечить T (transform) преобразовывая события под наши требования и шаблоны.
Vector и Airflow развернуты с возможностью горизонтального масштабирования, балансировки нагрузки, что повышает отказоустойчивость ETL / ELT потоков.
Apache Kafka — единая шина данных и буфер. Данные в Kafka от всех источников поступают в сыром виде (raw), сохраняя оригинальный контекст и мета информацию об источнике данных. Если потребитель не может вычитать данные из соответствующего топика, данные в нем сохраняются в течение определенного времени для возможности вычитать данные позднее без потери важных данных.
Преимущества Kafka как единой шины:
ClickHouse — колоночная СУБД, которая обеспечивает высокую производительность, эффективное сжатие, быструю вставку и чтение миллионов строк. В качестве основного хранилища данных мы решили использовать ClickHouse отказавшись от других решений.
Преимущества ClickHouse:

ClickHouse позволяет нам организовать хранилище как мы хотим, разделить кластер так, чтобы распределить нагрузку между узлами кластера, обеспечив быструю вставку миллионов строк данных и одновременное чтение, а также обеспечить различное время хранения данных. Главное не перегружать хранилище излишними JOIN запросами, правильно настроить индексы и хранение . Основное требование: данные должны быть доступны сразу (меньше 3-10 секунд). Если на извлечение данных требуется больше времени, значит они не были заранее обработаны или не верно агрегированы, для них неверно установлены индексы, skip индексы, bloom фильтры и так далее.
Часто используемые типы таблиц ClickHouse:
MergeTree - стандартный тип таблиц. Почти все сырые и историчные таблицы построены на данном типе.
ReplacingMergeTree - движок для актуального состояния. Данный тип таблицы позволяет формировать справочники или сохранять уникальные записи по определенным свойствам или признакам.
AggregatingMergeTree - агрегационные данные и метрики, которые автоматически обновляются при вставке данных.
Стандартизация хранилища, таблиц, интеграция ClickHouse c Openmetadata позволяет вести каталог данных (данные о данных) полностью в автоматизированном виде, визуализируя прохождение данных от источника, учитывая все промежуточные таблицы и витрины данных, до конечных дашбордов и чартов в BI системе.
Одна из сложнейших задач - сопоставление записей из разных источников, описывающих один объект и дальнейшая идентификация объекта в витринах данных. Мы используем UUID7 в качестве уникального идентификатора для всех объектов. UUID7 содержит метку времени, что позволяет нам вовремя находить ошибки, если они были допущены. В качестве примера виртуальная машина в различных источниках данных может быть представлена в виде IP-адреса в сканере уязвимостей, FQDN в Active Directory, hostname в событиях аудита, серийным или заводским номером в CMDB и прочих учетных системах.
Именно единый принятый нами для всех объектов идентификатор UUID7 (SDL_ID) позволяет объединить все другие идентификаторы объекта, обеспечивая сквозную аналитику и идентификацию в различных таблицах, витринах данных и справочниках.

Важным процессом информационной безопасности является процесс управления уязвимостями. Разберем практическое применение SDL на данном процессе. В каждой информационной инфраструктуре существуют десятки тысяч уникальных уязвимостей, из них несколько сотен и даже тысяч являются уязвимостями критического уровня. До SDL приоритезация устранения строилась на оценке CVSS (Common Vulnerability Scoring System) — формальной метрике, без учёта контекста инфраструктуры, результаты сканирования выгружались в Excel и далее в ручном режиме анализировались. На анализ данных уходило несколько недель, что было болью ответственных за процесс исполнителей. Кроме того невозможно было управлять данными в моменте, фильтровать по автоматизированной системе или отдельной уязвимости.
Какие возможности дал SDL для процесса управления уязвимостями:
Множество справочников, сведения об уязвимостях и аналитика в реальном времени сделали процесс управления уязвимостями прозрачным, гибким и автоматизированным. Теперь процесс стал опираться на точные данные, фокусируясь на устранении важных уязвимостей, повышая киберустойчивость информационной инфраструктуры.
SDL позволил реализовать DataDriven подходы в большинство процессов информационной безопасности, сократив время на анализ данных, высвободив время у сотрудников на другие важные задачи.
Проблема разрозненных данных ИБ не решается добавлением новых инструментов — она решается только на уровне архитектуры данных. Главное чтобы озеро данных не превратилось в болото.


Система SDL стала единой платформой данных информационной безопасности, на которую опираются процессы анализа, приоритизации и принятия решений.
Внедрение SDL позволило: