
#Искусственный интеллект
Как мы в ДОМ.РФ работаем с документами с помощью ИИ: решение NER-задачи для поиска именованных сущностей в договорах долевого участия
23.12.2025

28.10.2025
#Искусственный интеллект
Обработка документов долгое время оставалась уязвимым местом при цифровизации и автоматизации бизнес-процессов в компании. Традиционные системы на основе правил оказывались слишком хрупкими, поскольку сталкивались с большим разнообразием неструктурированных документов. Это разнообразие форм, форматов и формулировок не давало автоматизировать процесс полноценно. Платформа DOM.IDP предлагает же принципиально новый подход в решении задачи, синтезируя лучшие качества двух миров: точность, легкость и скорость классических ML-алгоритмов для извлечения данных и глубокое контекстуальное понимание современных LLM.

Путь к автоматической обработке документов был долгим и эволюционным. Изначально вся работа велась вручную: сотрудники часами вчитывались в сканы или цифровые документы, чтобы перенести необходимые данные в системы. Это был довольно медленный, дорогой и подверженный ошибкам процесс.
С развитием цифровых технологий появились первые попытки автоматизации на основе жестких правил (rule-based systems). Подобные системы могли искать в документе ключевые слова, определенные последовательности символов по четким маскам (например, «ИНН» или «кадастровый номер») или данные в строго заданных местах. Хотя это был шаг вперед, но у такого подхода оказался фундаментальный недостаток — хрупкость. Любое отклонение от заданного шаблона или правила: новый формат документа, переставленные местами блоки, другая формулировка — приводило к сбою. Система не могла «понять» документ, она лишь слепо следовала инструкциям.
Настоящий прорыв совершило машинное обучение (Machine Learning, ML). Вместо того чтобы прописывать правила вручную, инженеры стали обучать ML-модели, которые способны самостоятельно находить закономерности, анализируя большие массивы размеченных документов. Алгоритмы научились распознавать тип документа, находить и извлекать нужные поля (дату, сумму, реквизиты) даже в неструктурированных текстах, стали гораздо более устойчивыми к изменениям в layout’е документа. Однако и у ML есть свои границы: для обучения требуются большие наборы данных, а модель может не справиться с документом, кардинально отличающимся от тех, что были в обучающей выборке. Для случаев, когда мы хотим получать данные из документов мгновенно, без долгой подготовки, мы используем большие языковые модели (LLM) по технологии RAG (Retrieval Augmented Generation). Её преимущество заключается в том, что не требуется предварительное обучение или разметка данных. Модель самостоятельно понимает содержание документа и извлекает из него нужную информацию, руководствуясь только вашим запросом. Это решение «здесь и сейчас» для быстрой работы с любыми формами.

Классическое машинное обучение выступает в роли точного, легкого по ресурсам и быстрого механизма для обработки неструктурированной текстовой информации. Его ключевые задачи:
Ключевые преимущества классического ML:
Большие языковые модели обеспечивают семантическое понимание текста из документов и имеют возможность без дообучения сразу могут извлечь необходимые сущности или значения. Их ключевые задачи:
Давайте теперь подробнее разберем, какие возможности предоставляет наша платформа. DOM.IDP предлагает комплексный набор сервисов для автоматизации работы с документами.
Платформа предлагает предобученные высокоточные модели для извлечения ключевых полей из неструктурированных и востребованных типов документов.

Модель определяет тип входящего документа с высокой точностью, что является первым и критически важным шагом для его дальнейшей автоматической обработки.
Как это работает: Загруженный документ анализируется, и система относит его к одному из предопределенных классов (например, «паспорт РФ», «ДДУ», «счет-фактура», «счет», «договор», «УПД», «акт», «акт-сверки», «дополнительное соглашение», «справка о стоимости», «спецификация» или «приложение»)
Преимущество: Позволяет автоматически направлять документы по соответствующим бизнес-процессам без ручного вмешательства, значительно повышая эффективность работы

Как это работает: Пользователь в онлайне загружает документ (например, длинный договор на 30-50 страниц) и в естественной форме задает вопрос: «Какие санкции предусмотрены для заказчика при просрочке оплаты?». Система не просто ищет слова, а понимает смысл запроса, находит релевантную информацию в тексте документа и формулирует четкий, развернутый ответ на естественном языке
Преимущество: Мгновенное получение информации из объемных документов без их самостоятельного изучения. Не требует предварительного обучения модели под конкретный тип документов

Мощный и понятный UI-интерфейс, предназначенный для контроля качества результатов работы моделей на платформе.
Как это работает: Оператор справа видит исходный документ и слева результаты его автоматической обработки (извлеченные поля, классификацию). Он может быстро проверить и, при необходимости, скорректировать работу ИИ
Преимущество:
Гибкий программный интерфейс позволяет интегрировать возможности DOM.IDP в любые корпоративные системы и бизнес-процессы.
Как это работает: RESTful API позволяет отправлять документы на обработку и получать обратно структурированные данные в машиночитаемом формате (JSON)
Преимущество:
Платформа DOM.IDP — это не набор разрозненных инструментов, а целостная экосистема, которая покрывает весь жизненный цикл работы с документом: от классификации и извлечения данных до верификации и интеграции с передачей полученных результатов во внешние системы для решения практических бизнес-задач
Современная обработка документов достигла переломного момента, когда ни одна технология в отдельности — ни классическое машинное обучение, ни современные LLM — не может обеспечить идеальный результат. Гибридный подход в DOM.IDP демонстрирует, что будущее заключается не в противопоставлении технологий, а в их разумной интеграции и синергии. Платформа органично сочетает точность, легкость и скорость ML-алгоритмов с семантическим пониманием текстовой информации LLM, находя каждой технологии оптимальное применение в общем процессе обработки документов.
DOM.IDP представляет собой закономерный эволюционный этап в развитии Intelligent Document Processing (IDP). Данный подход позволяет не только преодолеть внутренние ограничения каждого из методов в отдельности, но и достичь качественно нового уровня автоматизации бизнес-процессов.