DOM.IDP: Объединяя силу классического ML и современных LLM для автоматизации работы с документами

DOM.IDP: Объединяя силу классического ML и современных LLM для автоматизации работы с документами

Обработка документов долгое время оставалась уязвимым местом при цифровизации и автоматизации бизнес-процессов в компании. Традиционные системы на основе правил оказывались слишком хрупкими, поскольку сталкивались с большим разнообразием неструктурированных документов. Это разнообразие форм, форматов и формулировок не давало автоматизировать процесс полноценно. Платформа DOM.IDP предлагает же принципиально новый подход в решении задачи, синтезируя лучшие качества двух миров: точность, легкость и скорость классических ML-алгоритмов для извлечения данных и глубокое контекстуальное понимание современных LLM.

20251223_idp_3.webp

Эволюция технологий автоматической обработки документов (IDP - intelligent document processing)

Путь к автоматической обработке документов был долгим и эволюционным. Изначально вся работа велась вручную: сотрудники часами вчитывались в сканы или цифровые документы, чтобы перенести необходимые данные в системы. Это был довольно медленный, дорогой и подверженный ошибкам процесс.

С развитием цифровых технологий появились первые попытки автоматизации на основе жестких правил (rule-based systems). Подобные системы могли искать в документе ключевые слова, определенные последовательности символов по четким маскам (например, «ИНН» или «кадастровый номер») или данные в строго заданных местах. Хотя это был шаг вперед, но у такого подхода оказался фундаментальный недостаток — хрупкость. Любое отклонение от заданного шаблона или правила: новый формат документа, переставленные местами блоки, другая формулировка — приводило к сбою. Система не могла «понять» документ, она лишь слепо следовала инструкциям.

Настоящий прорыв совершило машинное обучение (Machine Learning, ML). Вместо того чтобы прописывать правила вручную, инженеры стали обучать ML-модели, которые способны самостоятельно находить закономерности, анализируя большие массивы размеченных документов. Алгоритмы научились распознавать тип документа, находить и извлекать нужные поля (дату, сумму, реквизиты) даже в неструктурированных текстах, стали гораздо более устойчивыми к изменениям в layout’е документа. Однако и у ML есть свои границы: для обучения требуются большие наборы данных, а модель может не справиться с документом, кардинально отличающимся от тех, что были в обучающей выборке. Для случаев, когда мы хотим получать данные из документов мгновенно, без долгой подготовки, мы используем большие языковые модели (LLM) по технологии RAG (Retrieval Augmented Generation). Её преимущество заключается в том, что не требуется предварительное обучение или разметка данных. Модель самостоятельно понимает содержание документа и извлекает из него нужную информацию, руководствуясь только вашим запросом. Это решение «здесь и сейчас» для быстрой работы с любыми формами.

20251223_idp_4.webp

Роли классического ML и LLM в гибридной архитектуре DOM.IDP

Классическое машинное обучение выступает в роли точного, легкого по ресурсам и быстрого механизма для обработки неструктурированной текстовой информации. Его ключевые задачи:

  • Препроцессинг и OCR: ML-алгоритмы подготавливают изображение документа (выравнивание, повышение четкости, шумоподавление), а затем преобразуют сканы и фото документов в машиночитаемый текст с помощью оптического распознавания символов (OCR)
  • Классификация: На основании входящего текста документа модели автоматически определяют его тип (ДДУ, паспорт, акт, счет и т.д.)
  • Извлечение сущностей (NER — Named Entity Recognition): Это основная задача — точно найти и извлечь заранее заданные структурированные данные: ФИО, даты, номера договоров, суммы, адреса и другие ключевые сущности

Ключевые преимущества классического ML:

  1. Скорость и эффективность: Алгоритмы оптимизированы для обработки больших объемов документов, что обеспечивает высокую пропускную способность системы.
  2. Легкость использования и низкая стоимость: Вычислительные ресурсы, требуемые для работы классических ML-моделей, значительно ниже по сравнению с затратами на запуск больших языковых моделей (LLM), что делает массовую обработку экономически выгодной и не требующей проводить дополнительные настройки по запуску с GPU-серверами.
  3. Точность и настраиваемость: Для задач, где нужна высокая точность и воспроизводимость результатов, возможность тонкой настройки ML-моделей и обучаемость на новых данных.
  4. Детерминированность и контроль: Результаты работы ML-моделей стабильны и предсказуемы, их легко проверить и настроить под конкретные бизнес-требования.

Большие языковые модели обеспечивают семантическое понимание текста из документов и имеют возможность без дообучения сразу могут извлечь необходимые сущности или значения. Их ключевые задачи:

  • Семантический анализ и понимание контекста: LLM способны анализировать общий смысл документа, определять его тональность, выявлять скрытые интенции и понимать взаимосвязи между различными фрагментами текста, даже если они находятся в разных частях документа
  • Ответы на сложные запросы: Модели способны отвечать на вопросы пользователя, которые являются нетривиальными (например, «Какие условия досрочного расторжения договора?» или «Перечислить все обязательства сторон в этом соглашении»), формулируя ответы на естественном языке
  • Извлечение сущностей без дообучения: В отличие от классического ML, которому требуется пройти этап обучения перед извлечением необходимых данных, LLM могут извлекать информацию, представленную в свободной форме без предварительного обучения или настройки

Возможности платформы

Давайте теперь подробнее разберем, какие возможности предоставляет наша платформа. DOM.IDP предлагает комплексный набор сервисов для автоматизации работы с документами.

Сервис целевого извлечения данных из сложных документов

Платформа предлагает предобученные высокоточные модели для извлечения ключевых полей из неструктурированных и востребованных типов документов.

  • Договоры участия в долевом строительстве (ДДУ): Автоматически извлекаются данные о строящемся объекте, приобретаемом помещении, стоимости, сроках сдачи. Это позволяет ускорить обработку информации в процессах связанных с ипотечным кредитованием и приобретением строящихся помещений.
  • Паспорта РФ: извлечение необходимой информации со скана/фото документа: ФИО, пол, серия и номер, дата рождения, место рождения, дата выдачи, код и наименование подразделения, выдавшего паспорт.
  • Документы бухгалтерской первички (счета-фактуры, УПД, акты): сервис позволяет извлечь следующую информацию: номер и дату документа, номер договора, дату договора, итоговые суммы (включая НДС), сумму НДС, ФИО и названия организаций
20251223_idp_5.webp

Сервис автоматической классификации документов

Модель определяет тип входящего документа с высокой точностью, что является первым и критически важным шагом для его дальнейшей автоматической обработки.

Как это работает: Загруженный документ анализируется, и система относит его к одному из предопределенных классов (например, «паспорт РФ», «ДДУ», «счет-фактура», «счет», «договор», «УПД», «акт», «акт-сверки», «дополнительное соглашение», «справка о стоимости», «спецификация» или «приложение»)

Преимущество: Позволяет автоматически направлять документы по соответствующим бизнес-процессам без ручного вмешательства, значительно повышая эффективность работы

20251223_idp_6.webp

Сервис «ИИ-помощник» (RAG-режим)

Как это работает: Пользователь в онлайне загружает документ (например, длинный договор на 30-50 страниц) и в естественной форме задает вопрос: «Какие санкции предусмотрены для заказчика при просрочке оплаты?». Система не просто ищет слова, а понимает смысл запроса, находит релевантную информацию в тексте документа и формулирует четкий, развернутый ответ на естественном языке

Преимущество: Мгновенное получение информации из объемных документов без их самостоятельного изучения. Не требует предварительного обучения модели под конкретный тип документов

20251223_idp_7.webp

Станция верификации (Human-in-the-Loop)


Мощный и понятный UI-интерфейс, предназначенный для контроля качества результатов работы моделей на платформе.

Как это работает: Оператор справа видит исходный документ и слева результаты его автоматической обработки (извлеченные поля, классификацию). Он может быстро проверить и, при необходимости, скорректировать работу ИИ

Преимущество:

  1. Повышение точности: Обеспечивает 100% точность данных на выходе, благодаря быстрой валидации и корректировке данных
  2. Непрерывное обучение: Исправления, внесенные оператором, используются для дальнейшего дообучения моделей, делая их умнее с каждой итерацией
  3. Простота использования: не требует наличия особых навыков у оператора для валидации результатов

Универсальный API-интерфейс

Гибкий программный интерфейс позволяет интегрировать возможности DOM.IDP в любые корпоративные системы и бизнес-процессы.

Как это работает: RESTful API позволяет отправлять документы на обработку и получать обратно структурированные данные в машиночитаемом формате (JSON)

Преимущество:

  1. Автоматизация сквозных процессов: Интеграция внутренними системами компании, роботами RPA и другими платформами
  2. Масштабируемость: Обработка как единичных документов, так и крупных пакетов в автоматическом режиме
  3. Гибкость: Возможность построения собственных пользовательских сценариев поверх надежного AI-ядра платформы

Платформа DOM.IDP — это не набор разрозненных инструментов, а целостная экосистема, которая покрывает весь жизненный цикл работы с документом: от классификации и извлечения данных до верификации и интеграции с передачей полученных результатов во внешние системы для решения практических бизнес-задач

Будущее автоматизации — за симбиозом технологий

Современная обработка документов достигла переломного момента, когда ни одна технология в отдельности — ни классическое машинное обучение, ни современные LLM — не может обеспечить идеальный результат. Гибридный подход в DOM.IDP демонстрирует, что будущее заключается не в противопоставлении технологий, а в их разумной интеграции и синергии. Платформа органично сочетает точность, легкость и скорость ML-алгоритмов с семантическим пониманием текстовой информации LLM, находя каждой технологии оптимальное применение в общем процессе обработки документов.

DOM.IDP представляет собой закономерный эволюционный этап в развитии Intelligent Document Processing (IDP). Данный подход позволяет не только преодолеть внутренние ограничения каждого из методов в отдельности, но и достичь качественно нового уровня автоматизации бизнес-процессов.