Эволюция обработки естественного языка — от классического NLP к ИИ-агентам

Эволюция обработки естественного языка — от классического NLP к ИИ-агентам

Можно ли общаться с компьютером на человеческом языке? Эволюция ИИ-технологий в части обработки естественного языка проделала долгий путь — от простых алгоритмов, разбивавших текст на отдельные слова без учета контекста, до сложных нейросетевых моделей, способных поддерживать осмысленный диалог, генерировать тексты и даже действовать как автономные агенты. О том, как развивались эти технологии, чем современные LLM отличаются от классических NLP-подходов, что такое ИИ-агенты и как всё это применяется в реальных бизнес-процессах, рассказывает директор по исследованиям и разработке «ДОМ.РФ Технологии» Григорий Грязнов.

Правильно ли будет сказать, что с появлением LLM произошла настоящая революция в ИИ?

Искусственный интеллект был и до появления больших языковых моделей (LLM) и ChatGPT. И даже обработка естественного языка велась, но с помощью более классических методов обработки естественного языка (NLP). Например, в алгоритме Bag of Words (мешок слов) текст разбивался на отдельные слова, игнорируя контекст и структуру, но это позволяло решать задачи классификации или поиска. Более продвинутый подход к обработке естественного языка пришел с появлением Word2Vec — когда слова переводились в векторные пространства, сохраняя семантические связи: например, «черешня — сладкая + кислая = вишня». Однако эти методы не позволяли генерировать текст и требовали ручной разметки для извлечения из текста необходимой информации.

Появление LLM действительно привело к важной вехе технологий работы с естественным языком. Появился тот самый режим генеративного ИИ, который позволяет создавать текстовый контент и, что не менее важно, появились первые зачатки сильного ИИ (strong AI). Одна LLM может решать различные задачи, описанные на естественном языке: и предложить решение тригонометрического уравнения, и сгенерировать рецензию по книге и даже попробует найти в предложенном вами тексте необходимую информацию, без ручной разметки данных. Фактически произошел переход от narrow AI, когда одна модель решает одну конкретную задачу, к решению множества задач с помощью одной языковой модели.

LLM - это сильный ИИ? Чем LLM отличается от NLP?

Нужно признать, что LLM все же отстает от интеллекта человека. Наверняка все слышали про галлюцинации моделей, когда они выдают неверный результат, но маскируют это под правдоподобный ответ. Поэтому важно воспринимать LLM не как полноценный «искусственный разум», а полезный инструмент.

Ограничения LLM следуют из их названия - это именно языковые модели. Их работа ограничена текстовой модальностью, т.е. ваша задача должна быть описана в тексте. Есть тренд на переход в мультимодальность, когда модель будет работать не с текстовым описанием, но и с графическим форматом. Это похоже, как вы читаете книгу и видите в ней картинку: можно её представить себе по текстовому описанию, а можно посмотреть на изображение. Поэтому мультимодальная обработка информации более похожа на то, как информацию воспринимают люди и ближе к сильному ИИ.

Если говорить про отличия LLM от NLP, то она заключается в генеративности. LLM — это большая нейросеть, задача которой предсказать наиболее вероятное последующее слово, которое следует за запросом пользователя. Например, вы спрашиваете «сколько будет 2 × 2» и наиболее вероятное продолжение этого предложения «4». Обучившись на огромном объеме текстовых данных, такая нейросеть получила способность строить цепочки рассуждений, оперируя текстовыми данными и взаимосвязью между этими частями текста. Для этого все тексты переводят в токены - кодировки слов, с которыми работает нейросеть и в которых ищет зависимости.

Поэтому можно сказать, что классический NLP - это про анализ текстовой информации, а LLM —про генерирование контента, но с зачатками сильного ИИ. 

Как решается проблема актуальности данных в LLM? ИИ обучается становясь все умнее?

LLM обучаются на статичных больших объектах текстовых данных. В процессе вашего диалога с чат-ботом на основе LLM дообучения не происходит. Чат-бот просто старается уловить контекст вашего запроса по истории переписки. 

Дообучение LLM очень дорогостоящий процесс, так как необходимы огромные объемы данных и вычислительные мощности, в разы превышающие те, которые нужны для запуска модели. Кроме того, часто происходит донастройка модели с помощью позитивной или негативной обратной связи от человека. Обычно такую профессию называют «ИИ-тренер». Этот человек экспертно оценивает ответ модели по какой-то предметной области и даёт обратную связь, которую модель использует для дообучения.

Поэтому если говорить про актуальность данных в LLM, то наиболее легким является реализация подхода Retrieval-Augmented Generation (RAG). Он заключается в том, что помимо вашего вопроса LLM получает некий контекст, который найден в заранее подготовленной базе знаний. И основной вопрос - как организовать поиск и актуализацию этой базы знаний.

В рамках нашей платформы DOM.IDP такая функциональность организована в ИИ-помощнике, в который вы можете загрузить документы, контент которых будет разбит на части (чанки). Дальше задавая вопросы по контексту этих документов в LLM будут подаваться наиболее релевантные их части. LLM будет вам отвечать релевантным текстом и приводить ссылки на конкретные части документов, но при этом удаётся избежать дорогостоящего дообучения LLM.

Сейчас все говорят про ИИ-агенты. Можете рассказать, чем он отличается от LLM?

Как мы ранее говорили про ИИ и обработку естественного языка - ИИ-агенты появились тоже не вчера. Рассмотрим как пример задачу поиска оптимального маршрута для роботов на складе. Пусть все помещение склада разделено на клетки, подобно шахматной доске. Пусть каждый робот на этой «доске» может просматривать пространство на 3 клетки вокруг себя и должен выбирать оптимальный маршрут, чтобы не попадать постоянно на клетки занятые другими роботами. В классическом решении этой задачи с децентрализованной системой, каждый робот - гомогенный, т.е. одинаковый, ИИ-агент, который самостоятельно принимает решения по выбору оптимального маршрута. 

Но сейчас, когда вы слышите ИИ-агент, чаще всего имеют в виду агента на основе LLM. В этой концепции, вы говорите LLM действовать, как аналитик, маркетолог или риэлтор, т.е. задаёте описание роли (system prompt) для этого агента. Другим условием ИИ-агента является способность самостоятельно взаимодействовать с окружающей средой. Для этого используют «инструменты» или tools. Это могут быть подключения к базам данных для получения актуальной информации или программным интерфейсам (API), для вызова необходимых функций или ещё что-то.

Получается ваш ИИ-агент использует LLM в качестве «движка» (engine) рассуждений: планирует этапы выполнения задачи, вызывает необходимые методы из tools и принимает решения. Продолжая мысль, вы можете собрать систему таких ИИ-агентов, которые будут взаимодействовать между собой и выносить на пользователя конечный результат. Это уже будет мультиагентной системой.

Из успешных примеров, нам удалось сделать ИИ-агентов, способных анализировать контекст запроса пользователя и предоставлять релевантную информацию из баз данных и REST API, т.е. предоставлять в генеративном режиме актуальный контент из динамически меняющихся систем. Такую задачу тяжело решить с простого RAG, т.к. необходимо постоянно перестраивать базу знаний, поэтому здесь лучше использовать ИИ-агентов.

Расскажите, какие у вас планы по развитию технологий ИИ в ДОМ.РФ Технологии?

Очень большое количество используемых нами технологий связано с обработкой естественного языка. Мы видим в таких задачах огромный потенциал, т.к. работа с текстом встречается практически в любых бизнес-процессах. И здесь я говорю не про генерацию, а про обработку уже существующего контекста. Выявление именованных сущностей из документов, анализ и саммаризация входящей информации, чат-боты для поддержки пользователей - все это связано с естественным языком. Так как мы сделали большой задел в этом направлении, наша платформа DOM.IDP по обработке естественного языка стала одним из наших ключевых продуктов и приоритетов в направлении ИИ. В ней мы используем классические NLP-технологии в сочетании с генеративным ИИ. Например, поиск именованных сущностей в документах (NER) решается с помощью классического NLP-подхода, а в ИИ-помощник, реализованный на основе RAG, позволяет обрабатывать любые типы документов без обучения модели.

Разработка ИИ-агентов на основе LLM — это очень перспективное направление. Мы уже умеем работать со структурой реляционных баз данных и API, что позволяет реализовывать чат-боты на основе генеративного ИИ с поддержкой интеграционных сценариев и обновляемого контента. Следующим шагом мы видим расширение состава доступных инструментов (tools) и автоматизацию сложных бизнес-сценариев.

В любом случае, выбор технологического стека у нас идёт от задачи, доступной инфраструктуры и ресурсов. Поэтому нельзя полностью отказываться и от классического машинного обучения  (ML), а LLM или ИИ-агентов лучше применять только в тех случаях, где это действительно необходимо.

Заключение

Работа с естественным языком наглядный пример эволюции технологий, которые прошли путь от поиска ключевых слов к генеративному ИИ. Базовый навык человека, понимания и интерпретации текстовой информации, породил целое направление развития ИИ-технологий, которое в последние годы было самым быстро развивающимся. Достигнет ли генеративный ИИ когнитивных способностей человека или нас ждёт ещё одна «зима ИИ» покажет время, но можно уже утверждать, что технология получала большое количество интересных сценариев реализации.