Библиотека ДИИП

RAG-ассистент — поиск по корпусу документов на естественном языке

Специалист спрашивает базу обычными словами и за секунды получает ответ со ссылкой на конкретный документ — вместо ручного перебора сотен файлов

Что болит

Знания заперты в большом корпусе документов — регламенты, методички, нормативка — и найти нужное это ручной перебор десятков файлов и поиск по ключевым словам, который не понимает смысл запроса. Специалист тратит время на поиск вместо работы, а часть ответов просто не находит. Чем больше база, тем хуже она ищется.

Как это работает

Поверх корпуса документов ставится RAG-ассистент: пользователь задаёт вопрос на естественном языке, система находит релевантные фрагменты и формулирует ответ со ссылкой на источник.

    1. Индексация. Документы режутся на смысловые фрагменты (чанки) и переводятся в эмбеддинги — заливаются в векторную базу.
    2. Запрос. Пользователь вводит вопрос в веб-сервис обычными словами.
    3. Семантический поиск. Запрос тоже превращается в эмбеддинг, по векторному поиску подбираются самые близкие чанки.
    4. Ответ с источником. Нейросеть формулирует из найденных фрагментов читаемый ответ — со ссылкой на исходный документ.
    5. Граница ответственности. Дисклеймер обозначает: ответ справочный, за решением — к специалисту.

Инструменты

GigaChatЭмбеддинги запроса и документов
Векторная БДХранение чанков и семантический поиск
LLM (нейросеть)Формулировка ответа из найденных фрагментов
Веб-сервисТочка контакта с пользователем

Результаты на практике

Поиск по базе знаний
ручной перебор файлов
ответ за секунды по смыслу
Охват корпуса
находили не всё
семантический поиск по всему корпусу
Доверие к ответу
«а откуда это?»
ссылка на документ-источник

Подводные камни

Корпус устаревает — нужен процесс дозаливки и переиндексации новых документов. Чувствительный домен (медицина, право) требует жёсткого дисклеймера: ответ справочный, не заменяет специалиста или диагноз.

Реальный кейс

RAG-ассистент по корпусу медицинских документов о редких болезнях для профессионального медицинского сообщества федерального масштаба; та же схема применена для небольшой компании в сфере детского питания.

Мария Старченко · Диалектика·

Другие сценарии раздела