RAG (Retrieval-Augmented Generation)
29 июля 2025
Обновлено: 30 июля 2025
Что означает термин RAG?
RAG (Retrieval-Augmented Generation) — это архитектура или метод в области генеративного искусственного интеллекта и обработки естественного языка (NLP), который объединяет два ключевых компонента: 1) Извлечение (Retrieval) релевантной информации из внешних источников знаний (базы данных, документы, веб-страницы, векторные хранилища) и 2) Генерацию (Generation) ответа с помощью большой языковой модели (LLM) на основе как извлеченной информации, так и своих внутренних знаний.
Для чего нужен RAG?
RAG решает ключевые проблемы "чистых" LLM:
- Актуальность и достоверность: Ответы основаны на конкретных, проверенных, часто обновляемых данных, а не только на статичных (и потенциально устаревших) знаниях модели
- Снижение "галлюцинаций": Уменьшает вероятность выдумывания фактов LLM, "заземляя" ее на реальные источники
- Контроль источников: Позволяет использовать приватные или специализированные данные (документы компании, техподдержка, интранет), недоступные при обучении базовой LLM
Как работает RAG?
- Запрос (Query): Пользователь задает вопрос или промпт
- Извлечение (Retrieval): Запрос преобразуется (например, в векторное представление)
- Система ищет наиболее релевантные фрагменты текста/документы в указанных внешних источниках знаний (часто с использованием векторных баз данных и семантического поиска)
- Контекстуализация (Augmentation): Найденные релевантные фрагменты объединяются с исходным запросом пользователя, формируя расширенный промпт (контекст)
- Генерация (Generation): Расширенный промпт подается на вход большой языковой модели (LLM). LLM генерирует финальный ответ, синтезируя информацию из предоставленного контекста (извлеченных фрагментов) и своих общих знаний
- Ответ (Response): Сгенерированный ответ возвращается пользователю, часто с возможностью указания источников
Примеры применения RAG:
- Чат-боты для поддержки клиентов, отвечающие на вопросы по конкретной документации продукта.
- Исследовательские ассистенты, анализирующие научные статьи или патентные базы.
- Внутренние корпоративные поисковики с генерацией сводных ответов на запросы сотрудников.
- Юридические или медицинские консультанты, ссылающиеся на актуальные законы или медицинские справочники.
- Улучшение ответов общего назначения у публичных LLM (например, Bing Chat/Copilot использует RAG для поиска в интернете).