Память, ограничители и оценка агентов
Превратите простого агента в интеллектуального собеседника с памятью. Научитесь оценивать качество.
Теория
Агент без памяти — это просто вызов функции. Он не может вести настоящий диалог.
- *Типы памяти:**
1. Краткосрочная память (история диалога) Последние N сообщений хранятся в контексте. Простейший вид памяти.
2. Долговременная память (векторная БД) Факты из прошлых диалогов сохраняются в векторной базе и извлекаются по релевантности.
3. Рабочая память Текущий контекст задачи: промежуточные результаты, состояние выполнения.
- *Главная сложность — не в том, чтобы сохранить память, а в том, чтобы извлечь только релевантные части**, не засирая контекстное окно.
- *Стратегии управления памятью:**
- Суммаризация длинных диалогов
- Фильтрация по релевантности
- Иерархическая память (важное/обычное)
- TTL для устаревших данных
- *Именно на этом этапе большинство проектов проваливаются.**
Агент, который может всё — это агент, который будет постоянно галлюцинировать и факапить.
Теперь вы учитесь говорить «нет».
- *Что внедрить:**
1. Жёсткие правила «Никогда не обещай скидку больше 10%» «Не отвечай на вопросы о конкурентах»
2. Валидация вывода Проверяйте ответ перед отправкой пользователю: - Содержит ли запрещённые слова? - Соответствует ли формату? - Не слишком ли уверенный тон при неопределённости?
3. Контент-фильтры Блокируйте ответы с персональными данными, оскорблениями, ошибочными фактами.
- *Ваша главная задача** — научить агента говорить «я не знаю» вместо того, чтобы врать.
- *Как понять, хорошо ли работает ваш агент?**
- *Метрики:**
- Точность — процент правильных ответов
- Полнота — насколько полный ответ
- Релевантность — насколько ответ соответствует вопросу
- Галлюцинации — процент выдуманных фактов
- *Методы оценки:**
1. Human Evaluation Люди оценивают ответы. Золотой стандарт, но дорого.
2. LLM-as-a-Judge Другая LLM оценивает ответы вашего агента. Быстро и дёшево, но есть bias.
3. Автоматические бенчмарки Тестовые наборы с правильными ответами. Объективно, но не всегда релевантно вашей задаче.
- *Совет:** Создайте свой тестовый набор из 50-100 вопросов, релевантных вашему юзкейсу.
Ключевые концепции
- ФАЗА 3: Типы памяти агента — краткосрочная, долгосрочная, рабочая
- История диалога: как хранить и когда очищать
- Векторная память: извлечение релевантных фактов из прошлого
- ФАЗА 4: Ограничители — как научить агента говорить 'я не знаю'
- Валидация вывода: проверка ответов перед отправкой
- Оценка агентов: метрики, бенчмарки, LLM-as-a-Judge
Практические задания
ФАЗА 3: Агент с долговременной памятью
Добавьте вашему RAG-боту долговременную память через векторную БД.
Агент с памятью + демо диалога с использованием истории
ФАЗА 4: Система ограничений и валидации
Создайте агента с жёсткими ограничениями: он говорит 'не знаю' когда нужно.
Агент + системный промпт с правилами + тесты граничных случаев
Оценка агента через бенчмарк
Создайте свой тестовый набор из 50 вопросов, протестируйте агента.
Отчёт: метрики, примеры успехов и провалов, план улучшений
Внешние ресурсы
LLM Evaluation Guidebook (Hugging Face)
ВысокийПодробное руководство по оценке LLM
Гайд