Кэширование промптов
Кэширование промптов помогает снизить затраты на вывод AI-моделей путем повторного использования ранее обработанных токенов промптов. LLMost поддерживает кэширование промптов для различных провайдеров с разными механизмами и ценообразованием.
Проверка использования кэша
Существует несколько способов проверить использование кэша:
- Страница активности: Детали запросов на странице активности показывают информацию о кэшировании
- Параметр запроса: Используйте
usage: {include: true}в вашем запросе для получения информации об использовании
Провайдеры с поддержкой кэширования
OpenAI
Изменение цен при кэшировании:
- Запись в кэш: Без дополнительных затрат
- Чтение из кэша: ~50% от стоимости обычных входных токенов
Конфигурация: OpenAI автоматически кэширует промпты. Для максимальной эффективности LLMost старается направлять запросы к тому же провайдеру для использования теплого кэша.
Grok
Изменение цен при кэшировании:
- Запись в кэш: Без дополнительных затрат
- Чтение из кэша: ~10% от стоимости обычных входных токенов
Конфигурация: Grok автоматически кэширует промпты. LLMost направляет запросы к тому же провайдеру для максимальной эффективности кэша.
Moonshot AI
Изменение цен при кэшировании:
- Запись в кэш: Без дополнительных затрат
- Чтение из кэша: ~10% от стоимости обычных входных токенов
Конфигурация: Moonshot AI автоматически кэширует промпты. LLMost оптимизирует маршрутизацию для использования кэша.
Groq
Изменение цен при кэшировании:
- Запись в кэш: Без дополнительных затрат
- Чтение из кэша: ~10% от стоимости обычных входных токенов
Конфигурация: Groq автоматически кэширует промпты. LLMost направляет запросы для эффективного использования кэша.
Anthropic Claude
Изменение цен при кэшировании:
- Запись в кэш: 25% надбавка к стоимости обычных входных токенов
- Чтение из кэша: 90% скидка от стоимости обычных входных токенов
Конфигурация:
Anthropic требует явного указания контрольных точек кэша с помощью параметра cache_control. Минимальное требование: 1024 токена для Claude Haiku и 2048 токенов для Claude Opus и Sonnet.
Пример использования:
{
"model": "anthropic/claude-3.5-sonnet",
"messages": [
{
"role": "system",
"content": [
{
"type": "text",
"text": "Вы AI-помощник, специализирующийся на анализе литературы.",
"cache_control": {"type": "ephemeral"}
}
]
},
{
"role": "user",
"content": [
{
"type": "text",
"text": "Полный текст 'Гордости и предубеждения' Джейн Остин...",
"cache_control": {"type": "ephemeral"}
}
]
},
{
"role": "user",
"content": "Проанализируйте основные темы романа."
}
]
}Ключевые моменты для Anthropic:
- Кэшируются только последние контрольные точки каждой роли
- Контрольные точки кэша применяются к префиксу, заканчивающемуся указанным блоком
- Поддерживает кэширование изображений и документов
- Время жизни кэша: 5 минут для Claude 3.5 Sonnet и Claude 3 Opus
DeepSeek
Изменение цен при кэшировании:
- Запись в кэш: Без дополнительных затрат
- Чтение из кэша: ~10% от стоимости обычных входных токенов
Конфигурация: DeepSeek автоматически кэширует промпты. Минимальное требование: 1024 токена.
Google Gemini
Изменение цен при кэшировании:
- Запись в кэш: Без дополнительных затрат
- Чтение из кэша: ~25% от стоимости обычных входных токенов
Конфигурация: Google Gemini поддерживает как неявное, так и явное кэширование:
Неявное кэширование
Автоматически включено для всех моделей Gemini 1.5 Flash и 1.5 Pro. Gemini кэширует контент, если:
- Токены промпта превышают 1024 для Flash
- Токены промпта превышают 2048 для Pro
Явное кэширование
Для более точного контроля используйте параметр cache_control:
{
"model": "google/gemini-2.0-flash-001",
"messages": [
{
"role": "system",
"content": [
{
"type": "text",
"text": "Длинное системное сообщение...",
"cache_control": {"type": "ephemeral"}
}
]
},
{
"role": "user",
"content": "Ваш вопрос здесь"
}
]
}Ключевые моменты для Gemini:
- Время жизни кэша: 60 минут
- Поддерживает кэширование текста, изображений и видео
- Минимальные требования: 1024 токена для Flash, 2048 для Pro
- Кэш автоматически продлевается при использовании
Лучшие практики
- Структурируйте промпты эффективно: Размещайте статический контент (системные инструкции, большие документы) в начале промптов
- Используйте контрольные точки стратегически: Для провайдеров, требующих явного управления кэшем, размещайте контрольные точки после больших статических блоков
- Учитывайте минимальные размеры: Убедитесь, что кэшируемый контент соответствует минимальным требованиям провайдера
- Мониторьте использование: Используйте параметры инспекции для отслеживания эффективности кэширования
- Оптимизируйте время жизни кэша: Структурируйте запросы для максимизации использования в пределах окна времени жизни кэша
Экономия затрат
Кэширование промптов может значительно снизить затраты, особенно для:
- Приложений с длинными системными промптами
- Сценариев с большими контекстными документами
- Повторяющихся запросов с аналогичным контекстом
- Многошаговых разговоров
Для провайдеров с автоматическим кэшированием (OpenAI, Grok, Groq и т.д.) экономия происходит автоматически. Для провайдеров, требующих явной конфигурации (Anthropic, Google с явным кэшем), правильное размещение контрольных точек критично для максимальной экономии.