Документация

Кэширование промптов

Кэширование промптов помогает снизить затраты на вывод AI-моделей путем повторного использования ранее обработанных токенов промптов. LLMost поддерживает кэширование промптов для различных провайдеров с разными механизмами и ценообразованием.

Проверка использования кэша

Существует несколько способов проверить использование кэша:

  1. Страница активности: Детали запросов на странице активности показывают информацию о кэшировании
  2. Параметр запроса: Используйте usage: {include: true} в вашем запросе для получения информации об использовании

Провайдеры с поддержкой кэширования

OpenAI

Изменение цен при кэшировании:

  • Запись в кэш: Без дополнительных затрат
  • Чтение из кэша: ~50% от стоимости обычных входных токенов

Конфигурация: OpenAI автоматически кэширует промпты. Для максимальной эффективности LLMost старается направлять запросы к тому же провайдеру для использования теплого кэша.

Grok

Изменение цен при кэшировании:

  • Запись в кэш: Без дополнительных затрат
  • Чтение из кэша: ~10% от стоимости обычных входных токенов

Конфигурация: Grok автоматически кэширует промпты. LLMost направляет запросы к тому же провайдеру для максимальной эффективности кэша.

Moonshot AI

Изменение цен при кэшировании:

  • Запись в кэш: Без дополнительных затрат
  • Чтение из кэша: ~10% от стоимости обычных входных токенов

Конфигурация: Moonshot AI автоматически кэширует промпты. LLMost оптимизирует маршрутизацию для использования кэша.

Groq

Изменение цен при кэшировании:

  • Запись в кэш: Без дополнительных затрат
  • Чтение из кэша: ~10% от стоимости обычных входных токенов

Конфигурация: Groq автоматически кэширует промпты. LLMost направляет запросы для эффективного использования кэша.

Anthropic Claude

Изменение цен при кэшировании:

  • Запись в кэш: 25% надбавка к стоимости обычных входных токенов
  • Чтение из кэша: 90% скидка от стоимости обычных входных токенов

Конфигурация: Anthropic требует явного указания контрольных точек кэша с помощью параметра cache_control. Минимальное требование: 1024 токена для Claude Haiku и 2048 токенов для Claude Opus и Sonnet.

Пример использования:

{
  "model": "anthropic/claude-3.5-sonnet",
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "type": "text",
          "text": "Вы AI-помощник, специализирующийся на анализе литературы.",
          "cache_control": {"type": "ephemeral"}
        }
      ]
    },
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Полный текст 'Гордости и предубеждения' Джейн Остин...",
          "cache_control": {"type": "ephemeral"}
        }
      ]
    },
    {
      "role": "user",
      "content": "Проанализируйте основные темы романа."
    }
  ]
}

Ключевые моменты для Anthropic:

  • Кэшируются только последние контрольные точки каждой роли
  • Контрольные точки кэша применяются к префиксу, заканчивающемуся указанным блоком
  • Поддерживает кэширование изображений и документов
  • Время жизни кэша: 5 минут для Claude 3.5 Sonnet и Claude 3 Opus

DeepSeek

Изменение цен при кэшировании:

  • Запись в кэш: Без дополнительных затрат
  • Чтение из кэша: ~10% от стоимости обычных входных токенов

Конфигурация: DeepSeek автоматически кэширует промпты. Минимальное требование: 1024 токена.

Google Gemini

Изменение цен при кэшировании:

  • Запись в кэш: Без дополнительных затрат
  • Чтение из кэша: ~25% от стоимости обычных входных токенов

Конфигурация: Google Gemini поддерживает как неявное, так и явное кэширование:

Неявное кэширование

Автоматически включено для всех моделей Gemini 1.5 Flash и 1.5 Pro. Gemini кэширует контент, если:

  • Токены промпта превышают 1024 для Flash
  • Токены промпта превышают 2048 для Pro

Явное кэширование

Для более точного контроля используйте параметр cache_control:

{
  "model": "google/gemini-2.0-flash-001",
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "type": "text",
          "text": "Длинное системное сообщение...",
          "cache_control": {"type": "ephemeral"}
        }
      ]
    },
    {
      "role": "user",
      "content": "Ваш вопрос здесь"
    }
  ]
}

Ключевые моменты для Gemini:

  • Время жизни кэша: 60 минут
  • Поддерживает кэширование текста, изображений и видео
  • Минимальные требования: 1024 токена для Flash, 2048 для Pro
  • Кэш автоматически продлевается при использовании

Лучшие практики

  1. Структурируйте промпты эффективно: Размещайте статический контент (системные инструкции, большие документы) в начале промптов
  2. Используйте контрольные точки стратегически: Для провайдеров, требующих явного управления кэшем, размещайте контрольные точки после больших статических блоков
  3. Учитывайте минимальные размеры: Убедитесь, что кэшируемый контент соответствует минимальным требованиям провайдера
  4. Мониторьте использование: Используйте параметры инспекции для отслеживания эффективности кэширования
  5. Оптимизируйте время жизни кэша: Структурируйте запросы для максимизации использования в пределах окна времени жизни кэша

Экономия затрат

Кэширование промптов может значительно снизить затраты, особенно для:

  • Приложений с длинными системными промптами
  • Сценариев с большими контекстными документами
  • Повторяющихся запросов с аналогичным контекстом
  • Многошаговых разговоров

Для провайдеров с автоматическим кэшированием (OpenAI, Grok, Groq и т.д.) экономия происходит автоматически. Для провайдеров, требующих явной конфигурации (Anthropic, Google с явным кэшем), правильное размещение контрольных точек критично для максимальной экономии.

Кэширование промптов | Документация | LLMost