SLA (Service Level Agreement)
30 июля 2025
Обновлено: 30 июля 2025
Что означает термин SLA?
SLA (Service Level Agreement) — это формальное соглашение между поставщиком услуги (исполнителем) и ее потребителем (заказчиком), которое документирует конкретные, измеримые показатели (метрики) уровня предоставляемого сервиса, а также определяет обязанности сторон и последствия (часто финансовые) за несоблюдение согласованных уровней.
Для чего нужно SLA?
Четкого определения ожиданий: Установления понятных и объективно измеримых критериев качества услуги для обеих сторон.
Обеспечения подотчетности: Четкого разграничения ответственности поставщика и заказчика за различные аспекты сервиса.
Управления рисками: Минимизации недопонимания и конфликтов путем предварительного согласования последствий сбоев.
Контроля качества: Предоставления заказчику инструмента для мониторинга и оценки работы поставщика.
Финансовой защиты: Определения компенсаций (скидок, штрафов, кредитов) для заказчика в случае нарушения поставщиком обязательств.
Примеры использования SLA:
- Облачные сервисы (IaaS/PaaS/SaaS): Гарантии доступности (uptime - 99.9%), времени отклика (response time), времени восстановления после сбоя (RTO - Recovery Time Objective), поддержки (время реакции и решения инцидента).
- Телекоммуникации: Гарантии скорости интернет-соединения, времени устранения неисправности на линии, доступности услуги.
- Аутсорсинг ИТ-услуг: Гарантии времени реакции на запросы пользователей, времени решения инцидентов, производительности систем.
- Хостинг-провайдеры: Гарантии uptime веб-сайта, времени безотказной работы сервера, пропускной способности.
- Центры обработки данных (ЦОД): Гарантии доступности инфраструктуры, температурного режима, времени подключения резервного питания.
Как составить SLA? Ключевые элементы:
- Описание услуги (Service Description): Четкое определение услуги, охватываемой SLA.
- Стороны соглашения (Parties): Поставщик и Заказчик.
- Срок действия (Term): Период, на который заключено SLA.
- Метрики уровня сервиса (Service Level Indicators - SLI): Конкретные измеряемые параметры. Примеры:
- Доступность (Availability): Процент времени, когда сервис доступен для использования (e.g., 99.9% в месяц).
- Время отклика (Response Time): Время, за которое система реагирует на запрос пользователя (e.g., среднее время ответа API < 500 мс).
- Время разрешения инцидента (Resolution Time): Максимальное время для устранения сбоя определенного уровня критичности (e.g., Критичный инцидент - устранение за 4 часа).
- Время реакции на инцидент (Response Time): Время, за которое поставщик начинает работу по устранению сбоя после получения уведомления.
- Пропускная способность (Throughput): Объем данных, обрабатываемых системой за единицу времени (e.g., 1000 транзакций в секунду).
- Точность (Accuracy): Для сервисов, связанных с данными или прогнозами (e.g., точность модели ML > 95%).
- Целевые уровни сервиса (Service Level Objectives - SLO): Конкретные числовые цели для каждой метрики SLI (e.g., Доступность >= 99.95% в расчетный период).
- Обязанности сторон (Responsibilities): Кто за что отвечает (e.g., Заказчик предоставляет корректные данные, Поставщик обеспечивает мониторинг).
- Процедуры мониторинга и отчетности (Monitoring & Reporting): Как измеряются метрики, как часто предоставляются отчеты об их соблюдении.
- Последствия несоблюдения (Remedies/Penalties): Что происходит, если SLO не достигнуты (e.g., финансовые кредиты, штрафы, право на расторжение договора). Часто реализуется через Схему кредитов за недоступность (Service Credits).
- Исключения (Exclusions): Ситуации, когда SLA не применяется (форс-мажор, плановое обслуживание с уведомлением, действия заказчика).
- Процедура пересмотра и изменения (Review & Change Procedure): Как и когда SLA может быть обновлено.