Наблюдаемость (logs/metrics/traces) как часть проектирования ИС: SLI/SLO и снижение MTTR

Авторы

  • Максим Викторович Ростоцкий Дальневосточный федеральный университет, 690922, г. Владивосток, о. Русский, п. Аякс, 10
  • Галина Леонидовна Берёзкина Дальневосточный федеральный университет, 690922, г. Владивосток, о. Русский, п. Аякс, 10
  • Сергей Сергеевич Вербицкий Дальневосточный федеральный университет, 690922, г. Владивосток, о. Русский, п. Аякс, 10
  • Анна Андреевна Курилова Дальневосточный федеральный университет, 690922, г. Владивосток, о. Русский, п. Аякс, 10
  • Мария Андреевна Фёдорова Дальневосточный федеральный университет, 690922, г. Владивосток, о. Русский, п. Аякс, 10

Ключевые слова:

наблюдаемость, телеметрия, логи, метрики, трассы, SLI, SLO, MTTR, распределённая трассировка

Аннотация

В статье рассматривается наблюдаемость распределённых информационных систем как проектируемое свойство, обеспечивающее управляемость сложности микросервисных, событийно-ориентированных и гибридных архитектур за счёт сквозной телеметрии (логи, метрики, распределённые трассы) и формализации надёжности через SLI/SLO и бюджет ошибок. Показано, что изолированное или позднее внедрение инструментов телеметрии формирует слепые зоны, переводя диагностику инцидентов в стохастический режим и ухудшая соответствие эксплуатационных характеристик реальному пользовательскому опыту, особенно в облачных средах с эфемерными ресурсами, где инфраструктурные метрики теряют объяснительную силу. На массиве более 12 000 инцидентов из 148 промышленных систем продемонстрирована количественная связь зрелости наблюдаемости с сокращением времени восстановления: рост покрытия трассировкой и переход от статических порогов к динамическому алертингу на основе SLO сопровождаются многократным снижением MTTR и доли ложных срабатываний, а также уменьшением вариативности восстановления. Подтверждён синергетический эффект триады logs/metrics/traces: полный стек резко снижает время обнаружения и повышает долю инцидентов, устраняемых в пределах SLA. Дополнительно выявлен экономический оптимум детализации данных: адаптивное tail-based сэмплирование обеспечивает лучший возврат инвестиций по сравнению с простым увеличением объёма сохраняемых трасс, отражая закон убывающей отдачи и необходимость семантической фильтрации сигналов.

Библиографические ссылки

Allspaw J., Robbins J. Web operations: keeping the data on time. O’Reilly Media, 2010. 338 p.

Beyer B., Jones C., Petoff J., Murphy N.R. Site reliability engineering: how Google runs production systems. Sebastopol: O’Reilly Media, 2016. 552 p.

Campbell L., Majors C. Database reliability engineering: designing and operating resilient database systems. O’Reilly Media, 2017. 294 p.

Han J., Kamber M., Pei J. Data mining: concepts and techniques. 3rd ed. Waltham: Morgan Kaufmann, 2012. 703 p.

Hastie T., Tibshirani R., Friedman J.H. The elements of statistical learning: data mining, inference, and prediction. 2nd ed. New York: Springer, 2009. 745 p.

Hidalgo A. Implementing service level objectives: a practical guide to SLOs and error budgets. O’Reilly Media, 2020. 404 p.

Jones C., Murphy N.R., Petoff J., Beyer B. The site reliability workbook: practical ways to implement SRE. O’Reilly Media, 2018. 474 p.

Zhang, Lei and Anand, Vaastav and Xie, Zhiqiang and Vigfusson, Ymir and Mace, Jonathan. (2022). The Benefit of Hindsight: Tracing Edge-Cases in Distributed Systems. 10.48550/arXiv.2202.05769.

Kleppmann M. Designing data-intensive applications: the big ideas behind reliable, scalable, and maintainable systems. O’Reilly Media, 2017. 590 p.

Majors C., Fong-Jones L., Miranda G. Observability engineering: achieving production excellence. O’Reilly Media, 2026. 295 p.

Montgomery D.C., Peck E.A., Vining G.G. Introduction to linear regression analysis. 5th ed. Hoboken: Wiley, 2012. 672 p.

Nygard M.T. Release it!: design and deploy production-ready software. 2nd ed. Raleigh: Pragmatic Bookshelf, 2018. 378 p.

Sigelman B.H., Barroso L.A., Burrows M., et al. Dapper, a large-scale distributed systems tracing infrastructure. Mountain View: Google, 2010. 14 p.

Sridharan C. Distributed systems observability. San Francisco: Honeycomb, 2018. 36 p.

Turnbull J. The art of monitoring: mastering scalable monitoring for modern applications and infrastructure. 2nd ed. Los Angeles: Turnbull Press, 2014. 750 p.

Как цитировать

Ростоцкий, М. В., Берёзкина, Г. Л., Вербицкий, С. С., Курилова, А. А., & Фёдорова, М. А. (2025). Наблюдаемость (logs/metrics/traces) как часть проектирования ИС: SLI/SLO и снижение MTTR. СТРОИТЕЛЬНЫЕ И ДОРОЖНЫЕ МАШИНЫ, 69(12), 117–125. извлечено от https://iereview.ru/index.php/IE/article/view/233

Выпуск

Раздел

ПРОЕКТИРОВАНИЕ И МОДЕЛИРОВАНИЕ

Похожие статьи

Вы также можете начать расширеннвй поиск похожих статей для этой статьи.

Наиболее читаемые статьи этого автора (авторов)