banner
Центр новостей
Комплексный опыт и передовые методологии

Photobox дает гораздо более четкое представление о наблюдаемости

Aug 29, 2023

Photobox использует платформу наблюдения Dynatrace для консолидации всех данных мониторинга системы на единой панели. Компания по персонализированной печати, которая сейчас является частью группы albelli-Photobox, представила платформу до слияния в конце 2022 года.

Ранее компании было трудно проявлять упреждающий подход к системным проблемам. ИТ-персоналу компании приходилось контролировать сложный стек технологий, построенный на AWS EC2, и микросервисы, работающие на Kubernetes и AWS Lambda.

По словам Алекса Хиббита, технического директора albelli-Photobox Group:

Сложный стек был создан в результате серии слияний и поглощений. Этот уровень сложности становится невероятно трудно эффективно наблюдать. У нас было как минимум пять разных платформ наблюдения, в которых использовалось около 10 различных технологий. Наблюдательность стала навыком, которым обладали лишь немногие из наших действительно опытных инженеров.

Хиббитт напоминает, что на выявление ИТ-проблем может уйти до четырех часов. Между тем, сложная природа наблюдаемости означала, что это был трудный процесс. Он говорит, что отсутствие эффективной наблюдаемости создало проблемы с масштабируемостью и оперативностью:

Нам было очень сложно реагировать на проблему. Если что-то произойдет, нам нужно будет связаться с нашими лучшими специалистами по устранению неполадок, заставить их почувствовать себя в эфире и сказать: «О, такое ощущение, будто это где-то здесь». Такой подход был не очень научным.

Для нас это изменило правила игры с точки зрения способности реагировать на проблемы в рамках нашего сложного стека и нашей способности применять понимание того, на чем мы концентрируем наши инженерные усилия.

Компания осознала, что ей необходимо пойти другим путем. В качестве первой попытки компания представила собственный инструмент наблюдения. Однако эта специальная технология лишь добавила еще один уровень сложности, а не создала ценность. В этот момент Photobox начал обсуждать с поставщиками технологий потенциальное решение проблемы. Хиббит говорит:

Мы составили список того, что нам хотелось — один инструмент, который мог бы охватывать все: от интерфейсных до серверных служб баз данных. Мы хотели демократизировать доступ к платформе, чтобы любой инженер мог разобраться в процессе и понять, что он делает. И нам нужно было что-то, что улучшило бы соотношение сигнал/шум, чтобы мы могли видеть, какие оповещения действительно важны.

После использования списка пожеланий для определения потенциальных решений компания Photobox провела низкоуровневые испытания с несколькими поставщиками. Затем команда Хиббита запустила долгосрочный пилотный проект с предпочтительным для них решением Dynatrace. Из-за сложности систем, работающих в Photobox, компания организовала платную шестимесячную пробную версию для тестирования платформы и получения значимых данных в конце 2021 года:

По итогам испытания мы запустили все наши производственные среды. Этот переход был просто связан с более долгосрочной реализацией. Одним из наших основных тестов был вопрос: «Хватили ли у нас уверенности отключить все наши старые платформы и полагаться исключительно на Dynatrace?» Ответ был «да» – и теперь это основная часть нашего технологического стека.

Хиббитт говорит, что внедрение возможностей автоматизации Dynatrace и AIOps принесло большие преимущества. Photobox сократил среднее время решения проблем на 80 % и сократил количество критических инцидентов, влияющих на доступность услуг в периоды пиковой нагрузки, на 60 %. Одним из ключевых преимуществ подхода Dynatrace являются карточки проблем платформы:

Карты объединяют все различные связанные показатели, которые могли пойти не так в результате инцидента, и представляют их в виде целостного представления. Он делает две действительно крутые вещи. Во-первых, это дает вам представление о том, какое количество клиентов затронуто проблемой, что помогает нашим инженерам количественно оценить, действительно ли что-то важно. Во-вторых, он проводит анализ первопричин, в ходе которого выявляет потенциальную проблему. И в такой распределенной организации, основанной на микросервисах, как наша, это невероятно полезно.