Разное

Цод что это такое: Страница не найдена | REG.RU

27.10.1983

Содержание

что такое центр обработки данных, параметры дата-центров

Когда речь заходит о качестве облачных услуг, на ум сразу приходят такие параметры облака как система виртуализации, аппаратная часть, состоящая из серверов, СХД и сетевого оборудования, а также система управления виртуальной инфраструктурой. Эти параметры действительно важны, так как от них зависит скорость работы, надежность и различные возможности облачных сервисов.

Но, как и в случае любых технических решений, одну из ключевых ролей в облаке играет непрерывность предоставления услуг, которая в большой степени зависит от работы различных инженерных систем, таких, например, как электроснабжение и кондиционирование. Для этого создаются дата-центры, или как их еще называют – Центры Обработки Данных.

Такие ЦОДы являются помещениями, в которых созданы идеальные условия для работы различного оборудования и деятельность которых направлена на обеспечения непрерывности его работы. В данной статье мы подробно рассмотрим, что такое дата-центры и чем они отличаются друг от друга.

Чем ЦОД отличается от обычного серверного помещения

Для начала давайте разберемся, чем ЦОД отличается от обычной серверной, которая присутствует практически в каждой компании в том или ином виде. По сути, два этих помещения обеспечивают одну и ту же функцию – позволяют разместить оборудование для его эксплуатации и обслуживания. При этом в таких помещениях должны быть, как минимум реализованы комфортные температурные условия и бесперебойная подача электроэнергии. Вот тут и кроется основное различие. 

Другими словами, ЦОД – это большая серверная, оснащенная множеством инструментов для того чтобы размещенное оборудование работало стабильно и без перерыва.

В ЦОДе – все инженерные системы зарезервированы и обладают мощностью позволяющей работать оборудованию даже при возникновении локального «блэкаута». Также, в отличие от обычной серверной, здесь реализованы дополнительные системы, обеспечивающие ограничение физического доступа к оборудованию и приняты меры безопасности на случай чрезвычайных ситуаций. Помимо этого, в дата-центре ведется непрерывный мониторинг систем, позволяющий предотвратить нештатные ситуации или оперативно отреагировать них.

Основные параметры дата-центра

При постройке дата-центра учитывается огромное количество нюансов, от обеспечения прокладки кабелей и расстояния между стойками оборудования до систем пожаротушения и контроля доступа. От качества реализации каждой из них, зависит то насколько надежным, удобным и безопасным будет эксплуатация размещенного оборудования. Разумеется, есть основные инженерные системы, которым уделяется основное внимание. Давайте рассмотрим их подробнее.

Электроснабжение

Первой и основной задачей любого дата-центра является обеспечение непрерывной подачи электроэнергии. Обычно данный параметр имеет две ступени реализации. Первая – это наличие источников бесперебойного питания и стабилизации напряжения. Это позволяет обезопасить оборудование от скачков напряжения и его кратковременного отключения. Вторая ступень – это наличие внешнего генератора питания, который включается чаще всего в ручном или полуавтоматическом режиме и позволяет продолжать работу даже при длительном отсутствии основного электропитания.

Кондиционирование

При работе, оборудование выделяет огромное количество тепла, и для того чтобы избежать перегрева серверов, необходимо обеспечить постоянную прохладную температуру в помещениях где они установлены. Для этого в дата-центрах используются промышленные системы кондиционирования и вентиляции.

Система контроля доступа

Физическая безопасность в дата-центрах должна быть реализована на высоком уровне, чтобы избежать получение доступа к оборудованию третьими лицами. Поэтому во многих ЦОДах очень применяются очень жесткие правила, вплоть до одноразовых паролей и электронных контрольно пропускных систем. 

Система пожарной безопасности

Независимо от принятых мер предосторожности, невозможно на сто процентов защитить оборудование от чрезвычайных ситуаций, таких как пожар. На всей площади дата-центра (не только в помещениях с оборудованием) реализуется и чаще всего дублируется система пожаротушения, чаще всего основанная на газовом методе тушения. Это позволяет сократить повреждения оборудования при возникновении пожара.

Передача данных

Предоставление услуг размещения оборудования в ЦОДе, предполагает удаленное использование вычислительных ресурсов. Поэтому сетевая доступность является, также, важным параметром работы дата-центра. Обеспечивается такая доступность наличием сетей нескольких, независимых друг от друга операторов связи, а также резервированием сетевых каналов.

Мониторинг

В дата-центре большинство процессов, связанных с работой инженерных систем, автоматизировано. Несмотря на это в любом ЦОДе ведется постоянный мониторинг работы этих систем для того чтобы предотвратить нештатные ситуации.

Стоит отметить, что каждая из этих систем является жизненно важной для работы дата-центра. Но, их реализация, в зависимости от уровня ЦОДа, может быть абсолютно разной, также как и примененная схема резервирования.

Системы резервирования дата-центров

Любая система в дата-центре несмотря на высокое качество реализации, может выйти из строя, вследствие отказа какого то критичного компонента. Для того чтобы избежать этого, в ЦОДе может быть применена схема резервирования, которая в ряде случаев поможет избежать остановок в работе. При описании таких схем используется буква «N», что означает «необходимость».

Давайте рассмотрим их подробнее:

  • N. Такое обозначение говорит об отсутствии какого либо резервирования. Это значит, что все компоненты системы необходимы для ее работы и при выходе из строя одного из них она перестанет функционировать.
  • N+1. Данное обозначение подразумевает наличие одного дублирующего компонента, который вступит в работу при выходе из строя одного из критичных элементов.
  • 2N. Такая схема резервирования означает, что в системе одновременно работают два равнозначных компонента. Каждый из них работает в половину своей мощности, и в случае отказа одного из них, второй сможет взять всю нагрузку на себя.
  • 2N+1. Это по сути совмещение схем 2N и N+1. Другими словами, помимо параллельно работающих компонентов, которые делят между собой нагрузку, существует еще один, находящийся в отключенном состоянии. Применение такой схемы уже позволяет проводить работы по ремонту и обслуживанию систем без их остановки.
  • 2(N+1). Такое решение означает применение двух схем резервирования, каждая из которых также зарезервирована. Говоря простым языком, при выходе из строя одной системы, вторая не просто продолжит работу, а еще и сохранит отказоустойчивость.

Классификация надежности дата-центров

Примененные схемы резервирования в совокупности с качеством реализации инженерных и других систем, обеспечивают определенный уровень доступности оборудования. Существует классификация надежности дата-центров, разработанная организацией Uptime Institute, которая является признанной во всем мире. Данная организация выдает сертификаты соответствия классу надежности, ЦОДам прошедшим аудит. Стоит отметить что дата-центр может быть построен на 99% в соответствии с требованиями того или иного класса надежности, но при этом сертификат он получить не сможет.

Перейдем к самой классификации:

  • TIER-I — базовый уровень доступности. ЦОДы соответствующие данному классу построены на базе схему резервирования N, и устарели несколько десятилетий назад. Однако при правильной реализации всех систем, уровень доступности оборудования в дата-центре такого класса, составляет 99,671%, или 30 часов простоя в год.
  • TIER-II — этот класс надежности означает, что в дата-центре, помимо достойного уровня реализации инженерных систем, также применена схема резервирования N+1. В случае соответствия этому классу, для проведения ремонта вышедших из строя компонентов системы все рано придется останавливать. Уровень доступности оборудования в этом случае составляет 99, 749%, это 22 часа простоя в год.
  • TIER-III — данный класс надежности означает, что для проведения ремонта или обслуживания внутренних систем ЦОДа, не потребуется его остановка. Чаще всего схема резервирования, примененная в дата-центрах такого уровня это 2N. Доступность оборудования в данном случае составляет 99,98%, или около полутора часов простоя в год.
  • TIER-IV — все системы внутри таких ЦОДов зарезервированы дважды, что означает применение схемы 2(N+1). Уровень доступности оборудования в данном случае соответствует показателю 99,95%, другими словами, сервер расположенный в дата-центре такого уровня надежности, может быть недоступен в год на протяжении примерно 0,8 часов.

Заключение

В данной статье мы кратко ознакомили вас с тем, что такое Центр Обработки Данных и как он устроен внутри. В предыдущих статьях мы упоминали, что ЦОД является одним из тех моментов, на которые стоит обратить внимание при выборе облачного провайдера. И хотя перед тем как размещать свое оборудование в том или ином ЦОДе, поставщики облачных услуг проводят доскональную проверку его надежности, никогда не будет лишним поинтересоваться дата-центром в котором будут размещены ваши сервисы.   

как обеспечить ЦОДу 10 лет аптайма / Хабр

Современный дата-центр – комплексный организм, состоящий из множества инженерных подсистем, сетевой и ИТ-инфраструктуры. В ЦОДе слишком много переменных и вариантов их взаимодействия, поэтому риски сбоев очень высоки. Тем не менее, вся бизнес-модель дата-центров строится на постоянной доступности ИТ-систем. Как обеспечить 10 лет безаварийной работы такого объекта – рассказываем на примере нашей площадки в Петербурге. 

Покой всем только снится

Общее количество сбоев в работе центров обработки данных продолжает расти, однако количество аварий сегодня отстает от скорости ввода в эксплуатацию новых мощностей. Это значит, что в расчете на один ЦОД в последнее время происходит меньше инцидентов – об этом говорит статистика Uptime Institute.

В 2020 году только 6% респондентов исследования Uptime заявили, что их дата-центры столкнулись с серьезными сбоями, по сравнению с 11% годом ранее.

Но успокаиваться рано: число серьезных аварий сокращается, однако размер экономического ущерба от них заметно увеличился. Это связано с постоянно растущей зависимостью организаций от ИТ.

По данным Gartner, средняя стоимость простоя ИТ-систем для бизнеса в 2021 году составляет $5600 в минуту. Поскольку существует множество различий в специфике и масштабе предприятий, потери из-за аварий дата-центров сегодня могут варьироваться в диапазоне от $140 000 до $540 000 в час.

На системы электропитания дата-центров приходится наибольшее количество серьезных инфраструктурных инцидентов, ИБП и автоматические переключатели (ATS) чаще всего становятся их основной причиной (22%).

Появляются новые риски. Например, увеличилось количество сбоев в работе программного обеспечения, отвечающего за координацию работы подсистем дата-центров или за их мониторинг.

Также в отчете Uptime человеческий фактор по-прежнему указывается в качестве одной из главных причин перебоев в работе ЦОДов. В долгосрочной перспективе автоматизация должна сократить количество отказов инженерных систем, которые происходят из-за ошибок сотрудников. 

Из этого не следует, что уменьшение количества человеческих ошибок достигается за счет сокращения людей в ЦОДах. Скорее, речь идет о ведущей роли повышения квалификации специалистов в сочетании с грамотным управлением. 

Баланс людей, машин и процессов

На фоне опубликованной отраслевой статистики 10 лет бесперебойной работы инженерных и ИТ-систем ЦОД Linxdatacenter в Петербурге, зарегистрированные в сентябре 2021 года, выглядят результатом, о котором хочется рассказать подробнее. 

Оптимальный подход к эффективному управлению работой современного дата-центра заключается в балансе между автоматизацией процессов и оптимизацией операционного управления.

Площадка Linxdatacenter в Санкт-Петербурге последовательно наращивает компетенции в плане организации работы штата и повышения его квалификации.

Перечень подтвержденных отраслевых стандартов ЦОДа включает в себя ISO 27001, ISO 9001 и PCI DSS, а также ISO 22301 – Business Continuity («Непрерывность бизнеса»), сертификацию защищенности организации от перебоев в операционной деятельности. 

Отдельно стоит выделить сертификацию по стандарту Uptime Institute Management & Operations Stamp of Approval. Можно сказать, что работа по обеспечению соответствия требованиям M&O помогла нам переосмыслить подход к управлению дата-центром и во многом позволила обеспечить круглую дату.

Стандарт M&O – результат 20-летнего опыта разбора специалистами Uptime Institute более 6000 кейсов по отказам дата-центров по всему миру. Анализ этих данных показал, что 75% всех инцидентов и аварий так или иначе обусловлены ошибками и небрежностью в работе персонала.

Эта картина складывается из комплекса конкретных операционных ошибок и неверных управленческих решений при комплектовании штата, выстраивании процессов обслуживания оборудования и обучения специалистов.  

Чтобы оценить, насколько процессы в конкретном ЦОДе соответствуют идеалу, Uptime разработал методику измерения эффективности сотрудников. Она основана на трех принципах – проактивность, практичность и информированность. Эффективное управление дата-центром достигается при соблюдении сотрудниками всех трех.

Процессы по управлению ЦОДом оцениваются по пяти категориям в соответствии со значимостью вклада в общую статистику отказов: кадровые ресурсы и организация штата (максимум 35 баллов), техническое обслуживание (30), обучение штата (20), планирование, координация и управление (10), условия труда (5).

Апгрейд организации работы сотрудников дата-центра через обучение, прописывание инструкций, своевременное регламентное обслуживание и тренинги действий в чрезвычайных ситуациях, сокращает количество отказов в ЦОДе в 3 раза.

На сегодня в активе ЦОДа Linxdatacenter в Санкт-Петербурге – три аттестации по M&O. Первый аудит Uptime Institute с оценкой квалификации персонала и процессов эксплуатации оборудования прошел в 2018 году.  

По его итогам дата-центр набрал 84 балла из 100 возможных. Второй раунд в 2020 году позволил нам достичь оценки в 95,1 балла. В 2021 в ходе третьего аудита мы взяли 96.

Прогресс в 12 баллов за три года – результат постоянной работы над ошибками, множества эпизодов критического анализа и разбора собственных подходов к выполнению ряда рабочих процедур, а также готовности отказываться от привычных паттернов работы в целях повышения операционной надежности площадки. 

Не стоит думать, что мы сразу знали «как надо», понимали, в каком направлении двигаться, и владели секретными методиками достижения искомого результата.

Большой объем набитых шишек и моментов озарения «как же мы это сразу не догадались» присутствовал в полном объеме. 

Правильное электропитание

В основе всего – решение задач эффективного энергообеспечения площадки. 

Всего 15 миллисекунд перебоя питания современного дата-центра достаточно, чтобы бизнес-процессы компаний-клиентов были нарушены с ощутимыми для конечного пользователя последствиями. Для понимания: 1 миллисекунда (мс) — это одна тысячная доле секунды. 5 мс – время, необходимое пчеле для одного взмаха крыла.

Сбой в питании ведет к перезагрузке серверов, перезапуску операционных систем и прикладного софта, что чревато полной остановкой всех пользовательских систем и сервисов. 

Защититься от этого можно. Для этого надо отказаться от централизованного поставщика электричества. Если ЦОД потребляет более 1 МВт, и есть строгие требования к непрерывности ИТ-процессов клиентов (например, в ЦОДе стоит процессинговый центр крупного банка) – имеет смысл подумать о своем независимом электричестве.  

ЦОД Linxdatacenter в Санкт-Петербурге автономен: его потребности в электричестве обеспечиваются газо-поршневой электростанцией на 12 МВт. Если подача газа по каким-то причинам будет прекращена, есть ИБП, мощностей которых хватит на 40 минут бесперебойной работы ЦОДа. 

За это время можно запустить дизель-генераторы (ДГУ), которые на имеющимся запасе топлива обеспечат еще минимум 72 часа автономной работы. Параллельно в действие вступят контракты с поставщиками топлива, которые обязаны привезти оговоренные объемы в ЦОД в течение 4 часов. 

Эта схема обеспечения дата-центра электричеством лежит в основе его высокого уровня отказоустойчивости. Однако даже при полной энергонезависимости существует множество факторов, способных «положить» ЦОД полностью или частично. 

Сотрудники клиента неправильно подключили оборудование в стойке? Короткое замыкание, сбой. Специалисты не проконтролировали емкость аккумуляторов ИБП? При аварийной ситуации бесшовного переключения на резервную схему питания не произойдет. Кто-то не проверил объемы заправки топлива в баки ДГУ? Оно закончится в самый неподходящий момент, и ЦОД встанет.

Выход? Профилактика и тренинг персонала, а также мониторинг работы всех систем и подсистем площадки. Нужно проводить регулярное плановое переключение на резервную схему питания ЦОДа, а также отрабатывать сценарии различных сбоев и аварийных ситуаций, оттачивая взаимодействие сотрудников до автоматизма для минимизации возможных последствий.

Любая схема резервирования инженерных систем дата-центра работает только при условии регулярной отработки внештатных ситуаций, постоянного подтверждения квалификации персонала и контрактам с надежными поставщиками услуг, наличия комплектующих и расходных материалов. 

Мы развили концепцию превентивных работ до максимума: ввели процедуру анализа качества поставляемого топлива и проводим профилактический уход за дизель-генераторными установками. 

Казалось бы, рутинная операция – уборка ДГУ. Где там можно найти пространство для оптимизации? Однако выяснилось, что своевременное удаление грязи и пыли серьезно откладывает ранний абразивный износ движущихся частей ДГУ. 

В сочетании с регулярным осмотром и проверкой узлов это позволяет найти – и сделать это вовремя – трещины на изоляции на перемычке аккумуляторов, ослабление клемм на низковольтном генераторе, разболтанные хомуты на турбинах, протечки в фильтрах (риск утечки масла в процессе работы) и т.д.  

Банальное поддержание установок в чистоте и простой уход (даже без фанатизма, а просто на регулярной основе) позволяет практически исключить риски того, что в ответственный момент случится отказ, и ДГУ не запустится.  

Экзамен на зрелость

Второй фактор высокого аптайма: работа со штатом сотрудников инженерных служб, в основе которой лежит система аттестации и тренинги. Без надлежащего количества квалифицированных сотрудников и правильной организации труда у ЦОДа не будет ресурсов для успешного функционирования. 

Обеспечить себя такими сотрудниками можно через качественный подбор персонала и разработку программы обслуживания инженерных систем. Такая программа состоит из профилактического обслуживания (PM), политики уборки, системы управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA).

M&O предлагает в качестве решения комплексную программу обучения персонала, формализованную и опирающуюся на отдельный блок документации. 

Такой подход обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Цитируя стандарт: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события».  

Отсюда берет начало наша система аттестации. Помимо M&O она базируется на стандарте ISO 22301 «Security and resilience – Business continuity management systems» («Безопасность и устойчивость – Системы управления операционной непрерывностью бизнеса»). Другой источник вдохновения – собственный опыт, он отражен в нашей документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures). 

Прохождение аттестации на знание инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределение ролей и зон ответственности между участниками дежурной смены и др. – обязанность всех работников ЦОДа. 

Мы неоднократно убеждались, что любые методики контроля качества приносят результат, если они формализованы и применяются на регулярной основе – это еще одна причина ввода обязательной аттестации. 

Сейчас аттестацию работника проводит комиссия в составе не менее трех человек в рамках опросников и тестов. Общее количество вопросов – 60-70, во время аттестации случайным образом выбираются 15. Около 80% вопросов касаются непосредственно профессии, остальные 20% – смежных областей знаний и компетенций. По итогам выносится заключение об уровне соответствия сотрудника занимаемой должности.

Например, после одного из аудитов Uptime выяснилось, что чек-листы для оперативных групп хоть и были очень подробными, однако в них не было полей для отметки выполненных шагов в рамках процедуры. Получили рекомендацию добавить необходимые поля. Небольшое и очевидное улучшение значительно повысило качество контроля за профилактическим обслуживанием.

Также всю библиотеку существующих у нас инструкций Uptime порекомендовал объединить в рамках матрицы или блок-схемы ответственных и подотчетных лиц — для наглядности и информированного выполнения процессов, связанных с эксплуатацией, поддержкой и обеспечением безопасности.

Всевидящее око мониторинга

Система мониторинга работы инженерных систем в ЦОДе (BMS, Building Monitoring System) – завершающий и критически важный компонент обеспечения аптайма. Он напрямую влияет на скорость реакции персонала на аварийные ситуации. Сегодня мы используем BMS-систему, кастомизированную в собственном облаке, разработанную специально под требования наших специалистов. 

Доступ к ней обеспечивается через веб-браузер из любой точки, без обязательного присутствия инженера на территории ЦОДа. Интерфейс системы анимирован так, чтобы динамика функционирования инфраструктуры была наглядна для дежурных инженеров. 

Также в BMS-решении обеспечивается поддержка формул для обсчета работы виртуальных датчиков в инженерных системах – например, для оптимального распределения электрических мощностей по стойкам с оборудованием.

Система обеспечивает доступ к базе данных SQL с возможностью брать из нее нужные данные о работе оборудования – а именно, все записи о мониторинге 2 тысяч устройств и виртуальных датчиков, генерирующих примерно 20 тыс. переменных. 

Еще одна «фишка» нашей BMS-системы: на одной странице представлены все основные параметры ЦОДа, чтобы с одного взгляда на экран оценит состояние основных систем, так называемый формат One page.  

Это таблица, сверстанная под формат вертикально расположенного экрана смартфона. Расположение ячеек в таблице повторяет архитектуру ЦОДа (физическую или логическую). Последовательность отражает зрительные ассоциации персонала дата-центра, что упрощает поиск нужной информации.

Система поддерживает мобильность сотрудников. Помимо контроля мониторинга в помещении дежурной смены, инженеры делают обходы, выполняют текущую работу вне «дежурки» и, благодаря оптимизированному под мобильный экран главному экрану BMS, не теряют контроль за происходящим в машзалах. 

Качество контроля повышается благодаря функциональности рабочих чатов. Они ускоряют рабочие процессы, позволяя привязать переписку дежурных инженеров к BMS. Например, приложение MS Teams позволяет вести внутреннюю переписку и получать на телефон все сообщения из BMS в виде всплывающих Push-уведомлений, что избавляет дежурного от необходимости постоянно смотреть в экран телефона. 

Здесь не все прошло гладко: мы недооценили объем изменений, которые потребовалось внести в базовую версию новой BMS, и не уложились в сроки. Критической проблемой это не стало, так как мы подстраховались и работали на старой системе. 

Также потребовалось несколько этапов испытаний, чтобы отладить алгоритм резервирования виртуальных машин и каналов связи. Изначально сбои были и на стороне системы BMS, и в ходе настройки виртуальных машин и сети. Эта отладка тоже заняла время. 

Итоговое решение оказалось сложнее для редактирования конечным пользователем, более требовательным в эксплуатации. Ранее карта представляла собой подложку (графический файл) и значки, изменить или переместить которые не составляло труда. Сейчас это сложный графический интерфейс с анимацией, его редактирование требует от инженеров определенных навыков.

Мелочей нет – постоянное развитие

Это довольно общий взгляд на те составляющие, которые позволяют обеспечивать 100%-ный uptime ЦОДа и рассчитывать на повторение безаварийной декады. 

Пожалуй, самый главный фактор на этом пути – желание и способность постоянно находить возможности для улучшения работы ЦОДа, копаться в мелочах, просчитывая сценарии апгрейда по не самым очевидным направлениям.  

Именно такое отношение к задаче позволило нам в свое время обнаружить проблемы с контролем уровня давления и «подпора» воздуха в серверных помещениях и наладить его оптимальные показатели. Мы также обнаружили и устранили причину загрязнения воздуха в машзалах.

На пути к 100%-ному уровню аптайма нет мелочей и нет остановок – это постоянное совершенствование, например, через ввод в эксплуатацию нового энергооборудования или создание безопасных условий труда технического персонала через внедрение в практику системы LOTO.

Центр обработки данных | Глоссарий VMware