Материалы по тегу: сбой
|
07.04.2024 [13:22], Руслан Авдеев
Проблемы с питанием чаще всего становятся причиной сбоев ЦОД, но избавиться от них не позволяет человеческий факторЧастота и серьёзность сбоев в ЦОД постепенно снижается относительно общей ёмкости объектов. Тем не менее, сообщает The Register, нарушения работы могут очень дорого обойтись операторам и их клиентам, а проблемы с электропитанием ведут к особенно серьёзным последствиям. Ёмкость дата-центров постоянно увеличивается, так что общее количество инцидентов тоже растёт, но по данным Uptime Institute, частота и тяжесть происшествий увеличивается относительно медленными темпами. И хотя их стало больше в абсолютном значении, темпы прироста заметно упали в последние годы. На то имеется ряд причин, включая тот факт, что многие организации стали интенсивно вкладываться в обеспечение надёжности работы оборудования. Среди других причин называются переход клиентов в облака и внедрение новых технологий для соответствия требованиям регуляторов.
Источник изображения: Uptime Institute Однако Uptime Institute предупреждает, что данные о перебоях могут оказаться не вполне точными, потому что операторы зачастую не желают раскрывать информацию об инцидентах из-за возможного репутационного ущерба, так что сведения приходится собирать из открытых источников. В докладе Annual Outage Analysis 2024 констатируется, что 55 % опрошенных представителей операторов подтвердили, что в последние три года в их ЦОД были перебои. С другой стороны, годом ранее речь шла о 60 %, а в 2021 году — о 69 %. В то же время только 10 % сбоев за последний год оценили как «серьёзные» или «тяжёлые», тогда как двумя годами ранее таковых было на 14 п.п. больше. 54 % респондентов отметили, что самые значимые происшествия в их компаниях обошлись более чем $100 тыс., а 16 % — более $1 млн. Главной причиной называлась проблема с системой распределения энергии на местах, в докладе эта тема отмечается в 52 % инцидентов. Исследователи говорят, что переход на более «динамичные» электросети с возобновляемыми источниками энергии сделал сети питания менее надёжными. При этом в ряде случаев ИБП/генераторы не смогли корректно отреагировать на отказ сети. Например, ровно это вызвало перебои с сервисами Microsoft Azure в Европе в 2023 году.
Источник изображения: Uptime Institute Вторая из ключевых причин сбоев — поломка или недостаточная производительность охлаждающего оборудования. Эксперты отметили, что количество проблем со сторонними сервисами выросло с 2020 года вдвое — на них приходится порядка 10 % сбоев в 2023 году. Это связано с ростром популярности облачных сервисов, в том числе SaaS, услуг хостинга и колокации. Во многих случаях играют роль человеческие ошибки — на них приходится от ⅔ до ⅘ всех инцидентов. Виной некорректное соблюдение процедур по обслуживанию оборудования или некорректность самих процедур. Например, в прошлом году на Нью-йоркской фондовой бирже (NYSE) сотрудник не смог корректно восстановить работу систем после сбоя во вспомогательном ЦОД, что привело к неверному ценообразованию на следующий день. Предполагается, что количество сбоев можно будет уменьшить благодаря более интенсивным тренировкам персонала и аудиту вероятных слабых мест.
Источник изображения: Uptime Institute По данным Uptime Institute, каждый год случается 10–20 крупных отказов оборудования ЦОД в мире, что ведёт к серьёзным финансовым потерям и перебоям в обслуживании клиентов, а во многих случаях и к репутационным издержкам. В любом случае недавно в Uptime Institute сообщали, что в ближайшие годы затраты на строительство и обслуживание дата-центров будут только расти.
16.03.2024 [20:57], Руслан Авдеев
Сбой в работе подводных кабелей вновь вызвал перебои с интернетом в АфрикеНарушение работы четырёх подводных кабелей к западу от побережья Африки привело к перебоям с интернетом на всём континенте. По данным Bloomberg, кабели West Africa Cable System, MainOne, South Atlantic 3 и ACE пострадали в четверг или пятницу, что сказалось на работе местных мобильных операторов и интернет-провайдеров. Причина до сих пор не установлена. В первую очередь пострадал запад Африки, больше всего — Кот-д'Ивуар, Либерия и Бенин. Критические проблемы возникли и в Гане, Нигерии и Камеруне. Появились сообщения и о перебоях со связью в Южной Африке. По другим данным, связь обрывалась также в Сенегале и Португалии, из-за чего телеком-операторам пришлось потрудиться над восстановлением работоспособности сетей. В прошлом году West African Cable System наряду с South Atlantic 3 пострадали после подводного оползня. На ремонт повреждённой инфраструктуры ушло около месяца.
Источник изображения: Ryan O'Shea/unsplash.com Примечательно, что не прошло и месяца с тех пор, как три оптоволоконных кабеля оборвали в Красном море, предположительно якорем повреждённого грузового судна. Акватория Красного моря является критически важным маршрутом для телекоммуникационных магистралей, связывающих Европу с Азией и Африкой. Из-за обрыва трафик пришлось направить по другим маршрутам, в том числе вдоль западного африканского побережья. Проблемы со связью в любой части континента означают рост нагрузки на оставшуюся инфраструктуру. Крупнейшие в Африке операторы беспроводной связи MTN Group Ltd. и Vodacom Group Ltd. заявили, что сбои в работе подводных кабелей негативно сказались на качестве услуг. Vodacom сообщала, что проблемы связи Африки с Европой сохраняются, в том числе и у других бизнесов. Например, Microsoft объявила о перебоях в работе облачных сервисов, включая Microsoft 365, причём речь идёт не только о западном, но и о восточном побережье Африки. Пострадал и островной Маврикий, местной Mauritius Telecom Ltd. тоже пришлось перенаправлять трафик.
06.03.2024 [01:44], Владимир Мироненко
Из-за повреждения подводных интернет-кабелей в Красном море сократился трафик между Азией и ЕвропойВ понедельник появились подтверждения сообщений о повреждении телекоммуникационных кабелей, пролегающих по дну Красного моря, сообщило агентство AP News со ссылкой на официальные источники. Некоторые эксперты возлагают вину за это на йеменских хуситов, периодически подвергающих обстрелам проходящие мимо побережья Йемена суда, но те отрицают эти обвинения. По данным гонконгской компании HGC Global Communications, были повреждены кабели Asia-Africa-Europe 1 (AAE-1), Europe India Gateway (EIG), а также Seacom и TGN-Gulf, являющиеся в данном случае единой кабельной системой. В HGC Global Communications сообщили, что повреждения затронули 25 % трафика, проходящего через Красное море. HGC перенаправила часть трафика до Европы через материковый Китай и США. Seacom сообщила Associated Press, что «первоначальное тестирование показывает, что повреждённый сегмент находится в пределах йеменской морской юрисдикции в южной части Красного моря», и что трафик перенаправлен на другие маршруты, хотя некоторые сервисы всё же были отключены. В свою очередь Tata Communications, входящая в индийский конгломерат и обслуживающая кабель Seacom-TGN-Gulf, сообщила AP, что она «предприняла немедленные и соответствующие меры по исправлению положения» сразу после его повреждения.
Источник изображения: HGC Global Communications Не исключено, что кабели могли быть непреднамеренно повреждены якорями, в том числе спущенными с кораблей, выведенных из строя в результате атак. Тем более, что глубина Красного моря на отдельных участках не превышает 100 м. В частности, этой версии придерживаются в Seacom, хотя с точностью говорить об этом можно будет после того, как на место прибудет ремонтное судно. Хуситы предупредили, что кораблям-кабелеукладчикам, заходящим в территориальные воды Йемена, необходимо разрешение «в связи с беспокойством о безопасности». Сейчас через Красное море проложено 14 подводных кабелей и планируется проложить ещё шесть, сообщил Тим Строндж (Tim Stronge), эксперт по подводным кабелям. «По нашим оценкам, более 90 % коммуникаций между Европой и Азией проходят по подводным кабелям в Красном море, — сказал он. — К счастью, операторы связи встроили в систему высокую степень резервирования — через Красное море проходит множество кабелей».
21.09.2023 [18:52], Руслан Авдеев
Энергетический кризис ЮАР привёл к кражам аккумуляторов, генераторов и кабелей на телеком-объектахОператор Vodacom, действующий на территории Южной Африки, наметил планы борьбы с участившимися кражами аккумуляторов, питающих базовые станции и иные инфраструктурные объекты. По данным DataCenter Dynamics, ежемесячно в регионе регистрируется 15–28 инцидентов вандализма, связанных с мобильной инфраструктурой, АКБ крадут по 18–30 раз в месяц. В ЮАР у Vodacom есть 45 млн абонентов, и после каждого инцидента без коммуникаций остаются тысячи человек, а стоимость восстановления связи обходится в лучшем случае в несколько тысяч долларов. Проблема тесно связана с перебоями в электросетях страны и только усугубляет ситуацию — Vodacom Central Region стала использовать резервные источники питания и генераторы для подстраховки, после чего преступники стали красть аккумуляторы, генераторы, кабели и другое вспомогательное оборудование. Только в мае государственная энергоснабжающая компания Eskom предупреждала, что, возможно, число перебоев с подачей энергии вырастет этой зимой (с июня по август) до беспрецедентного уровня, поскольку в Южной Африке продолжается энергетический кризис. В Eskom предупреждали, что отключения за 32-часовой цикл могут достигнуть 16 часов. В Vodacom уже объявили, что усилили меры безопасности на площадках с базовыми станциями, установив камеры видеонаблюдения. Кроме того, начался монтаж станций в антивандальных контейнерах с сигнализаций.
Источник изображения: Sergio-sq/pixabay.com Также указывается, что некоторые преступники уже предстали перед судом и приговоры за порчу инфраструктуры весьма жёсткие. Например, в мае 2022 года за кражу аккумуляторов базовых станций трое преступников приговорены к 15 годам тюрьмы за каждый эпизод, каждый получил по 30 лет заключения. Аналогичные приговоры выносятся и за кражу генераторов — ущерб для оператора в таких случаях иногда составляет десятки тысяч долларов. Это не единственная проблема телеком-корпораций в Африке и далеко за её пределами. Так, в Ботсване оператор Botswana Telecommunications Corporation (BTC) наметил планы отказа от медных компонентов в своём оборудовании из-за участившихся краж. Проблема коснулась даже относительно благополучных стран вроде Великобритании — в прошлом месяце преступники оставили без интернета Оксфордшир, украв 500 м медного кабеля, причём это далеко не первый случай.
19.10.2022 [21:48], Сергей Карасёв
Пожар в южнокорейском дата-центре Kakao привёл к остановке 32 тыс. серверов, отказу в обслуживании 45 млн человек, падению акций и отставке топ-менеджера компанииИсполнительный содиректор южнокорейской интернет-компании Kakao Намкун Вон (Namkoong Whon) принял решение подать в отставку после массового сбоя в работе сервисов, спровоцированного пожаром в кампусе ЦОД SK C&C Data Center неподалёку от Сеула, принадлежащем SK Group. Возникшие проблемы вызвали недовольство как со стороны многочисленных пользователей, так и со стороны представителей бизнеса и власти. Пожар начался 15 октября 2022 года с возгорания в аккумуляторной в одном из зданий ЦОД. В результате была нарушена работа мессенджера KakaoTalk, аудитория которого составляет 43–47 млн пользователей в Южной Корее (при населении всей страны в почти 52 млн человек). Кроме того, возникли сбои в работе платёжной системы KakaoPay, почтовой службы, такси и других сервисов компании. Не был затронут только сервис Kakao Bank, который размещался в другом дата-центре. По состоянию на 17 октября работоспособность большинства функций KakaoTalk была восстановлена, однако доступность ряда служб всё же оставалась ограниченной.
Источник изображения: Yonhap Инцидентом лично заинтересовался президент страны, а стоимость акций Kakao при этом рухнула на 9,5 % — до минимального значения с мая 2020 года. Нарушение работы KakaoTalk негативно сказалось на работе сотен предприятий малого бизнеса, использующих названный мессенджер. Kakao уже сообщила о намерении выплатить компенсации и выяснить причины медленного восстановления работы своих служб. Кроме того, Kakao намерена вложить $325 млн в открытие в 2023 году собственного ЦОД, а в 2024-м будет запущен второй дата-центр. Любопытно, что в том же кампусе находился и дата-центр Naver, ещё одного южнокорейского IT-гиганта, на работу которого инцидент оказал намного меньшее влияние. Основная претензия к Kakao заключается в том, что у компании не были разработаны планы поведения в экстренных ситуациях. В частности, компания оказалась не готова к тому, что ЦОД будет быстро обесточен после начала пожара. При этом, вероятно, это самый крупный инцидент в ЦОД в мире, поскольку речь идёт об остановке сразу 32 тыс. серверов. Нужно отметить, что в течение последнего времени пожары охватили сразу несколько крупных ЦОД. В частности, в марте прошлого года пожар уничтожил дата-центр французской компании OVHcloud в Страсбурге. В результате этого ЧП оказались недоступны в общей сложности 3,6 млн веб-сайтов, в том числе ресурсы ряда правительственных организаций, банков, интернет-магазинов и пр. А пожар, случившийся в ЦОД иранской Telecommunication Infrastructure Company (TIC), практически оставил без доступа в интернет всю страну.
20.07.2022 [15:56], Владимир Мироненко
Аномальная жара привела к сбоям в лондонских дата-центрах Google и Oracle
google cloud platform
hardware
oracle cloud infrastructure
великобритания
облако
охлаждение
сбой
цод
Во вторник, 19 июля, в ЦОД Google Cloud Platform (GCP) в Лондоне произошёл сбой в системе охлаждения, в связи с чем несколько сервисов компании временно вышло из строя. В лондонском регионе облака Oracle тоже возникли проблемы с охлаждением оборудования ЦОД. Сбои произошли из-за рекордной жары в Великобритании — температура превысила +40°C. Некоторые операторы дата-центров были вынуждены принять нестандартные меры, начав обрызгивать водой внешние модули систем кондиционирования, установленные на крыше. Отключение ряда сервисов Google произошло в 18:13 по местному времени (20:13 мск). В журнале статуса оборудования сбой описан как «связанный с охлаждением». Google заявила, что сбой затронул лишь небольшое количество клиентов. В частности, отключение коснулось сервисов Persistent Disk и Autoscaling. Хотя Google утверждает, что сбой продолжался до 22:00 BST (24:00 мск), в означенное время всё ещё поступали жалобы на ошибки в работе Persistent Disk. С подобными проблемами в Лондоне столкнулась и облачная служба Oracle. Проблемы с перегревом у неё начались примерно в 17:00 по местному времени (19:00 мск). Oracle ранее арендовала ресурсы в ЦОД Equinix в лондонском кампусе Слау, но сейчас не раскрывает местонахождение своих мощностей. «В результате несезонных температур в регионе возникла проблема с частью инфраструктуры охлаждения в центре обработки данных на юге Великобритании (в Лондоне), — говорится в сообщении компании. — Это привело к тому, что часть нашей сервисной инфраструктуры пришлось отключить, чтобы предотвратить неконтролируемые сбои оборудования».
15.02.2022 [01:33], Владимир Мироненко
Из-за неисправной IT-системы Horizon были неправомерно осуждены более 700 человек, а некоторые даже получили тюремные срокиВ понедельник, 14 февраля в Лондоне началось публичное расследование по поводу неправомерных приговоров сотням британских почтовых служащих, которые были несправедливо осуждены за кражу, мошенничество или искажение отчётности, хотя истинной причиной оказалась ошибка в IT-системе Horizon, построенной Fujitsu. В период с 2000 по 2014 год пострадало более 700 сотрудников, причём некоторые даже получили тюремные сроки. Система Horizon разворачивалась в местных отделениях почты с 1999 года. Почтовая служба Великобритании в течение многих лет утверждала, что данные Horizon были надёжными, обвиняя менеджеров филиалов в нечестности, когда система ошибочно отражала недостачу. В апреле прошлого года Апелляционный суд отменил неправомерные приговоры 39 сотрудникам. Однако, как оказалось, это лишь верхушка айсберга. Пострадавших из-за неисправности компьютерной системы гораздо больше.
Изображение: www.royalmail.com Более того, в ходе расследования выяснилось, что государственная почтовая служба знала о ненадёжности Horizon, однако данные из системы всё равно использовались для обвинения почтмейстеров в составлении ложных отчётов и краже денежных средств. По предварительным оценкам, 706 судебных преследований могли быть основаны на данных неисправной компьютерной системы. К настоящему времени приговоры по уголовным делам 72 почтмейстеров были отменены, а другие апелляции находятся на рассмотрении суда. В декабре Министерство по делам бизнеса, энергетики и промышленной стратегии Великобритании выделило почтовой службе £1,013 млрд на покрытие расходов, связанных со скандалом. Министерство выплатит компенсацию тем, чьи уголовные судимости были отменены, а также 2500 почтмейстерам, которые не были привлечены к уголовной ответственности, но которых обязали вернуть деньги почтовой службе в связи с тем, что на счетах возглавляемых ими отделений была выявлена недостача. |
|
