Для руководителей может быть неожиданностью узнать, что вся сетевая функциональность их компаний, как внутренняя, так и внешняя, работает по единому протоколу, который был разработан аж в 1989 году.
Это называется протоколом пограничного шлюза или BGP. Он определяет маршрутизацию всего трафика на серверах, которые мы используем для навигации по всему, начиная с социальных сетей, электронной почты и облачных дисков и заканчивая сканированием входных карт на воротах безопасности офиса. BGP — это то, от чего зависит правильная работа каждой сети, в том числе и в вашей компании. Это был стержень, который обрушил все внутренние и внешние сети Facebook в понедельник, 4 октября 2021 года.
Как произошел сбой в работе Facebook
Facebook – это больше, чем просто крупнейшая в мире социальная сеть. Это технологический гигант. 3 миллиарда активных пользователей сайта ежедневно генерируют миллионы гигабайт данных, что требует 17 крупных глобальных центров обработки данных и сложной архитектуры, лежащей в основе его обширной цифровой империи.
Технологический гигант в некотором смысле является самостоятельной нацией и уже давно является лидером в области сетевой инженерии и инноваций. Но это не значит, что он не подвержен отключениям, как было доказано 4 октября, когда мир наблюдал, как вся сеть Facebook отключилась более чем на семь часов. Это целая вечность в постоянно развивающейся глобальной экономике, которая, возможно, обошлась компании примерно в 100 миллионов долларов дохода.
После такого инцидента руководителям компаний необходимо внимательно изучить свои собственные процессы, так как, если это может случиться с Facebook, это может случиться и с вами.
Не стоит забывать, что даже самые передовые инженерные разработки все еще могут быть отменены из-за человеческой ошибки.
Расследование, опубликованное Facebook в дни, последовавшие за его отключением, указывало на человеческую ошибку — взаимодействие инженера с его серверными протоколами, в частности BGP, — как на главного виновника отключения сети.
Ошибка привела к каскадным последствиям, поскольку компания, по-видимому, рассчитывала на автоматический инструмент аудита, чтобы выявить такую проблему.
Ошибочная команда, выданная во время обычного обновления, разорвала все соединения в Facebook — сети верхнего уровня волоконно-оптических соединений между ее центрами обработки данных. В этот момент система BGP компании, которая отвечает за отображение всех доступных путей через ее сеть, больше не могла находить какие-либо допустимые маршруты в глобальные центры обработки данных компании. Это эффективно отрезало Facebook от Интернета и собственной внутренней сети компании, которая также использует BGP для маршрутизации информации. Никто не мог ориентироваться в социальной сети, даже сотрудники Facebook внутри своих собственных объектов.
Обычно, когда информация об обновлении добавляется в конфигурацию сервера, BGP дублирует все свои предыдущие местоположения из сохраненных файлов и добавляет любые новые в сопоставление, которое соединяет Facebook с Интернетом. Но в этом случае все местоположения были потеряны до тех пор, пока инженеры не смогли физически восстановить резервные копии BGP.
Характер настройки маршрутизатора или любого сложного устройства означает, что команда в одном контексте может быть именно тем, что вам нужно, но в другом может привести к катастрофе.
Тот факт, что ошибка отдельного человека была причиной отключения Facebook, не следует сбрасывать со счетов как проблему, присущую только его организации. Человеческая ошибка является распространенной причиной сбоев в работе сети.
В 2020 году, когда наблюдался огромный рост облачных вычислений из-за пандемии COVID-19, в отчете было обнаружено, что по меньшей мере 42% центров обработки данных потеряли серверное время из-за ошибки, совершенной человеком, взаимодействующим с сетью, а не из-за инфраструктуры или других технических недостатков.
То, как ошибка одного внутреннего пользователя может привести к полному краху сетей Facebook, дает интересное представление о продвинутом уровне проектирования в организации.
Во сколько обошлось отключение Facebook
Большинство отключений, которые попали в заголовки в прошлом году, не повлияли на критические системы и в основном доставили неудобства потребителям и удаленным работникам, таким как перебои или замедление работы инструментов совместной работы (например, Microsoft Teams, Zoom), сайтов онлайн-ставок и фитнес-трекеров. Однако для компаний, испытывающих эти перебои, средства с точки зрения потерянной выручки, производительности и доверия клиентов были значительными.
Хотя обобщить стоимость отключения сложно из-за разнообразия предприятий, исследователи подсчитали, что время простоя может стоить от 140 000 долларов в час на низком уровне до 540 000 долларов в час на более высоком уровне. Основываясь на доходах Facebook за второй квартал, социальная сеть, возможно, потеряла 99,75 миллиона долларов дохода из-за отключения 4 октября, по оценкам Fortune.
Безопасность имеет первостепенное значение, даже когда это доставляет неудобства клиентам
Хотя отключение Facebook произошло очень быстро, потребовалось более семи часов, чтобы все серверы компании снова вышли в сеть, отчасти из-за того, что внутренняя сетевая связь Facebook также была нарушена. Продление сроков отключения также было обусловлено жесткими процедурами безопасности, введенными для защиты Facebook и его пользователей от хакеров и других угроз кибербезопасности. Эта политика включает в себя жесткую бюрократию без удаленного доступа и только несколько человек, которые имеют право доступа к системам, необходимым для перезапуска сетевых операций компании лично.
Существует несколько дополнительных опций для компаний, которые ищут протоколы безопасности, позволяющие быстрее реагировать на отключение без предоставления внешнего доступа высокого уровня к их инфраструктуре. Системы, которые могут генерировать одноразовые пароли для персонала на месте, чтобы избежать риска удаленного взлома данных, могут предотвратить необходимость ожидания прибытия ИТ-персонала с более высоким уровнем доступа к серверу.
Выполнение подробного моделирования сетевых проблем и других потенциальных катастрофических событий имеет важное значение для выживания в кризисных ситуациях.
Независимо от того, какие существуют допуски безопасности и планы готовности к стихийным бедствиям, исполнительное руководство должно вкладывать время и деньги в обучение ИТ-команд компаний. Наличие более подготовленного персонала является самым простым и экономически эффективным способом повышения готовности организации и реагирования на сетевые проблемы. Человеческая ошибка, являющаяся основной причиной сбоев в работе сети, часто возникает из-за неадекватных процессов или несоблюдения тех, которые уже существуют.
Перебои в работе сети неизбежны. Чтобы свести к минимуму финансовые и репутационные последствия, руководители компаний должны принять этот факт и подготовиться к нему заблаговременно. Принятие преднамеренных решений о безопасности, готовности и реагировании помогает организациям минимизировать последствия и уверенно переходить от кризиса к восстановлению.
Вашу заявку рассмотрят и перезвонят в течение 15 минут