האם דלת הקסמים הייתה יכולה למנוע את התקלה הארוכה בפייסבוק?
מאת:
עמוס רוזנבוים, 12.10.21, 12:24
פייסבוק הזניקה טכנאים פיזית לחוות השרתים כדי שיפרצו בכוח את הדלתות, כי גם כרטיסי העובד לא זוהו במערכות השונות וכל השערים והדלתות נותרו נעולים. מהם הקריטריונים, שחייבים להיות בכל רשת תקשורת בחירום אצל כל ארגון?
כולנו חווינו על בשרינו את הקריסה והתקלה הגדולה ביותר, שהייתה לפייסבוק ולאפליקציות נוספות שלה כמו וואטסאפ, אינסטגרם, מסנג'ר ועוד. לא פחות מ-7 שעות לקח לפייסבוק לפתור את התקלה ולהחזיר הכל לקדמותו והנזק שנגרם היה אדיר.
על פי גירסת פייסבוק ופרסומים אחרים, התרחשה תקלה בניתוב לכתובות ה-
IP, שהצריכה גישה לנתבים כדי להגדירם מחדש. אך כאשר אנשי הטכנולוגיה של החברה חיפשו דרך להגיע אל הנתבים הם גילו שהדרך חסומה בדיוק בשל אותה תקלה.
מה שבד"כ עושים במקרים כאלה זה שימוש בדרך אחורית, מעין מדרגות חירום, שמאפשרות ניהול רשתות בשעת חירום או משבר (
Out of Band) ומאפשרות לגשת לתקלה.
אך במקרה הזה, אנשי פייסבוק לא יכלו להשתמש באותה דרך אחורית או "דלת הקסמים", אולי כי לא הייתה דרך כזו, ואולי משום שהיא הייתה קיימת, אך אף אחד לא טרח לבדוק, שהיא תפעל בחירום.
אפשר לדמות את המצב הגרוע של פייסבוק בערב ה-4 לאוקטובר לתאונה בכביש צר, שבעקבותיה הוא נחסם. המכוניות בכביש יוצרות פקק ולכוחות ההצלה והביטחון אין דרך להגיע - הדרך הראשית חסומה והדרך העוקפת, שאמורה להגיע לאותה נקודה, הוזנחה ולא ניתנת למעבר.
המצב הפך כה חריף עד שפייסבוק הזניקה טכנאים פיזית לחוות השרתים, כדי שיפרצו בכוח את הדלתות, כי גם כרטיסי העובד לא זוהו במערכות השונות (כל המערכות מקושרות לשרתים ולענן), ומכאן שכל השערים והדלתות נותרו נעולים.
רשת ניהול בחירום בזמן משבר
טיפול מהיר בקריסה של רשת עיקרית, שהתרחשה בעקבות טעות אנוש, הוא מרכיב קריטי בניהול רשתות. לכן, רשת ניהול בחירום (
Out of Band) הופכת להיות חשובה ביותר במידה ויש תקלה, שאינה מאפשרת חיבור לדאטה סנטר בצורה רגילה.
הרשת "האחורית" היא בעצם מערכת החירום לחיבור מרחוק לרכיבי הרשת השונים וכן לשרתים הקריטיים במקרה של תקלה, שמונעת להתחבר למערכות אלו בצורה רגילה.
אותה רשת שנייה מופרדת לחלוטין מהרשת העיקרית, שקרסה, ולכן, כל הרכיבים והמשאבים שלה חייבים להיות שונים ונפרדים מהרשת הראשונה והעיקרית. נוכחותה של רשת חירום לבדה לא מספיקה, אלא צריך לתרגל אותה ולבדוק את תקינותה ואת דרכי הגישה אליה לעיתים קרובות.
באותו מקרה של פייסבוק, דלת "הקסמים" לא עבדה ולא פעלה כנדרש, מה שעיכב את פתרון התקלה והצריך הקפצה של טכנאים לחוות השרתים. לחברה כה גדולה זה לא אמור לקרות, אך גם לחברות וארגונים יותר קטנים אסור שזה יקרה וכדאי ללמוד את הלקח גם כאן בישראל, לתרגל ולבדוק את תפקוד רשת החירום.
להלן מספר קריטריונים, שחייבים להיות בכל רשת תקשורת בחירום:
● קו גישה ייעודי נפרד מקו האינטרנט המרכזי, ורצוי שגם יהיה מחובר לספק אחר, הן בתשתית והן בספק השירות.
● נתב/חומת אש ייעודיים, שמאפשרים חיבור מאובטח ע"י
VPN. חשוב לשים לב, שהחיבור מרחוק אינו תלוי ברכיבים של מערכת הייצור (לדוגמה,
Active Directory).
●
Console Server - רכיב המאפשר חיבור סיריאלי, שנדרש ברכיבי תקשורת אך לא רק.
● מתג אחד או יותר - רכיב המאפשר חיבור רשת לרכיבים נוספים, כגון שרתים, מערכות אחסון וכד'.
● נהלי עבודה והדרכה ברורים, כולל ספר הוראות כיצד לפעול בשעת חירום, וביצוע תרגילים לשמירה על כשירות מבצעית.
לסיכום, כל ארגון או חברה, שעושים שימוש בתקשורת וגישה לשרתים ומסדי נתונים מרחוק, חייבים להחזיק ברשת חירום נפרדת, חיצונית ולא קשורה לרשת העיקרית, שבה מתבצעת העבודה השגרתית.
לא פעם קורים מצבים של תקלות, נפילות של שרתים מסוימים או מתקפות סייבר, ולכן כל ארגון, ובוודאי ריכוזי וגדול כמו פייסבוק, חייב לשמור על כשירות מבצעית בכל הנוגע לרשת החליפית שלו.
התקווה היא, שארגונים נוספים וובוודאי פייסבוק, הפיקו לקחים מהאירוע הכואב הזה, שמתבטא חוץ מאכזבת הגולשים והמשתמשים גם בהפסדים כספיים עצומים.
צילום תמונה עליונה:
אינגה אבשלום שיליאן
מאת:
עמוס רוזנבוים, אוקטובר 2021.
סמנכ"ל טכנולוגיות בחברת
אואזיס תקשורת