חברת מיקרוסופט ביצעה שני צעדים משמעותיים בעולם מערכת תוכנת האופיס (Office): היא שדרגה את הגרסה המנוונת שכולה בענן - אופיס 365 עד כי היא די דומה לגרסה החדשה - אופיס 2013, ושחררה לשוק את אופיס 2013, שנטענת על המחשב (או הטאבלט) של המשתמש, אך הקבצים נשמרים בדיוק כמו אופיס 365, בענן של מיקרוספט.
התמחור של שתי החבילות שונה במעט: על אופיס 365 משלמים מהיום הראשון "דמי שכירות חודשיים" עבור השימוש בענן, בעוד שעל אופיס 2013 משלמים על התוכנה עם רכישתה (לפי חבילות תוכנה שמתאימות לצרכים שונים) ורק אחרי שנה משלמים שכירות חודשית על שירותי הענן.
אז מה עדיף? אופיס 365 או אופיס 2013?
כדי להבהיר את התשובה נזכיר, למי ששכח, מה קרה לחברה אחת (מני רבות), שסמכה על שירותי הענן של מיקרוסופט.
חברת ההזנק הישראלית
Soluto סבלה ממש בתחילת ינואר 2013
מנפילה של 62 שעות (!) בשירותיה בעולם, עקב נפילת חלק מאחד מהעננים הגדולים בעולם, הענן של מיקרוסופט - Azure. חברת Soluto התנצלה, לאחר שהשירות הוחזר במלואו לתקנו, בפני עשרות מיליוני משתמשיה, הבטיחה ללמוד את תקלה לפרטיה והמליצה לכל משתמשי הענן באשר הם להפיק גם הם את הלקחים הנדרשים ממה ש- Soluto למדה מהאירוע הזה. זאת, כדי שהמקרה הזה של חוסר יכולת לספק שירות ותקשורת עם הלקוחות במשך 62 שעות לא יחזור על עצמו.
האבסורד בכל הסיפור הזה הוא, ש- Soluto היא חברת סטארט-אפ, שמספקת שירותי אופטימיזציה (ברובם בחינם) למשתמשי המחשבים בכל רחבי העולם ושירותיה מסופקים בענן. ענן זה נועד כל כולו להבטיח רציפות שירות בכל מקום ובכל עת. השירות של Soluto "רץ" על מאות שרתים בענן בארה"ב עם תוכנת לקוח המותקנת בכל מחשב המפעיל את השירות, כשהשירות מבוסס על עיקרונות "חוכמת ההמון" ו- Big Data, בו האינפורמציה על תקלות במחשבים וביישומים נאספת ממיליוני המשתמשים כל הזמן. השירות של Soluto בענן מותקן כיום על מעל ל- 400 שרתים, שרושמים מעל ל- 100 מיליון פריטי מידע כל יום (!). נתונים אלו מנותחים כל העת ומשמשים כבסיס להמלצות לתיקונים ושיפורים, שהמשתמשים יבצעו במחשבים שלהם כדי לשפר את ביצועי המחשבים המנויים על השירות.
מערכת הניהול של מאות השרתים של Soluto מעלה ומורידה שרתים בכל עת לפי העומס על השרתים והיקף הדיווחים הזורמים ממנה ואליה. Soluto תימחרה את שני הספקים הגדולים בעולם לשירותי ענן: אמזון - AWS ומיקרוסופט – Azure. בסופו של דבר היא בחרה במיקרוסופט – Azure מתוך הנחה, שזו מערכת יותר גמישה, יותר מקצועית ויותר מוגנת מזו של אמזון. זאת, עם רמת תמיכה טכנית טובה יותר ומחירים טובים יותר מאמזון. כל זה היה נכון עד הנפילה ביום חמישי של סוף השנה האזרחית 2012. הענן הספציפי של Soluto שוכן ב- South Central US region.
Soluto מודה, שהיא לא הכינה תסריט של התגוננות מפני נפילת שירות כמו שהתרחשה בסוף השבוע האחרון של 2012. זה לא היה בחלום הכי גרוע שלהם, מה שמוכיח, שהם טעו והיה עליהם להתכונן לתרחיש הכי גרוע. כך הם ממליצים לכל מנהל ומנמ"ר לעשות. Soluto הכינו גיבויים לשירותים, אבל לא לכולם יחד ובהיקף המלא. גם לא היה להם מנגנון שיכול להעלות את השירותים מידית אצל ספק עננים
אחר. זו טעות חמורה, שהם מבטיחים לתקן. זה קרה, כששירותי ה- Storage Services של Azure הפסיקו לתפקד, כך ששרתי היישומים לא יכלו לגשת ל- Data, ששכן על שרתי ה- Storage.
חמור מזה. כשעה לאחר שהתבררה ממדי התקלה, מנהלי Azure לא יכלו לספק מידע כמה זמן יימשך תהליך תיקון התקלה. הבעיה הייתה חמורה יותר כי היה זה סוף שבוע של חג (בארה"ב) וכל מנהלי מיקרוסופט הלכו (כהרגלם) הביתה ולא היה כל מנהל בכיר, שייקח פיקוד על ניהול התקלה הגדולה הזו דווקא בסוף השבוע של החג. כך הלך לו זמן יקר לאיבוד עד שיכלו לגייס את הצוותים הטכניים המתאימים בימי החג שלהם כדי לטפל בתקלה ולהחזיר את השירותים.
חברת Soluto עונה גם לשאלה, שהיא נשאלה בבלוגים הלגלגניים, שעלו באינטרנט במהלך התקלה: למה לא הכנתם גיבוי ל-Data במקום אחר? התשובה שלהם:
כן הכנו. זה חלק מהשירות של Azure, במחיר של עוד 30% על מחיר האחסון בענן, מקבלים מ- Azure רפליקציה "חמה" של כל הנתונים ב- Data Center ביבשת אחרת שאינה בארה"ב.
אז למה זה לא עבד? התשובה פשוטה ומעציבה: התהליך של העברת השירות עצמו, במערכות של מיקרוסופט ל-Data Center אחר, לוקח יותר מ- 62 השעות של הנפילה שהייתה. זה לא מספיק שהנתונים מצויים במקום אחר ובטוח. המערכות, שמפעילות את הנתונים ומספקות את השירותים, לא עולות אוטומטית במקום האחר והמוגן. צריך להעביר אותן לשם, לבנות אותן מהיסוד ולטעון הכל מחדש. לכן, גיבוי הנתונים אינו מספק. צריך לגבות הכל באופן "חם", גם את מערכות ההפעלה, היישומים (כולם) ומערכות ה- Back Office ולא רק את הנתונים עצמם.
Redundant (יתירות) זה גיבוי מלא של הכל, כפי שאנשי Soluto למדו על בשרם. זה כמובן יותר יקר, אבל, אין מנוס אם רוצים לדאוג ל"המשכיות עסקית" מלאה, ולא רק הגנה על הנתונים. DRP ("התאוששות מאסון"). זו תורה שונה לחלוטין מתורת ה- BCP ("המשכיות עסקית"). לכן, השקעה ב- DRP היא בקושי רבע מהפתרון הנדרש כדי לתת שירות בזמן נפילה. הפתרון המלא הוא ב- BCP. זו תורת הפעלה שלמה, שיש ללמוד אותה בדקדקנות ולקבל החלטות לגבי יישומה.
בעקבות הנפילה הזו החליטה Soluto לבנות את המערכת שלה
מחדש בארכיטקטורה חדשה. זאת, עם גיבוי "חם" בין שני העננים הגדולים של Azure ושל אמזון גם יחד. לדבריה,
אסור בשום אופן לסמוך על ספק שירותי ענן יחיד ולא חשוב מה מערכות ההגנה והגיבוי שיש לו. במיוחד אין לסמוך על ההצהרות של ספק שירותי הענן על ה- Uptime שלו ושיש לו זמינות 99.999 מהזמן. במציאות – זה לא עובד. כך למדו אנשי Soluto בסוף השבוע האחרון של 2012 וכעת הם ינסו ללמד זאת את כל השוק, שנוהר אחרי שירותי ענן
בלי כל בקרה וחשבון נכון, רק כדי לחסוך בהוצאות, מה שעולה בסוף ביוקר.