מחקר: שכחה גורלית: אתגר עדכון ה-AI בסייבר-עדכון מודלים AI לזיהוי קוד זדוני

דף הבית >> דעות ומחקרים >> מחקרים, מצגות מסמכים >> AI & Big-Data >> מחקר: שכחה גורלית: אתגר עדכון ה-AI בסייבר-עדכון מודלים AI לזיהוי קוד זדוני

מחקר: שכחה גורלית: אתגר עדכון ה-AI בסייבר - עדכון מודלים של AI לזיהוי קוד זדוני
מאת: מערכת Telecom News, 25.3.21, 14:23 AI FREE

הייפ נרחב מתפתח באחרונה סביב השימוש בבינה מלאכותית באבטחת סייבר. בפועל, התפקיד והפוטנציאל של AI באבטחה עדיין מתגבש ולעיתים קרובות דורש ניסוי ותהיה. אז איך זה עובד?

הייפ נרחב מתפתח באחרונה סביב השימוש בבינה מלאכותית (AI) באבטחת סייבר. בפועל, התפקיד והפוטנציאל של AI באבטחה עדיין מתגבש ולעיתים קרובות דורש ניסוי ותהיה. אז איך זה עובד? ב-SophosAI יצאו לבדוק.

זיהוי של קוד זדוני הוא הבסיס לאבטחת IT, ו-AI היא הגישה היחידה שמסוגלת ללמוד תוך מספר ימים תבניות פעולה על בסיסי מיליוני דוגמיות חדשות של קוד זדוני. אבל יש כאן מלכוד:

האם המודל צריך לשמור על כל הדוגמיות לעד כדי להשיג זיהוי אופטימלי, וזאת במחיר של לימוד ועדכון איטיים יותר.

או, שיש לבצע למידה בררנית, שתאפשר למודל להתמודד טוב יותר עם קצב השינויים בקוד הזדוני, אבל גם להתמודד עם סיכון של "שכחת" התבניות הישנות (הידוע גם כ-catastrophic forgetting).

כאשר שומרים על המודל המלא עדכון אורך כשבוע, בעוד מודל, שעבר כוונון (fine-tuning) נכון, יכול להתעדכן תוך שעה בלבד. בחברה רצו לבדוק אם אפשרי לבצע כוונון מדויק של מודל, שיוכל לעמוד בקצב השינוי של אופק האיומים, ללמוד תבניות חדשות ועדיין לזכור תבניות ישנות, תוך מזעור ההשפעה על ביצועים. החוקרת הילארי סנדרס העריכה מספר של אפשרויות עדכון ופירטה את הממצאים שלה כאן, וכאן.

דילמת הזיהוי
הצורך לשמור על יכולות הזיהוי מעודכנות הוא מאבק מתמשך. עם כל צעד, שאנו עושים לקראת הגנה מפני מתקפה זדונית, התוקפים כבר מפתחים דרכים חדשות כדי לעקוף אותו, כשהם מפרסמים עדכונים עם קודים וטכניקות שונות. התוצאה היא, שמאות אלפי דוגמיות קוד זדוני חדשות מופיעות בכל יום.

הזיהוי הופך לקשה אף יותר לאור העובדה, שהקוד הזדוני "החדש והנוצץ" הוא רק לעיתים קרובות באמת חדש. בד"כ, מדובר בשילוב של קוד חדש, ישן, משותף, או גנוב, עם התאמות בהתנהגות. יותר מכך, קוד זדוני ישן יכול להופיע מחדש אחרי שנים של היעלמות, ותוקפים משלבים אותו בארסנל הנשקים שלהם בעיקר כדי להפתיע. מה שאומר, שמודלים של זיהוי חייבים להמשיך ולזהות גם דוגמיות ישנות של קוד זדוני, ולא רק את החדשות והאחרונות.

עדכון מודלים של AI לזיהוי
כאשר יש לעדכן מודלים של AI עם דוגמיות זיהוי חדשות, בפני ספקים עומדת בחירה בין 2 אפשרויות:

האחת, לשמור עותק של כל דוגמית, שהם אי פעם ירצו לזהות, ולהריץ את המודל שוב ושוב על כמות נתונים שתגדל לעד. הדבר מביא לביצועים טובים יותר אבל לעדכונים איטיים יותר.

השניה היא לעדכן את מודל הזיהוי רק בדוגמיות חדשות. הדבר ידוע כ-fine-tuning. במהלך כל שלב בתהליך הכוונון, המודל מעדכן את ההבנה שלו בהתאם לידע שהתווסף, ויש לכך השפעה על סך התבניות. כתוצאה מכך, המודל עלול "לשכוח" תבניות ישנות, שהוא למד בעבר (Catastrophic Forgetting). עם זאת, אימון מודל עם מידע מצומצם יותר מביא לעדכון מהיר יותר, ולפרסום עדכונים תכוף יותר, תוך עמידה בקצב השינוי המהיר של הקוד הזדוני.

בכל אפשרות שנבחר, הצורך לאמן את ה-AI עם דוגמיות חדשות הוא תמיד קריטי. התבניות, שה-AI לומד מתוך דוגמיות הקוד הזדוני, מאפשרות לו לבצע הכללה, וכך לזהות, לא רק את הקוד, שהוזן לו, אלא גם דוגמיות, שלא נצפו מעולם ושיש להן דימיון מסוים לדוגמיות האימון. עם זאת, לאורך זמן, הדוגמיות החדשות תישתננה בצורה כזו, שהיעילות של המודל הישן תרד ויהיה צורך לעדכנו.

התרשים הבא מציג כיצד ביצועי זיהוי יורדים לאורך זמן אם המודל אינו מתעדכן בדוגמיות חדשות. בצד השמאלי מופיעות הדוגמיות הישנות שעל פיהן אומן המודל. שיעור הזיהוי גבוה באופן קבוע. הצד הימני מציג את הופעתן של דוגמיות חדשות, שהמודל לא אומן באמצעותן, ושיעור הזיהוי שלהן נמוך יותר.

3 אפשרויות הזיהוי, שהחוקרת בחנה הן:

1. לימוד מבוסס על מבחר של דוגמיות ישנות וחדשות. פעולה זו מכונה data-rehearsal, והיא כולל מדגם קטן של דוגמיות ישנות בשילוב עם החדשות. בכך, "מזכירים" למודל את המידע הישן הנדרש כדי לזהות דוגמיות ישנות, ובמקביל מאמנים אותו כדי לזהות את החדשות.
2. שיעור הלימוד. גישה זו מתבססת על שינוי המהירות בה המודל "לומד" באמצעות הגבלת יכולות השינוי שלו לאחר שאומן עם כל דוגמית חדשה. עם שיעור לימוד מהיר מידי (ובמקרה זה המודל יכול להשתנות הרבה לאחר כל דוגמית שמתווספת), המודל "יזכור" רק את הדוגמיות האחרונות שראה. עם שיעור לימוד איטי מידי (המודל יכול להשתנות רק במעט בעקבות כל דוגמית שהתווספה) ייקח למודל הרבה זמן ללמוד משהו. מציאת היחס הנכון בין שיעור הלימוד, שימור מידע ישן והוספת מידע חדש, עלולה להיות משימה מאתגרת.
3. איחוד משקל אלסטי (EWC). גישה זו פותחה בהשראת עבודה DeepMind של גוגל ב-2017. היא כוללת שימוש במודל הישן כמו בקפיץ אלסטי כדי "למשוך לאחור" את המודל החדש אם הוא מתחיל "לשכוח". הסבר מעמיק יותר לגבי הדרך בה גישה זו פועלת ניתן למצוא בפוסט של הילארי סנדרס.

ממצאים
כל 3 הגישות הציגו תוצאות טובות יותר לגבי קוד זדוני ישן (משמאל לקו האנכי) מאשר לגבי דוגמיות חדשות (מימין)

גם הגישה האלסטית (EWC) וגם שיעור הלימוד ביטלו את הצורך ואת העלות הקשורה בשימור נתונים ישנים. עם זאת, הגרף מראה, שבעוד הביצועים העתידיים (השימוש בנתונים חדשים) חזקים יותר מאשר בגישת data-rehearsal, הם אינם מספקים ביצועים טובים יותר בכל הנוגע לזכרון של נתוני עבר.

מכיוון ש-data-rehearsal מאפשרת אימון ועדכונים מהירים יותר - במילים אחרות, הביצועים עוברים מהר יותר מהצד "הישן" לצד "המאומן" של הגרף, הירידה בביצועים העתידיים היא לטווח קצר יותר, ולכן מדאיגה פחות.

בס"ה, המחקר מראה, שגישת ה-data-rehearsal מציעה את השילוב הטוב ביותר בין פשטות, מהירות עדכון וביצועים.

מסקנה - במשחק זיהוי הקוד הזדוני, היכולת לזכור את העבר חשובה לא פחות מאשר לחזות את העתיד.

יש לאזן זאת מול העלות והמהירות של עדכון המודל במידע חדש. Data-rehearsal היא דרך פשוטה ויעילה כדי להגן על היכולת של המודל לזהות קוד זדוני ישן, בעודה מגבירה באופן משמעותי את הקצב בו ניתן לעדכן ולפרסם מודלים חדשים.

למה צריך אתר עיתונות עצמאי וחופשי בתחום ההיי-טק? - כאן.

שאלות ותשובות לגבי האתר - כאן.

מי אנחנו? - כאן.

מחפשים הגנה מושלמת על הגלישה הניידת והנייחת ועל הפרטיות מפני כל תוקף? הפתרון הזול והטוב בעולם - כאן.

לוח אירועים וכנסים של עולם ההיי-טק - כאן.

מחפש מחקרים? מאות מחקרים מצויים כאן.

מחפש תוכנות חופשיות? תוכל למצוא משחקים, תוכנות לפרטיים ותוכנות לעסקים, תוכנות לצילום ותמונות, הכל בחינם.

מעוניין לבנות ולתפעל אתר אישי או עסקי מקצועי? לחץ כאן.

שימרו על עצמכם והישמעו להוראות פיקוד העורף!!!!

INTENT 2024 - 19.11.24

2.12.24 - Telco 2024

לוח האירועים המלא לגולשים מצוי כאן.

שמרו על עצמכם והישמעו להנחיות פיקוד עורף. ורק בריאות לכל קוראינו!!!

הכי ניצפים

המחדל הגדול: איך המתקפה נעלמה מעיני המודיעין והטכנולוגיות שלו?- כאן

תאגיד השידור - "עלינו". איך עשו עלינו סיבוב והשאירו את אגרת הטלוויזיה - כאן

כל מה שלא מספרים לכם בתחום "השוק הסיטונאי" - פרק א': בזק - כאן

כמה מפסידים בביצועים של הפס הרחב במעבר ל"שוק הסיטונאי"? - הרבה - כאן

למה בכלל צריך להחליף / לרכוש נתב במעבר ל"שוק סיטונאי"? - כאן

איך אני יודע כמה מגהרץ יש בחיבור LTE? מי ספק הסלולר המהיר בישראל? - כאן

חשיפת מה שאילנה דיין לא פרסמה ב"ערוץ 2" על תעלולי השר משה כחלון - כאן

ההגנה המושלמת על הגלישה ניידת והנייחת ועל הפרטיות מפני כל תוקף - כאן

המשך חשיפת הבלוף ששמו "מהפיכת הסלולר" ואיך מסרסים את הנתונים לציבור - כאן

סיכום ביקור בסיליקון ואלי - למה 3 הגדולות משקיעות ומפתחות באותם תחומים - כאן

שלמה פילבר (עד לאחרונה מנכ"ל משרד התקשורת) - עד מדינה? הצחקתם אותי! - כאן

"יש אפליה בחקירה"? חשיפה: למה השר משה כחלון לא נחקר עד היום? - כאן

חשיפת חשד לשחיתות הדומה לזו של "תיק 4000" אך בתחום הסלולר - כאן

חשיפת מה שלא רוצים שתדעו בעניין פריסת אנלימיטד (בניחוח בלתי נסבל) - כאן

חשיפה: איוב קרא אישר לקבוצת סלקום בדיוק מה שביבי אישר ל-Yes ולבזק - כאן

האם השר איוב קרא היה צריך בכלל לחתום על האישור, שנתן לקבוצת סלקום? - כאן

האם ביבי וקרא קבלו בכלל תמורה עבור ההטבות הרגולטוריות שנתנו לסלקום? - כאן

המסמכים בנושא בזק-Yes (תיק 4000) מוכיחים "תפירת תיק" לאיש הלא נכון! - כאן

עובדות ומסמכים המוסתרים מהציבור: האם ביבי כשר תקשורת עזר לקב' בזק? - כאן

מה מקור ה-Fake News שהביא לתפירת תיק לביבי והעלמת החשודים הנכונים - כאן

אחת הרגליים של "תיק 4000 התפור" התמוטטה היום בניצחון (כפול) של בזק - כאן

איך כתבות מפנקות הפכו לפתע לטובת הנאה שהיא מיסודות עבירת השוחד? - כאן

שערוריית הקנס הענק על בזק וחשיפת "תעודת הביטוח" של נתניהו בתיק 4000 - כאן

תיק 5000: סלקום - IBC לא תפרוס סיבים ותרכב על גב הרכוש הפרטי של בזק - כאן

ערוץ 20: "תיק תפור": אבי וייס חושף את מחדלי "תיק 4000" - כאן

התבלבלתם: גיא פלד הפך את כחלון, גבאי ואילת לחשודים המרכזיים בתיק 4000 - כאן

פצצות בתיק 4000: האם היו בכלל התנגדויות למיזוג בזק-יס? - כאן

נמצא מסמר נוסף בארון הקבורה של תיק 4000 התפור - כאן

נחשפה עוד עובדה חשובה בדרך אל ההלוויה של תיק 4000 - כאן

תיק 4000 לא הושלם: האם היועמ"ש קיבל את כל המידע הנחוץ לחקר האמת? - כאן

תיק 4000: גם תקנות התקשורת התומכות בגרסת נתניהו לא נכללו בחקירה - כאן

חשיפת שקרים נוספים בתיק 4000: הטעיית הציבור נמשכת ללא הרף - כאן

תיק 4000: נחוצה ועדת חקירה ממלכתית לגבי "אישום" שר התקשורת - נתניהו - כאן

תיק 4000: היועמ"ש לממשלה אישר "מיזוג" בזק-יס. צריך ועדת חקירה ממלכתית - כאן

אוסף הטעויות בתיק 4000: "אני מאשים" - לא חתרו כלל לגילוי האמת - כאן

שערוריית תיק 4000: איך יש 2 גרסאות שונות של כתב החשדות של היועמ"ש? - כאן

ערוץ 20: אבי וייס חשף טענות שגויות בכתב החשדות נגד רוה"מ בתיק 4000 - כאן

תיק 4000: חשיפת מסמך נוסף שיסייע גם הוא לחיסול תיק 4000 התפור - כאן

ערוץ 20: אבי וייס ואלי ציפורי חשפו שקרי הפרקליטות לגבי ההדלפות בתיק 4000 - כאן

תיק 4000: מתי מדוע ואיך הוא הפך מ"תיק בזק" ל"תיק תפור" ומחורר? - כאן

הספינים והשקרים בתיק 4000 חזרו. הם חלק מניסיון הפיכה שלטונית שיש לחקור - כאן

סודות ושקרים בפרקליטות והיועמ"ש: מי היה ב"ניגוד עיניינים" בתיק 4000? - כאן

תיק 4000 יושלך לפח האשפה של ההיסטוריה עקב חקירה רשלנית ללא מסמכים - כאן

תיק 4000: מסמר נוסף ענק לארון הקבורה שלו (פרי חשיפה של אלי ציפורי) - כאן

תיק 4000: בעיות זיכרון, חקירה משובשת ושקרים המכוונים להפיכה שלטונית! - כאן

חשיפות חדשות בעקבות הדלפת עדויות שלמה פילבר - "עד המדינה" בתיק 4000 - כאן

האם "תיק 4000" התפור אכן בדרכו ל"פח האשפה של ההסטוריה"? - כאן

חשיפת הכזבים של היועמ"ש מול האמת המוכחת לגבי ההדלפות בתיק 4000 - כאן

פוטש בשידור חי: את מי שהיה צריך לעצור ולחקור זה את "עד המדינה" פילבר! - כאן

תיק 4000: האם נוכל לנחש שהחשיפה כאן תהיה הגרזן הסופי שיפרק את התיק? - כאן

תיק 4000: הביזיון של כתב האישום הבדיוני דורש ועדת חקירה ממלכתית - כאן

האמת המוסתרת מהציבור בתיק 4000: פירוט 20 שקרים / אלי ציפורי ואבי וייס - כאן

איך זה שהיחיד שדיווח אמת בפרשה שהתפתחה לתיק 4000 - קיבל כתב אישום? - כאן

תיק 4000: ההדלפות לכלכליסט כביכול נגד רוה"מ דווקא מצביעות על חפותו - כאן

"נקודת האפס" - Ground Zero שבו החלה תפירת תיק 4000 נחשף - כאן

למה לא נפתחה חקירה ב"תיק 5000" ומתבצע שימוע נוסף של הטבות ל-IBC? - כאן

החלטות של מש' התקשורת בעניין "ההדדיות" ממוטטות עוד לבנה בתיק 4000! - כאן

חשיפת הסיבה לתפירת תיק 4000 ב"נקודת האפס": "פרשת עורכי הדין"! - כאן

חשיפה בלעדית: מסתירים עוד מסמכים ש"מפוצצים" את תיק 4000 לרסיסים! - כאן

פירוט 60 שקרים בתיק 4000 (ויש עוד) שמסתירים בכוונה מהציבור! - כאן

"הנדסת התודעה" בתיק 4000 לא מסתיימת ותימשך בחודשים הבאים! - כאן

השקרים,הרמאויות, הצנזורות,העיוותים והסילופים של רביב דרוקר בתיק 4000 - כאן

חשיפת הפברוק של דרוקר שמחסלת את הראייה הישירה היחידה כנגד נתניהו - כאן

חשיפה דרמטית בתיק 4000: האם כעת התיק התפור ייפול? - כאן

איך ספינולוגים שוטפים את מוח הציבור פעם 3 בתכנית "המקור" על תיק 4000? - כאן

איך שינוי מילה אחת גם ע"י דרוקר "הפיל בפח" עדים רבים בתיק 4000? - כאן

התרגיל של שלמה (מומי) למברגר שסוגר כל חקירה שיכולה להוביל למנדלבליט! - כאן

הסתעפות תיק 4000: תיק 5000 - הטיוח הגדול כדי שהחקירה לא תגיע למנדלבליט - כאן

פשוט מדהים: התגלו כעת 2 מסמכים התומכים בגרסת נתניהו בתיק 4000 - כאן

זה לא נגמר: נחשפו כעת עוד מסמכים המסייעים לגרסת נתניהו בתיק 4000 - כאן

הטיוח של שלמה (מומי) למברגר, שלא קורא מסמכים, כדי להגן על מנדלבליט! - כאן

תעלולים חדשים של למברגר שגם ממציא וסוגר תלונה כדי להגן על מנדלבליט! - כאן

"אני מאשים": על היועמ"ש מנדלבליט לבטל היום את תיק 4000 ולהתפטר! - כאן

התמוטטות "תיק בזק" הייתה אמורה להוביל לביטול "תיק 4000": "אני מאשים!" - כאן

7 "ראיות זהב" מרכזיות בתיק 4000 שאפשר להשליך מיידת היישר לפח הזבל - כאן

עדכונים שוטפים על הסודות המסתתרים בעדות אילן ישועה בתיק 4000 - כאן

האם הגיע הזמן להעמיד לדין את תופרי התיקים ומיוחד את תופרי "תיק 4000"? - כאן

פירמידת השקרים שנבנתה ע"י היועמ"ש וגלובס סביב אילן ישועה כדי "להלבינו" - כאן

חשיפה דרמטית: אילן ישועה היה כנראה מוכן להעיד גם תחת אזהרה בתיק 4000 - כאן

האם אילן ישועה ייחקר ברשות ניירות הערך בחשדות החמורים שהתעוררו נגדו? - כאן

משפט שערוריית תיק 4000: עדכונים שוטפים ביחס למשפט נתניהו שחשוב לדעת- כאן

תיק 4000 המופרך: עדכונים שוטפים במשפט נתניהו שהציבור חייב לדעת! - כאן

חשיפת הסודות הכמוסים של ראשי הפרקליטות שמנהלים את "תיקי האלפים" - כאן

בכירים בפרקליטות ובלשכת היועמ"ש: הפרקליטות עשתה טעות בתיק 4000! - כאן

משפט "תיקי האלפים" המפוברקים נמשך: עדכונים שוטפים שהציבור אמור לדעת - כאן

גם על פי היומן של בנימין נתניהו מ-2015 - אין בסיס לכתב האישום בתיק 4000 - כאן

חשיפה: עוד ראיה מזכה לנתניהו בתיק 4000 מסתתרת בהחלטת מש' התקשורת - כאן

הסודות של ניר חפץ ואילן ישועה נחשפו באמצעות מוטי גילת שלא הבין אותם - כאן

עדכונים מהחקירה הנגדית של ניר חפץ שממשיך לפורר את תיק 4000 התפור - כאן

תפירת תיק 4000: חשיפת פרטי המפלצת של תוכנת הריגול המשטרתית אחריכם - כאן

השלכות תיק 4000: איך הלבינו את המפעל המפלצתי של הפריצות לסמארטפונים - כאן

ממצאי ועדת מררי - שקרים, טיוח ענק וזריית חול בעיני הציבור - כאן

השלכות דו"ח מררי: איך העיזה המשטרה לרמות במצח נחושה שופטים בכירים? - כאן

חשיפת מסמך מאגר המידע המשטרתי הסודי והמפלצתי על ראשי ערים ורשוית - כאן

2 הדלפות מהפרקליטות לאחר היום הראשון של החקירה הנגדית של שלמה פילבר כשאחת מהן מפילה את תיק פגסוס על המשטרה ובעקיפין על השב"כ - כאן

למה הוטל צו איסור פרסום על החשיפות בתיק 1000? כדי לחסום האמת! - כאן

מפלצת הפגסוס לא מסתתרת בחוק האזנות הסתר. היכן היא כן מתחבאת? - כאן

שמרו על עצמכם והישמעו להנחיות פיקוד העורף, ורק בריאות לכל קוראינו!!!