מחקר ישראלי: כל ה-YouTube בכפית אחת - אחסון מידע על די-אן-איי
מאת:
מערכת Telecom News, 9.9.19, 19:20
חוקרים בטכניון ובמרכז הבינתחומי הרצליה הציגו קפיצת מדרגה באחסון מידע. הטכנולוגית המהפכנית - אחסון מידע בדי-אן-איי, מאפשרת מזעור משמעותי, שמירת המידע לטווח ארוך הרבה יותר ועלות אנרגטית וכלכלית אפסית.
חוקרים בטכניון ובמרכז הבינתחומי הרצליה הדגימו שיפור משמעותי ביעילות התהליך הנדרש לאחסונו של מידע דיגיטלי בדי-אן-איי. במאמר, ש
פורסם בכתב העת
Nature Biotechnology הדגימה הקבוצה אחסון מידע בצפיפות השקולה לאחסון של יותר מ-10 פטה-בייט (מיליון גיגה-בייט) בגרם בודד של די-אן-איי תוך ייעול משמעותי של תהליך הכתיבה. לשם המחשה, צפיפות זו מאפשרת, באופן תאורטי, לאחסן בנפח של כפית את כל המידע השמור ב-
Youtube.
את המחקר הוביל תלמיד המחקר
ליאון ענבי, (בתמונה למעלה), מהפקולטה למדעי המחשב בטכניון בהנחייתו של פרופ'
זהר יכיני מהפקולטה למדעי המחשב בטכניון ומבית ספר אפי ארזי למדעי המחשב במרכז הבינתחומי הרצליה. המחקר נערך בשיתוף עם מעבדתו של פרופ'
רועי עמית מהפקולטה להנדסת ביוטכנולוגיה ומזון בטכניון.
כמות המידע הדיגיטלי גדלה במהירות עצומה מאז המצאת ההארד-דיסק ע"י
IBM בשנות ה-50. אחסונו של מידע זה הפך לאתגר גדול לא רק בהקשר הטכנולוגי אלא גם בהיבט הכלכלי והסביבתי, שכן כיום אחראיות חוות השרתים - מחסני המידע המשרתים את כולנו - לכ-2% מפליטת הפחמן העולמית (שיעור דומה לפליטה המצטברת של כל המטוסים בעולם) ולכ-3% מצריכת החשמל העולמית (יותר מצריכת החשמל של בריטניה כולה).
על רקע כל אלה מתפתחת בעשור האחרון גישה טכנולוגית חדשה ומהפכנית: אחסון מידע בדי-אן-איי. טכנולוגיה זו מאפשרת מזעור משמעותי, שמירת המידע לטווח ארוך הרבה יותר (פי אלף) ועלות אנרגטית וכלכלית אפסית.
הרעיון הבסיסי בקידוד מידע על די-אן-איי הוא זה: מולקולת הדי-אן-איי היא שרשרת המורכבת מחוליות הנקראות נוקלאוטידים. הנוקלאוטידים מתחלקים ל-4 סוגים המסומנים באותיות
A,
C,
G ו-
T. כדי לאחסן מידע בדי-אן-איי יש לתרגם כל רצף בינארי (המורכב מהסימנים 0 ו-1) לרצף המורכב מאותיות אלו.
בשלב הבא מיוצרות, בתהליך הקרוי סינתזה, מולקולות די-אן-איי ממשיות המייצגות את אותם הרצפים. כדי לקרוא את המידע נדרש ריצוף של מולקולות הדי-אן-איי. ריצוף זה מייצר פלט המייצג את רצף הנוקלאוטידים המרכיב כל מולקולה בקלט, ואת הפלט האמור מתרגמים לרצף בינארי המייצג את ההודעה המקורית שקודדנו. הטכנולוגיות המודרניות מאפשרות סינתזה של אלפי סדרות נוקלאוטידים שונות במקביל.
אחסון על די-אן-איי הוא אתגר טכנולוגי מורכב מאוד. בתחום קריאת המידע (ריצוף) התרחשה התקדמות עצומה בעקבות מהפכת הגנום, אולם בכתיבת המידע ישנם עדיין קשיים טכנולוגיים משמעותיים. מכאן חשיבותה של פריצת הדרך, שהושגה ע"י חוקרי הטכניון והמרכז הבינתחומי הרצליה ומאפשרת:
(1) הגדלה של מספר האותיות המשמשות לקידוד המידע (מעבר ל-4 האותיות המקוריות);
(2) הפחתה משמעותית בסבבי הסינתזה הנדרשים לאגירת המידע בדי-אן-איי;
(3) שיפור מנגנון תיקון השגיאות בקוד.
הדי-אן-איי הטבעי מורכב, כאמור, מ-4 אבני בניין, הן ארבע האותיות
A,
C,
G ו-
T. צוות החוקרים הגדיל את מספר האותיות לשימוש בפועל, כשכל אות חדשה מהווה צירוף ייחודי של האותיות המקוריות. הרעיון דומה לייצור של צבעים חדשים ע"י ערבוב ייחודי של צבעי בסיס.
הגדלת מספר האותיות מאפשרת לקודד יותר מידע בכל עמדה ברצף של מולקולות הדי-אן-איי.
פרופ'
יכיני: "בתהליכי הסינתזה והריצוף הנהוגים כיום מתקיימת יתירות מידע מובנית (
redundancy), כיוון שכל מולקולה מיוצרת במספר גדול של עותקים ונקראת במספר גדול של עותקים במהלך הריצוף. הטכנולוגיה שפיתחנו מנצלת את היתירות הזאת להגדלת מספר האותיות האפקטיבי הרבה מעל ל-4 האותיות המקוריות, וכך מאפשרת לנו לקודד כל יחידת מידע בפחות מחזורי סינתזה".
החוקרים הצליחו להפחית ב-20% את מספר סבבי הסינתזה הנדרשים ליחידת מידע. יתר על כן, החוקרים הראו, שאפשר יהיה להפחית בעתיד את מספר סבבי הסינתזה ב-75% ללא מאמצי פיתוח משמעותיים. פירוש הדבר הוא, שתהליך האחסון יהיה מהיר יותר ויקר פחות.
פרופ' עמית: "בעבודה הזאת יישמנו בצורה מעשית קידוד מידע ביעילות סינתזה הגדולה בעשרות אחוזים בהשוואה לקידוד המקובל. המחקר כלל יישום בפועל של שיטת הקידוד החדשה לשם אחסון מידע בנפח גדול על מולקולות די-אן-איי ושחזורו לשם בדיקת התהליך".
ואכן, על אחד המדפים במעבדתו של פרופ' עמית בטכניון מונחת מבחנה קטנה המכילה בתוכה כ-10 ננוגרם (מיליארדית הגרם) של די-אן-איי, המקודדים אלפי עותקים של התנ"ך בגירסה דו-לשונית.
קבוצת המחקר פיתחה מנגנון מתקדם המאפשר להתגבר על שגיאות שהן חלק בלתי נפרד מתהליך ביולוגי-פיזיקלי כמו זה המתרחש כאן. חלק מרצף הדי-אן-איי של המולקולות המאחסנות את המידע, שתוכננו ע"י
ליאון ענבי ופרופ'
יכיני, משמש לצורך מנגנון תיקון השגיאות האמור.
ליאון ענבי: "בזכות שימוש בקודים לתיקון שגיאות, שמותאמים לקידוד הייחודי שיצרנו, יכולנו לבצע קידוד יעיל במיוחד ולשחזר את המידע בהצלחה. כאשר עובדים במערכת המורכבת ממיליוני חלקים (מולקולות), מתרחשים גם אירועים נדירים ביותר (אירועים של אחד למיליון), שעלולים לשבש את הקריאה. הקידוד המוקפד איפשר לנו להתגבר על בעיות אלה".
החוקרים מציינים, שלטכנולוגיה, שהוצגה במאמר, יש פוטנציאל לייעל תהליכים נוספים בביולוגיה סינתטית ובביוטכנולוגיה, והם מאמינים, שבשנים הקרובות נראה עלייה משמעותית בשימוש בדי-אן-איי סינתטי במחקר ובתעשייה".
הדי-אן-איי המלאכותי, ששימש את החוקרים ותוכנן ע"י הקבוצה יוצר ע"י חברת
Twist Bioscience האמריקאית, שמעסיקה גם קבוצת פיתוח בתל אביב, ורוצף במרכז הגנומי של הטכניון. המחקר נתמך חלקית ע"י תוכנית המסגרת
Horizon 2020 של האיחוד האירופי.
ליאון ענבי נתמך ע"י מלגת אדמס של האקדמיה הישראלית למדעים. במחקר השתתפו גם ד"ר
אורנה עטאר ותלמידת המחקר
ענבל וקנין.
קרדיט צילום: רמי שלוש, דוברות הטכניון
קבוצת המחקר: מימין לשמאל: פרופ' רועי עמית, ענבל וקנין, ליאון ענבי ופרופ' זהר יכיני