ההשקעות הענקיות של חברות מובילות בשוק העולמי בתחומי רובוטים אנושיים ורכבים אוטונומיים, הביאה למפנה במחקר ובפיתוחים של עולם ה-Speech Processing המשתלב כעת עם זיהוי תמונה ווידיאו ב-Deep Learning. כך נחשף בכנס השנתי לזיהוי דיבור, שהתקיים במכללת אפקה להנדסה. הזדמנות ענקית למפתחים.
מאת:
אבי וייס, 19.6.16, 21:17
כמידי שנה בשנים האחרונות, המכללה האקדמית להנדסה בת"א -
אפקה, שהפכה ל"
מרכז לאומי לזיהוי דיבור" והיחידה בארץ, שיש בה מעבדה מחקרית לזיהוי דיבור -
ACLP, קיימה ביום
15.6.16 את
המפגש הבינלאומי השנתי בתחום זיהוי דיבור, כנס המרכז סביבו את כל העוסקים בתחום (חוקרים, יזמים, מפתחים, סטארטאפיסטים וחברות מכל תחומי המשק).
פרופ'
עמי מויאל, (בתמונה), נשיא
מכללת אפקה: "זה הכנס השביעי של תחום
Speech Processing במכללה ואני מודה לכל האורחים והמרצים, שהגיעו אלינו מרחוק ולכל הספונסרים שלנו.
הכיוונים החדשים בטכנולוגיה, שיוצגו בכנס, כוללים שימוש בקבצי ביג דאטה להפקת מידע, שימוש בטכנולוגיית זיהוי דיבור ככלי לאבחון מחלות, היכולת לערוך ולתקן קבצי קול, טכנולוגיות בינה מלאכותית ועוד.
במכללת אפקה יש לנו 5 מרכזי מחקר העובדים צמוד עם התעשייה ומקבלים מענקי מחקר. המרכז הראשון באפקה, שהוקם על ידי, הוא ACLP, שעוסק בתחום זיהוי דיבור ומספק מו"פ לגופים אזרחיים,
צבאיים, ממשלתיים וגם לסטארטאפים.
כיום ACLP הוא המרכז הלאומי למחקר בתחום זיהוי דיבור וזה מתרחב לתחומים נוספים, כי התחום הזה עומד בפני מפנה ענק. כיום, בראש מכון ACLP עומדת ד"ר
אירית עופר". [ראיון בלעדי נרחב עם פרופ'
עמי מויאל יפורסם בנפרד].
פרופ'
לי דנג (
Li Deng), (ב
תמונה משמאל), מנהל המחקר והמדען הראשי של מעבדות המחקר ל-
AI, מיקרוסופט ארה"ב: "אנו מתרכזים כיום בתחום ה-Deep Learning, שזה תחום הכולל מבחינה מחקרית גם את תחום זיהוי הדיבור, בנוסף ל: זיהוי תמונה, זיהוי מחוות וזיהוי וידיאו. זו אלגוריתמיקה של 'שפת מכונה' מאוד מורכבת, שהיא חלק מתפיסת העולם של AI (ר"ת: Artificial Intelligence).
למעשה, אנו עוסקים בתחום חדש לגמרי, שעדיין לא מוגדר עד הסוף. הסיבה, שהשוק הלך לכיוון הזה, היא די ברורה: כי כאן מוכנים להשקיע כסף, הרבה כסף.
החוקרים בתחום מתרכזים סביב ארגון
NIPS, שמקיים כנס שנתי, וכמות המשתתפים, שקפצה אקספוננציאלית מעידה על ההתעניינות העולמית בתחום.
קהילת עיבוד דיבור - Speech Processing נחשפה לרעיון של Deep Learning רק ב-2009, במאמר מדעי, שלא זכה להבלטה. הנושא לא המריא אלא בשנים האחרונות והשנה כבר מושקעים בתחום הזה
מיליארדים רבים של דולרים.
העיסוק ב-Deep Learning הוביל לשיפור מאוד משמעותי בזיהוי דיבור, מה שלא היה כל 10 השנים שעברו. זה הוביל ליכולת להכניס זיהוי דיבור בקלות לסמארטפונים ולאפליקציות רבות והוביל לכך, שחברות רבות נכנסו לעסוק בתחום הזה.
אנו במיקרוסופט עוסקים בתחום ה-Deep Learning מזה שנתיים, כדי להוביל את התחום מעולם המחקר והפיתוח ליישומים מעשיים וכלכליים. אנו עדיין לא השלמנו את הפיתוח אבל יש כבר יישומים מעשיים, גם אצלנו וגם אצל המתחרים שלנו בתחום.
מה שמפתיע בתחום הזה, שפתאום אנו רואים פיתוחים מדהימים הנעשים בסין. אחד הפיתוחים היותר מעניינים הוא של חברת ביידו (
Baidu) הסינית, שיש לה פתרון מלא למנדרינית (סינית) ולאנגלית. גם Siri של אפל התקדמה יפה מאוד בשנתיים האחרונות והשחקן הכי חדש ומפתיע בתחום זה: חברת
iFlytek הסינית, עם פתרונות מרתקים במנדרינית עם רמת דיוק מדהימה, שלא ראינו עד היום. כל הכלים שלהם הם בקוד פתוח, מה שעוזר לכל התעשייה לפתח מהר בתחום הזה.
במקביל, כל השחקנים הוותיקים בשוק ובכללם: IBM, נואנס, גוגל ועוד, מפתחים יכולות חדשות ומשלבים זיהוי דיבור עם זיהוי תמונה ברמת דיוק גבוהה. כיום, מקובל להגיע לרמת שגיאה של 3.5%, מספר, שהיה בעשור הקודם חלום עבור התעשייה שלנו. אפשר להגיע לדיוק כזה אפילו על תמונה של 1K.
התחום המרכזי, שבו אנו מרוכזים כעת, מכונה אצלנו: Deep Unsupervised Learning, שהוא השלב הבא של Deep Learning. כבר שחררנו כמה אפליקציות ובקרוב נשחרר אפליקציות מאוד מדליקות, שמקורן במחקר שלנו. אנו גם מספקים API לחברות העובדות אתנו כדי שתפתחנה מוצרים ושירותים חדשים בכלים הללו. תוצאות נראה בחודשים הקרובים.
האתר המרכזי שלנו, שבו ניתן לעקב אחרי ההתקדמות בפיתוחים הוא:
Microsoft Cognitive Services, שיש בו כבר כמות לא קטנה של כלי פיתוח. יש כיום קהילה, שגדלה והולכת סביב כלי הפיתוח הללו והעתיד של התחום הוא
מאוד מבטיח".