הכנס הבינלאומי Afeka Conference for Speech Processing 2018 שימש במה לחשיפת הפיתוחים החדישים והמלהיבים בתחום "זיהוי דיבור", שהתלכד עם עולם טכנולוגיות ה-AI (ר"ת: Artificial Intelligence), כולל פיתוחים חדישים, שנחשפו באירוע, פרי פיתוח "כחול לבן", דוגמת המערכות החדשות של אודיוקודס, מעבדת המחקר של גוגל ישראל ומעבדת המחקר של המכללה להנדסה אפקה בת"א.
מאת:
אבי וייס, 28.6.18, 07:30
הכנס השנתי ה-9 לתחום "זיהוי דיבור" ביוזמת
המכללה האקדמית להנדסה אפקה ובהובלת
מרכז המחקר לזיהוי דיבור באפקה - ACLP בראשותה של ד"ר
עירית עופר,
התקיים במרכז המחקר של מיקרוסופט בהרצליה בשבוע החולף בהשתתפות מאות מומחים, חוקרים, יזמים, מנטורים ומשקיעים בעולם "
זיהוי דיבור", מהארץ ומרחבי העולם.
פרופ' עמי מויאל, (בתמונה משמאל), נשיא מכללת אפקה: "זו השנה התשיעית, שאנו עורכים כנס בינ"ל בתחום וזה מוכיח את עצמו בהכרה הבינלאומית, שאנו מקבלים ומהמרצים האורחים המגיעים אלינו מרחבי העולם, ממוסדות המחקר והאקדמיה המובילים, שעוסקים בתחומים בהם אנו עוסקים באפקה. תודתי למיקרוסופט, לאודיוקודס, לג'נסיס ולשאר נותני החסות, שאיפשרו את קיומו של הכנס הזה, פעם ראשונה מחוץ לכתלי המכללה.
אני מעוניין להתמקד במה שהצגתי בפומבי אך לאחרונה וזה הנושא של כוח אדם הנדסי והכשרתו במדינת ישראל.
יש בישראל 2 מגמות עיקריות בתחום הזה:
א. מחסור חריף במהנדסים. אמנם היו דיבורים על ייבוא מהנדסים מחו"ל, אבל זה לא ריאלי ולא ייענה על הצרכים הייחודיים של השוק הישראלי. אנו באפקה מתקרבים למצב של קליטת אלפיים סטודנטים חדשים בשנה, אבל זו טיפה בים של הצרכים ונדרשת ראייה לאומית לטיפול בנושא.
ב. יש חשיבות עצומה להעלאת רמת הלימוד ותכני הלימוד של מהנדסים בישראל ולשינוי שיטת הלימוד. כך, שתענה על אתגרי ההווה והעתיד. זה חייב להתחיל בלימודי התיכון בהגברת ההשקעה בלומדים אנגלית ומתמטיקה. בלי זה אי אפשר להשתלב בתעשיית הההייטק, שהיא הקטר של המשק והכלכלה שלנו.
אני רואה חשיבות רבה לשינוי האקדמיה. אני מוביל מהלך, שזוכה לתמיכה גם במל"ג, לשנות את שיטת ההשכלה הגבוהה בישראל, בדגש על המקצועות ההנדסיים. אני מדבר על חינוך מהנדסים ולא על אימון או הכשרת מהנדסים. זה שינוי מאוד משמעותי בתפיסת ההכשרה האקדמית להנדסה. זה דורש מסלולי הכשרה שונים לגמרי ממה שהכרנו עד היום. באפקה, התחלנו ליישם זאת בתהליך אסטרטגי, שחוצה את כל הפקולטות, כשאנו בודקים באופן רציף ועקבי מהן התפוקות הנדרשות ממהנדס, שיצא ממערכת ההשכלה שלנו. כל מערכות הלימוד ותוכניות הלימוד הותאמו לחשיבה הזו.
אני מאמין, שהשינוי, שנעשה בתוכנו, הוא חלק משינוי, שצריך לעבור על כל מערכת ההשכלה הגבוהה בישראל. אם לא נשתנה, לא נהיה רלבנטיים לשוק העבודה ולצרכי התעשייה. אסור לנו להמשיך במסלול הקיים, כי אנו מתרחקים מהתעשייה במקום להתקרב אליה ולהיות חלק ממנה".
ד"ר עירית עופר, (בתמונה משמאל), ראש מרכז אפקה לעיבוד שפה (ACLP): "אנו חלק ממרכזי המחקר של המכללה להנדסה אפקה בת"א, ואנו מרכז המחקר המוביל בישראל לתחום 'זיהוי דיבור', עם 15 אנשי סגל, חוקרים ומפתחים.
אנו חלק ממערך המחקר האקדמי של המכללה ומטרתנו המרכזית ליישם שת"פ הדוק עם התעשייה וצרכי התעשייה, גם בשת"פ עם גופים אקדמיים מקבילים או משלימים, בארץ וברחבי העולם ועם גופי מחקר העוסקים בתחומים שלנו.
אנו גם מכשירים סטודנטים במעבדות שלנו ומבצעים איתם פרויקטים רבים, שבהם אנו מעורבים, בכל תחומי המשק. אחד הפרויקטים הגדולים שלנו הוא במעורבות שלנו ביחד עם משרד החינוך ובמימון הרשות לחדשנות, בהספקת פתרונות זיהוי דיבור לתלמידים כבדי שמיעה או חרשים הלומדים בכיתות רגילות.
תחום די חדש, שהתפתח אצלנו ב-3 השנים האחרונות, הוא זיהוי ואיפיון מחלות באמצעות ניתוח קול. אנו עובדים בשת"פ עם 3 בתי חולים גדולים בישראל, עם הישגים מאוד מתקדמים. לתחום הזה אנו מקדישים סמינרים מקצועיים נפרדים בגלל השילוב המיוחד הזה של זיהוי דיבור בעולם הרפואה.
בעבר, די ליגלגו על היכולות של כלי זיהוי דיבור, אבל כיום זה פשוט עובד והפך לכלי שימושי ומוביל בתחומים רבים. החברות הגדולות ביותר בעולם משתמשות בכלים של זיהוי דיבור, כדי לפתח מוצרים ושירותים חדשים לציבור בכל רחבי העולם. 'סייען אישי' הפך לנושא מקובל ולחלק מחיינו. למרות זאת, יש בתחום שלנו עוד המון אתגרים והמון מה לחקור ולהתפתח.
יש תחומים חדשים שעולים והם היום הלהיט דוגמת: ניתוחי מידע, בינה מלאכותית ו-AI. הכיוון הוא שילוב שפה טבעית במערכות שיש לנו בחיי היום יום וזה כבר נכנס למערכות דוגמת שירות לקוחות, סיוע לקשישים ועוד. השמיים כאן הם הגבול לשילוב של זיהוי דיבור, AI ויישומים מעשיים.
בשנה הבאה, שתהיה השנה העשירית של קיום הכנס הזה, אנו מתכננים לבצע אירוע ממש גדול, גם כדי לסכם עשייה של עשור בתחום הזה של זיהוי דיבור באפקה".
במסדרת הכנס נחשפו כמה פיתוחים חדשים ונציג אותם כעת:
גידי אדלסברג, (בתמונה משמ
אל), מנהל מוצר,
אודיוקודס: "אנו
הכרזנו, שאנו במהלך מהיר של
הוספת AI למערכות זיהוי דיבור שלנו, ליצירת קו חדש של פתרונות לשוק והקמנו חטיבה חדשה בשם Voice.AI אצלנו, לצורך ההתפתחות המבטיחה הזו.
שוק זיהוי הדיבור העולמי נמצא בצמיחה מואצת ומדהימה בכל רחבי העולם, מ-941 מיליון דולרים מכירות ב-2017 השוק הזה יגיע לכ-2.2 מיליארד דולרים ב-2022, גידול ממוצע של 18.2% בשנה (!).
הגדלת שביעות הרצון של משתמשים היא מניע חזק ביותר המוביל לגידול בשוק הזה. השוק, שאנו כעת נכנסנו אליו, משלב את ה-
AI במערכות זיהוי דיבור ויוצר תשתית חדשה המאפשרת לספק פתרונות חדשים, ממש מהרגע הראשון, שנכנסנו לתחום הזה.
בעבר, התמחנו במתן פתרונות בעולם ה-VoIP לארגונים ולעסקים, כאשר בשנת 2000 ביצענו השקעה ראשונה בחברת ההזנק NSC, שרכשנו בהמשך הדרך ומיזגנו אותה לתוך אודיוקודס, עם קו המוצרים שכעת התפתח לכיוון ה-
AI. ב-2017 הפכנו לחברה מובילה עולמית, גם בגלל יכולות הפיתוח העצמיות שלנו וגם בגלל השת"פ ההדוק והאסטרטגי שלנו עם מיקרוסופט, כשהתחברנו אל מיקרוסופט כבר מהמוצר הראשון שלהם לעולם התקשורת הארגונית: Lync. כיום המוצר המוביל של מיקרוסופט הוא סקייפ לעסקים. פיתחנו וסיפקנו מוצרים רבים התואמים לקו המוצרים של מיקרוסופט, בעיקר טלפונים, נתבים, חומות אש, מבואות, שירותי ענן, שירותי ניתוב שיחה ועוד.
המוצרים הראשונים, שנולדו מהשילוב של פתרונות NSC והשת"פ עם מיקרוסופט, היו בסדרה ששמה
VocaNOM, שמשמשת כיום במאות רבות של עסקים בכל רחבי העולם, לניתוב שיחות קולי. בהתחלה זה בוצע בהתקנות מקומיות של המערכת, אך כיום הכל מוצע בענן, כשאנו משתמשים גם בענן של אמזון, לפי רצון הלקוחות. בהמשך יצאנו עם קו מוצרי AC Voca, שמתפתחים לכל הכיוונים ויש לתחום הזה
פורטל מיוחד.
המערכות החדשות שלנו הן:
- SmartTAP - מערכת מלאה לתקשורת אחודה. היא כוללת הכל, כולל ניהול חדרי ישיבות ותואמת לכל קווי הפתרונות של מיקרוסופט.
- SmartTAP 360 - מערכת הקלטות מתקדמת, שמאפשרת להקליט את כל סוגי השיחות, החל משיחות וידיאו וכלה בצ'טים ומסרים מידיים. זה פתרון מלא, שמקדים בהרבה את מה שיש בשוק (פתרונות, שבהם ניתן להקליט רק שיחות קול, או לכל היותר קול ווידיאו).
- סייען אישי. כאן עמדנו בפני אתגר להגיע ל-95% דיוק בזיהוי דיבור. השגנו את היעד הזה, אבל השוק העולמי עוד טרם זיהה את התחום. רק 3% מהארגונים בעולם משתמשים באיזו מערכות זיהוי דיבור. כך, שיש כאן פוטנציאל שוק ענק. אנו משלבים בזה כלי ביג-דאטה ו-AI. המוצר הראשון בתחום זה היה AC Voca, שסיפק כמה שירותי זיהוי דיבור לארגונים ומזה צמחו כמה וכמה שירותים: VocaNOM בגרסה מתקדמת, VocaOne לעסקים בעלי סניפים מבוזרים, Voca Bot שזה שירות חדש התופס תאוצה בשוק ו-Voca SDK.
המטרה שלנו להפוך את
כל התקשורת העסקית בכל האפיקים והערוצים, למבוססת על זיהוי דיבור. זה מחובר לכל סוגי הטלפונים הנייחים והניידים, לרשתות חברתיות, לאפליקציות עסקיות, לדואר האלקטרוני ועוד. הכל עובר ויעבור שדרוג, כולל ובמיוחד מרכזי שירות לקוחות. המטרה להגיע למענה אוטומטי לחלוטין לפונים. בבי"ח רמב"ם בחיפה בשירות אחד בלבד, הגענו לכך, שכ-90% מהשיחות הנכנסות עברו אוטומטית ליעד בטכנולוגיית זיהוי דיבור, ללא כל מגע אנושי ורק 10% מהשיחות מטופלות ע"י בני אדם.
המיקוד שלנו כיום הוא, כאמור, הוספת ה-
AI למערכות ויצירת שירותים חדשים. אנו כבר נמצאים בארגונים גדולים ופותרים להם בעיות של איסוף מידע, שנצבר אצלם בכמויות וללא כל שימוש, על הלקוחות שלהם. אנו מפתחים כלים לניתוח מידע קיים בארגון כדי לספק את היכולת להפיק מהמידע הזה תובנות. זה כולל למשל תיעוד פגישות של אנשי המכירות, מידע רב ערך, שניתן להפיק ממנו המון תובנות והמלצות.
אנו פועלים גם במסגרת מחקרית של הרשות לחדשנות, בפרויקט, שנועד לספק יכולות חדשות של זיהוי דיבור בארגונים.
ברור לנו,
שהעתיד של המחשוב הארגוני נמצא בטכנולוגיות ה-AI ולכן אנו בדרך לכיוון הזה, עם שלל פתרונות הנמצאים כעת בפיתוח".
ענבר מוסרי, (בתמונה מ
שמאל), מעבדות המחקר,
גוגל ישראל: "אנו מאוד חזקים ומתקדמים בתחום זיהוי דיבור ותחום המו"פ, שאני עוסקת בו בישראל, הוא פיתוח יכול זיהוי הדובר המרכזי כשיש קבוצה של דוברים, למשל במסיבה, באירוע, בישיבה, בכנס, בקוקטייל וכיו"ב.
אנו יכולים כיום לזהות גם קול, שהוא חלק מווידיאו, בזמן אמת, גם כשיש כמה דוברים במקביל. כדי להגיע ליכולות הללו, עבדנו על כ-100 אלף סרטי וידיאו, שהיו לנו,בעיקר מיו-טיוב, ועבדנו על חילוץ הקול שיש בווידיאו, תוך ניקוי הרעשים, כולל רעשי הרקע הקיימים בהקלטה.
כך, אימנו את המערכת שלנו לחבר בין הפנים של הדובר בווידיאו לבין הקול שלו והעיקר: זה להפריד בין הקולות של הדוברים, גם אם הם מדברים בו זמנית.
המערכת הבסיסית נקראת FaceNet והיא
שוחררה למפתחים הרבים העושים בה שימוש. העבודה העיקרית שלנו היא החיבור של
AI ליכולות של זיהוי הדובר והפרדת קול בצורה צלולה ממה שיש מסביבו.
המערכת החדשה שלנו נקראת Looking-to-Listen וניתן לקרוא עליה
בבלוג שלנו כאן, ופרטים טכניים נוספים
נמצאים כאן".
ד"ר
ניקו ברומר, (בתמונה משמאל), ניואנס (
Nuance): "התחום, שבו א
ני עוסק, הוא ניתוח דובר וחילוץ משיחה מיהו הדובר העיקרי.
התחום, שאנו עוסקים בו, נקרא Embedding והוא תחום יחסית חדש בעולם הזיהוי דיבור.
הטכנולוגיה, שאנו מפתחים ודי מקובלת בתעשייה, קרויה X-Vectors.
הצורך בפיתוח הזה נבע מכך, שהמערכות הקיימות של זיהוי דיבור עבדו יפה אחרי הרבה שנות פיתוח, כשיש קול איכותי והקול מועבר ברוחב פס של 16 קילוהרץ לפחות, עם תמונת פנים טובה של הדובר.
אולם במציאות, המערכות הללו לא עבדו, כי במציאות יש המון רעשים בזמן ההקלטה, הרבה הקלטות הן לכל היותר ב-8 קילוהרץ ותמונות הפנים לא תמיד ברורות ולא תמיד עם פנים מלאות.
לכן, הלכנו על שיטה הנקראת Meta Embedding, שעד עתה מוכיחה את עצמה".
ירדן קרני, (בתמונה משמאל), תלמיד מחקר ב-ACLP, מכללת אפקה: "אני ביחד עם
הצוות השותף אתי, עוסק במחקר ופיתוח פתרון לבעיה של תלמידים חרשים וכבדי שמיעה הנמצאים בבתי הספר התיכוניים. על פי נתוני משרד החינוך, יש כיום כ-5 אלף תלמידים בתיכון עם בעיות שמיעה חריפות, שלומדים בכיתות הרגילות, שלא מותאמות ללמידה של חרשים, כמו שיש בבתי ספר יסודיים.
המטרה שלנו: שכל התוכן המושמע בכיתה ע"י המורה, יהיה נגיש ומובן גם לחרשים. התחלנו עם שיעורי היסטוריה וכיום אנו מכסים כבר כ-30% מתכני הלימוד בכיתות, שבהן אנו מתנסים. המערכת שלנו מורידה חומר של משרד החינוך מהאינטרנט, כדי לאמן את הכלים לזיהוי דיבור תוך כדי למידה, להבין את החומר, שהמורה משמיע. הניתוח עולה כטקסט על המחשב הנייד או הטאבלט הנמצא בידי התלמיד החרש. המערכת לומדת את המונחים הנוגעים לשיעור הנלמד תוך כדי הלמידה ולכן היא משתפרת כל הזמן.
בעברית, למילים רבות יש משמעויות שונות, בעיקר בתלות של המילים הללו במשפט הכולל ובקונוטציה, שהמילים הללו נאמרות. ראינו, שיש בעיות כאלו גם בערבית. כך, שהמערכת שלנו בהמשך תוכל לתמוך גם בשיעורים בערבית. אנו מתמודדים עם הרבה בעיות בתחום של הבנת הנאמר בשיעורים בכיתה, כאשר יש לחומר הנלמד משמעויות, שניתן להבין אותן רק בהקשר של החומר הנלמד.
אנו כל הזמן משפרים את הכלים שלנו והמטרה שלנו לפתח API, שיתאימו ללימוד כל מקצוע, במיוחד אנו מתמקדים כעת בלימודי מתמטיקה, שזה אתגר די קשה. נצא עם בטא עובדת עד סוף 2018".
נועם זיו, (בתמונה משמאל), מייסד-מש
ותף ומנכ"ל
Semantic Interfaces: "עדיין הדיוק בזיהוי דיבור לא מספיק גבוה. הזיהוי של עברית במצב עוד יותר גרוע.
אין מספיק פתרונות טובים לזיהוי שפה טבעית ולניתוח המשמעות של המילים, שאדם דובר בשפות השונות. אנשים גם מערבבים בין שפות תוך כדי דיבור.
פיתחנו כמה טקטיקות כדי 'לשבור את תקרת הזכוכית' בתחום זיהוי דיבור והבנת הדיבור, במיוחד בשפה טבעית.
השילוב של הכלים כולל יכולות
AI נותן לנו כיום דיוק של עד 93%, בשילוב של כמה מנועי זיהוי דיבור. בעברית זה קשה יותר ועדיין לא הגענו לרמה הזו ואנו עומדים סביב ה-90% דיוק.
הפתרון שלנו יכול לעבוד גם על מערכות לא מפותחות דוגמת SMS, ועל שיחות, שיש בהן ערבוב של שפות, כי למשל בארה"ב רבים מערבבים מילים בספרדית בתוך האנגלית שלהם, או בישראל מערבבים כמה שפות במשפט אחד, למשל עברית וערבית".
פרופ'
הארווה בורלרד, (בתמונה משמאל), Idiap Research Institute & EPF
L, שוויץ: "יש הרבה באזוורד בשוק שלנו, אבל החזון הוא החשוב וזה העתיד.
העתיד נקרא DNN (ר"ת: Deep Neural Network), תחום הממלא את המחקר והעשייה בתחום, שבו אנו עסקים היום.
ההצלחות היפות במחקרים ובהטמעות הן בתחום ה- DNN + Posteriors וזו השיטה המשיגה את התוצאות הגבוהות ביותר מול כל השיטות המתחרות.
הכיוון שלנו כעת הוא-Deep DNN וזה בשילוב כלי
AI משיג כבר תוצאות טובות".
ד"ר
איבן טאשב, (בתמונה משמאל), מרכז המחקר, מיקרוסופט: "אנו עו
סקים בפתרונות זיהוי דיבור מזה הרבה שנים, למשל ב-2007 יצאנו לשוק עם Ford Sync לרכבי פורד ואחרי כן הכנסנו יכולות זיהוי דיבור לקינקט ולכל סדרת ה-XBOX.
ב-2017 מיקרוסופט החליטה להתרכז בפיתוחים סביב קורטנה (Cortana) עם הרבה שת"פים, למשל, עם הרמן-קרזין. בניית מערכת 'קצה לקצה' היא משימה לא פשוטה, כי יש צורך לפתח מיקרוסופנים רגישים, מערכות ניתוח דיבור בשפה טבעית ועוד.
הבעיה המרכזית, שעדיין אנו מתמודדים עימה, היא זיהוי דיבור, כשהדובר נמצא במרחק של 1 עד 3 מטרים מהמיקרופון או מהמיקרופונים. יש כאן הרבה רעשי רקע והד מהקירות, מהרצפה ומחפצים המצויים מסביב וגם יש ברקע דוברים נוספים, שצריך לנטרל אותם ולזהות מי הדובר המרכזי.
אנו עובדים על שלל פתרונות הכוללים הרבה מוצרים ויישומים, החל ממיקרוסופונים המתכווננים אוטומטית וכלה בשילוב של מיקרוופונים וכלים נוספים רבים. בקינקט, בכל מוצר הצלחנו לבצע ביטול הד במערכת קולטת בסטריאו, משימה, שנחשבה בלתי אפשרית עד לאחרונה. אנו מתמקדים בפתרונות של מערך מקרופונים כדי להגיע לתוצאה טובה.
בקינקט יש כיום
4 מיקרופונים. כך, שניתן לזהות את הכיוון של קולו של הדובר. הבעיה שלנו היא לנתח ולהבין הכל בתנאים לא פשוטים. לכן, אנו משתמשים בטכנולוגית רבות דוגמת Beam Forming והוספנו לאחרונה למערכת שלנו יכולות של
ML (ר"ת: Machine Learning), כדי להגיע לתוצאה טובה יותר, כולל ביטול רעשי הרקע.
כיום, אנו משפרים את כל המערכות הוותיקות שלנו כדי לספק בהן יכולות של זיהוי קול משופר, במיוחד קול המגיע מדובר מרוחק. אנו מפעילים כמה מיקרופונים כדי להגיע לניתוחים מתקדמים של הקול כדי לספק את המענה הנכון למשתמשי הקצה".
פרופ'
שרון גנות, (בתמונה משמאל), הפק
ולטה להנדסה, אוניברסיטת בר-אילן: "אנו עוסקים בזיהוי מיקום של הדובר ממידע המגיע מכמה מיקרופונים.
יש לזה הרבה שימושים. למשל, בתחומי ניווט, אבטחה, מעקב מצלמות, מעקב אישי ועוד.
פיתחנו מודל לניבוי המיקום על בסיס המידע הנשלף מהמיקרופונים.
פיתחנו פתרון גם למקרה, שיש צורך לזהות את הדובר כשהוא נמצא בתנועה ויש צורך לזהות את מיקומו המדויק בתנועה.
יש הרבה פיתוחים ויישומים סביב היכולות הללו וזה תחום מלהיב הנמצא בתחילת הצמיחה שלו".
בתמונה: צמרת מכללת אפקה, עם המרצים האורחים המרכזיים מחו"ל, שהשתתפו בכנס:
.