זיהוי דיבור – טכנולוגיה בתחילת דרכה, גם אחרי 40 שנות מחקר
מאת:
אבי וייס, 7.7.13, 00:30
חשיפת המכשלות והטכנולוגיות בדרך לזיהוי דיבור מושלם בכל שפה ובכל מבטא. המוח האנושי עדיין טוב יותר מכל מכונה המזהה דיבור: רשמים מהכנס הבינלאומי Speech Processing 2013.
הכנס המקצועי היחיד בישראל לתחום זיהוי דיבור בפקולטה להנדסת חשמל במכללת אפקה להנדסה נערך בימים 1-2/07/13. היה זה הכנס השנתי הבינלאומי השלישי לתחום זיהוי הדיבור (
Speech Processing 2013) בהשתתפות מאות מרצים, חוקרים, מומחים מהתעשייה וסטודנטים מכל רחבי העולם. ראיון בלעדי עם יוזם הכנס, פרופ'
עמי מויאל כבר פורסם -
כאן.
פרופ'
מוטי סוקולוב, נשיא מכללת אפקה להנדסה: "אנו שמחים לארח כאן את פרופ'
לורנס רבינר הנחשב ל'אבי' תחום זיהוי הדיבור בעולם, ואת פרופ'
צין-יו לי הנחשב למומחה עולמי מוביל בתחום, וכן את כל שאר המומחים, שהגיעו אלינו מרחבי תבל. אנו, כמכללה מובילה בתחומים טכנולוגיים רבים, כשזיהוי הדיבור הוא רק אחד מהשטחים בהם אנו מובילים, גאים לארח כאן כנסים מקצועיים לדיון בנושאים הכי חמים על סדר היום של התעשייה".
זאב אלדמן, מנהל תחום המחשוב ומחקרי התוכנה, המדען הראשי, משרד הכלכלה: "אני מנהל, בין היתר, את תחום ההשקעות והמחקר בטכנולוגיות מתקדמות במדען הראשי, השקעות שנועדו לקדם את השגשוג הכלכלי של מדינת ישראל.
לפני כ- 30 שנה פנו אלינו שתי חברות ובקשו תמיכה בתחום בו אנו עוסקים היום. אחת ביקשה תמיכה בזיהוי דיבור לתא הטייס והשנייה לנושא דומה בתחום הצבאי. ניסינו לעזור להן בכלים, שהיו לנו אז. אולם, הראשונה כבר נעלמה מהמפה ולא קיימת, כי לא היו בה אנשי אקדמיה. גם השנייה כחברה נעלמה, אבל הייזמים שלה שינו כיוון והחליטו לעבור לתחום יותר רווחי והקימו את קבוצת
DSP. זו חברה, שקמה על בסיס חברת
CallTalk שנעלמה.
DSP היא חברה ישראלית מאוד מצליחה עד היום. הסיבה: יש בה אנשי מחקר ואקדמיה.
מאז, תמכנו בחברות לא מעטות בתחום זיהוי הדיבור. אבל, ההצלחות היו מועטות. נראה שהמקום שבו הטכנולוגיה הצליחה בו, היה במקום שבו השימוש הצליח לעקוף את המגבלות והמכשלות של הטכנולוגיה. יש לנו כמה דוגמאות מוצלחות בישראל, למשל: נייס וורינט.
בנוסף, אם נסתכל על ניואנס, היא רכשה כמות נכבדה של חברות ישראליות מוצלחות (יחסית), שהיום הן חלק בלתי נפרד מניואנס.
גם כיום יש כמות לא קטנה של חברות המקבלות תמיכה מהמדען הראשי בתחום הזה. המגמה המובילה כיום בפיתוחים היא ביישום ממשק משתמש יותר חכם, במיוחד למכשירים החדשים והניידים. זה אתגר גדול למפתחים.
לאקדמיה יש חשיבות רבה בקידום התחום. הפיתוחים בשוק מובלים ע"י האקדמיה, בגלל שמדובר בתחום מובהק המתפתח תוך כדי מחקר. אנו מטפחים את הקשר בין העולם האקדמי לבין התעשייה בכמה תוכניות כמו: מגנ"ט ומגנ"טון. יש לנו עוד תוכניות משותפות לאקדמיה ולתעשייה. אני מאמין, שהאקדמיה יכולה להוביל את התעשייה להגיע להישגים גם בתחום הזה".
פרופ'
עמי מויאל, יו"ר הכנס וראש המכון לעיבוד שפה, המכללה האקדמית להנדסה אפקה: "אני שמח לראות, שאנו מהווים את מקום המפגש השנתי הישראלי והעולמי לתחום פיתוח זיהוי הדיבור. בשנה שעברה הדגש בכנס היה על ה-
Siri של אפל. השנה ניתן דגש לתחומים אחרים, דוגמת ממשק המשתמש ואבטחת הזיהוי הקולי.
אספנו כאן במאמץ רב את מיטב המומחים בעולם, להציג את הפיתוחים הכי חדישים בעולם. נציג גם פיתוחים של סטודנטים שלנו במכללה.
השנה נפתחו 5 קבוצות עבודה המשלבות בין המומחים מהתחום באקדמיה לבין מומחים ומפתחים מהתעשייה. אנו נאפשר לקבוצות ממוקדות לדון בנושאים המשיקים בין האקדמיה לתעשייה ונקווה להפרות את הדו-שיח בין האקדמיה לתעשייה בצורה כזו.
אנו באפקה ממשיכים לגדול. כיום אנו כמעט 20 איש בתחום זיהוי הדיבור, מהם 14 חוקרים – אנשי סגל, שמהם 7 הם בוגרים של מכללת אפקה ויש לנו 4 סטודנטים למחקר לתואר שני. בנוסף, אנו משתתפים בפרויקטים כמו מגנ"טון של המדען הראשי ומבצעים שת"פים רבים עם התעשייה, כולל עם מפא"ת (משרד הביטחון) וחוקרים מאוניברסיטאות אחרות בארץ ובעולם. יש כיום התעניינות רבה בתעשייה בתחום האבטחה ובתחומי השימושים של זיהוי דיבור. נכנסנו לפרויקט של
DARPA (רפא"ל של ממשלת ארה"ב). זה היה ניסיון ראשון שלנו עם
DARPA ונמשיך בו גם בשנה הבאה. אני מודה לכל התורמים, נותני החסויות והמסייעים להגשמת האירוע המקצועי הזה במכללה".
מגמות חדשות בעולם זיהוי הדיבור
פרופ'
צין-יו לי, בי"ס להנדסת חשמל ומחשבים, הטכניון של ג'ורג'יה, אטלנטה ארה"ב: "בעשור האחרון אני עוסק רוב הזמן בתחום אחד חדש, שנדמה לי שכבר עומד להבשיל לפתרונות. פעם חשבו, שמדובר בתחום, שיהיו בו מיליארדי דולרים הכנסות שנתי. אולם, זה טרם קרה. יש עדיין הרבה מה לעשות, במיוחד באקדמיה, כדי לחקור ולקדם את תחום זיהוי הדיבור.
בפיתוחים שלי אני עובד בשת"פ עם כמה חוקרים ובראשם פרופ' סינסיקטצ'י ועם אחרים. התחום המרכזי בו אנו עובדים נקרא
ASAT =
Automated Speech Attributes Transcription. יש כבר יישומים של
ASAT בשוק העולמי. זה תחום מבטיח.
הדיוק של זיהוי הדיבור עולה משנות ה- 70, במשך כ- 40 שנות מחקר, ורק כיום הוא מתקרב אולי ליכולת ההבנה האנושית. הייתה בעשור הקודם האטה בהתפתחות, למרות הכנסת מודלים מתמטיים ומערכות חישוביות חזקות לטיפול בתחום. השיפורים בדיוק היו קטנים מהצפוי. ב-שנת 2010 חזרנו לבסיס של מדע זיהוי הקול, חזרנו לתחום ה-
Signal processing. זה התחום המביא את ההתקדמות.
יש כיום שתי מערכות המובילות את השוק: המערכת של
IBM והדרגון של ניואנס. החברות המצליחות ביותר בעולם הן לדעתי ניואנס ו-
SpeechWorks. יש הצלחות מסוימות בעולם התוכן של המכוניות, למשל
GM עם ה-
OnStar וגם בפורד. אלו מערכות
Telematics המשתלבות עם המכונית. זה בתחילת הדרך ועם ניסיון מוגבל אך די מוצלח.
הרצון של
Bell Labs בארה"ב, שהחלו לפתח את התחום הזה לפני כמה עשורים, היה להביא לפתרונות בתחום זיהוי הקול בעולם התקשורת. הם עדיין לא הגיעו להצלחה גדולה, בעיקר בגלל התלות בשפה. היישום העיקרי, שמצליח כיום, הוא בתחום מרכזי השירות.
הבסיס לרוב הפתרונות הם בסיסי נתונים ענקיים, שמנותחים בכלים מתמטיים. יש בכך מכשלות רבות. לעיתים יש בעיה במבטא, לעיתים ברעשי הרקע, לעיתים רעשים במערכת עצמה. כך יוצא, ש-
Siri עצמה לא מבינה מבטאים שונים. יש דיוק לא רע בכמה שפות: באנגלית, מנדרינית וערבית. מעט פחות בספרדית. לשאר השפות - אין עדיין תשובה טובה.
כיום, נכנסנו לעולם ה-
Big-Data. זאת, בגלל השונות הרבה של המידע הנצבר בתחום זה. אנו בשלבי זיהוי גבולות הגזרה והפרמטרים של התחום. אנו חוזרים לבסיס של 'חוק שנון' בתקשורת. זה דומה לחוק של
Baye עם תהליך העיבוד של
Markov.
מכאן אנו מגיעים ל-
HMM =
Hidden Markov Model. זה המודל המצליח ביותר עד כה לזיהוי דיבור. למודל המוכר של
ASR, שיש בתעשייה, יש מגבלות והראשונה בהן היא, שהחיפוש נעשה מלמעלה למטה. בעיה שנייה היא הרגישות לתנאי השיחה. אם המיקרופון טוב, יש סביבה שקטה בעת הדיבור ודובר מדבר במבטא מקורי של השפה, אזי הזיהוי דיבור הוא די טוב.
אבל, במציאות יש מעט אנשים כאלה ומעט מצבים כאלה. הרוב הם
Non-Native, מדברים בטלפון עם תנאי רעש סביבם וגם בקו ערוץ הדיבור. הבעיה השלישית והחמורה מכל היא הפירוש לא נכון של המילים. המחשב מנסה לנחש את המילים, בהיעדר מספיק מידע, כדי ליצור רצף שיחה. זה עובד רע בשיחה חופשית. בשיחה מובנית וסגורה זה יותר מוצלח.
לבני אדם יש יכולת להבין שפה עם הרבה פחות שגיאות. הגישה של מוח האדם עובדת מלמטה למעלה, בדיוק הפוך לצורת הניתוח, שיש כיום במחשב. לכן, למחשב יש עד פי 100 יותר שגיאות מאשר לניתוח של מוח האדם.
בפתרונות הקיימים היום בשוק אחוז השגיאה נע בין 4% ל- 70%, תלוי בתנאי השיחה והפיענוח שלה. זה רחוק מלהשביע רצון.
לכן, עלינו ללמוד מה המוח עושה, כדי להבין שיחה בכל מבטא ולראות איך מיישמים זאת במחשבים. יש חסמי כניסה רבים לתחום וסטודנטים, שרוצים לעשות דוקטורט, מתקשים להשיג הישגים משמעותיים בתחום זה. הכיוון, שאני מאמין בו, הוא ניתוח מהתחתית למעלה (
Bottom-Up) של תכונות –
Attributes. המערכת, שאנו מפתחים, מצויה בעולם ה-
ASAT. זה בסיס היכול להצליח בכל סוג של שיחה ובכל מכשיר קצה.
ההשקעה הגדולה ביותר כיום היא בשיפור זיהוי התכונות –
Attributes. הצלחנו עד כה להוריד את השגיאות ב- 30% וזה הרבה. אולם, עדיין עבודה רבה לפנינו. החלום שלי הוא ליצור מערכת אחת, שתתאים לכל השפות. מנוע אחד לכל. זה עדיין רחוק, אבל אני מקווה, שעוד בחיי אוכל להגשים את החלום הזה".
בתמונה (מימין): פרופ' צין-יו לי, פרופ' לורנס רבינר ופרופ' עמי מויאל