חגיגת 10 שנים לסניף AVIOS (ר"ת: Applied Voice Input Output Society), שנערכה במכון טכנולוגי חולון (HIT), שימשה במה לחשיפת החידושים והטכנולוגיות העתידיות בעולם זיהוי הקול, בנייח ובנייד, שמכנסים המפתחים לכל תחום בחיינו, גם לכלי הרכב ולא רק עבור בעלי מוגבלויות. בנוסף, החלה ההרשמה לתחרות סטודנטים בינלאומית בתחום.
מאת: אבי וייס, 15.9.15, 18:30
חגיגת 10 שנים (
כמפורט כאן) לסניף
AVIOS ישראל, שהתקיימה ב-8.9.15 ב-
HIT, ביוזמתה של ד"ר
נאווה שקד (בתמונה), חברת סגל בפקולטה להנדסה ב-HIT, הייתה הרקע המתאים לחשיפת ההתפתחויות החדשות והטריות בתחום והתכניות של AVIOS לשנה הקרובה.
ד"ר
נאווה שקד: "אני חברת הנהלת AVIOS ויו"ר הסניף הישראלי של הארגון. היום אנו חוגגים עשור לסניף הישראלי. ארגון AVIOS נולד לפני 34 שנים כחלק מתהליך עליית החשיבות של תחום זיהוי הדיבור בתעשייה ובאקדמיה.
המטרה שלנו: לרכז תחת קורת גג אחת את העוסקים בתחום זה מהתעשייה, מהאקדמיה ומעולם הסטארטאפים, כדי לעסוק בהתפתחויות ובחידושים של התחום ולנתח לאן התחום הזה הולך.
ב-2016 ייערך כנס שנתי ענק בארה"ב (
כאן), ב-11-12 לאפריל 2016. לקראת הכנס תיערך
תחרות סטודנטים (מרמת הלומדים בבתי ספר תיכוניים ועד הלומדים לתארים גבוהים), בעיקר לתחום של פיתוחי Multimodality Applications. הרשמה -
כאן.
כאן בישראל, אנו חלק מקהילת ה-StartUp Nation ואנו משלבים, גם במערכת הלימודים ב-HIT, מספר תחומים, כדי להגיע ולהוביל לפתרונות מתקדמים בעולם זיהוי דיבור ושפה, וממשקי אדם-מכונה של המחר. שיחה אנושית עם מחשב או סמארטפון זה כבר לא העתיד אלא ההווה. את העתיד נשמע ממומחים, שהזמנתי לאירוע".
ד"ר
שרה בסון, (בתמונה), א
וונגליסטית נגישות, גוגל: "הגעתי למטה גוגל העולמי בקליפורניה לפני 3 חודשים מ-IBM. אני עוסקת וממונה על תחום הנגישות (Accessibility). המטרה שלי היא, שכל המערכות של גוגל תהיינה נגישות וקלות לתפעול ע"י קהילות המשתמשים
בעלי מוגבלויות.
התחום הזה מאוד חשוב לגוגל ולכן גוגל מספקת כלים בכל המערכות שלה, כלים המותאמים לסוגי המוגבלויות שיש. זה כולל מערכות זיהוי דיבור ודיבור, מערכות המאפשרות תפעול ויחסי אדם-מכונה ומותאמות לצרכים מיוחדים.
גוגל פיתחה טכנולוגיות שונות המופעלות מעל מערכות קיימות. כך,
מפתחים לא צריכים לדאוג לנגישות, כי זה מתלבש על כל אפליקציה. 15% מהאוכלוסייה, לפי הנתונים הקיימים בארה"ב, הם בעלי מוגבלות הדורשת שימוש בכלים הללו. יש מוגבלויות הנובעות מהגיל או מתאונות או ממחלות או ממומים מולדים, ויש גם קשיים זמניים לאנשים מסיבות שונות.
יש כיום חוקים ותקנות רבים סביב נושא הנגישות, כולל תקנים לבניית אתרים. משתמשים יכולים להוסיף כלים משלהם דוגמת הפיכת טקסט מהמסך לקול. יש כיום Screen Readers גם ל
סמארטפונים ולכל סוגי המסכים שאנדרואיד נמצא בהם, כולל מסכי טלוויזיה.
גוגל הכניסה ליוטיוב מערכת, שמוציאה ומציגה (Captioning) את הטקסט הקיים בווידיאו, כולל לעיתים קרובות תרגום לשפת המקום. כל כלי הווידיאו והקול של גוגל כולל Hangout משמשים לצרכי נגישות. לחרשים ניתן לשלב מסך עם כתוביות, שרץ במקביל לדיבור.
כיום עוסקים בגוגל בהרחבת היכולות של 'מיחשוב לביש'. כך, שיוכל לסייע לבעלי מוגבלויות, כולל משקפיים מיוחדים לכבדי ראייה ועוורים, שיש בהם הקראת טקסט של מה שהם מסתכלים עליו.
גוגל משתמשת בזיהוי דיבור לא רק כדי לתקשר עם המחשב, אלא גם כדי לזהות וידיאו באינטרנט. הסוד ליכולת לספק מידע ברמה גבוהה למשתמשים הוא אגירת מידע בכמויות ענקיות אצל גוגל, Big-Data, מידע שניתן לנתח אותו במהירות ולתת מהירות ביצוע של תרגום וידיאו מתמונה לקול, מה שנגיש לבעלי מוגבלויות.
אנו בשלבי בניית אינדקס וידיאו באינטרנט. מדובר במשימה ענקית בגלל כמויות המידע העצומות המועלות כל הזמן לאינטרנט. המטרה שלנו היא, שכל תוכן באינטרנט יהיה זמין לכל שפת דיבור ולכל סוג אוכלוסייה. אנו בדרך לשם".
ד"ר
אוטה וינטר, (בתמונה), מנהל
ת מעבדות (GM (
General Motors ישראל: "אני כבר 6 שנים בתחום מעבדות המו"פ של GM. הסניף הישראלי של GM נפתח כאן בישראל כחלק מהרצון של GM להיות קרובה ל-StartUp Nation. הפיתוחים שלנו הם מוצרים ושירותים, שתראו בשנים הקרובות בכלי הרכב של GM.
הגישה שלנו היא של User Adaptation. כיום, יש כבר מסכי מגע ברכבי GM, שמשמשים למטרות שונות דוגמת: שיחות טלפון, רדיו, מוזיקה, ניווט, משלוח מסרונים, קבלת נתוני מזג אוויר ואפליקציות קול שונות. אולם, אין פרסונליזציה של המערכות הללו.
אנו בדרך למכוניות הנוהגות את עצמן, מה שמספק יותר זמן לנהג, כי כמעט כל המטלות של הנהיגה תהפוכנה לאוטומטיות. לכן, חיפשנו איך להתקדם לפרסונליזציה. פתרונות זיהוי קול של אפל וגוגל, שקיימים בשוק, מתאימים ל
סמארטפונים ולאתרי אינטרנט. זה ממש לא מתאים למכוניות. במכוניות אנו זקוקים לפתרונות מסוג של Multi-Modality, זקוקים לדיוק רב בזיהוי, לפרסונליזציה מלאה, לרמת ביצועים מהירה מאוד, לגמישות בהפעלה ולבטיחות מעל לכל. זה אין במערכות הקיימות.
לכן, אנו מבצעים ניסויים רבים כדי לבחון את דרכי ההתנהגות והשימוש של נהגים ואיך הם מתנהגים באופן טבעי כשהם רוצים שירות מסוים מהמערכת הממוחשבת הקיימת ברכב. ראינו, שרוב המגעים, שפותחו עד היום, לא מתאימים לנהיגה, כי הם גורמים לנהג להסיט את הראש שלו מהמבט אל הכביש למבט אל המערכת. זה לא בטיחותי.
לכן, חיפשנו איך לפתח את המערכת כדי שהיא תתאים את עצמה לנהג ולא כמו היום כאשר המצב הוא, שהנהג צריך להתרגל למערכת. זה דרש לשנות את הטכנולוגיות, שאנו משתמשים בהן במערכות הדיבור במכוניות ולהגיע להתאמה אישית ב-UI מתאים וחדש לגמרי.
אנו מתכוונים להשתמש בהקרנת מידע על מסך הזכוכית שלפני הנהג ולהשתמש ביכולות, שנפתח בענן. נוסיף יכולות למערכות מקומיות, שתוכלנה לפעול בלי קשר לענן. כך, שלמעשה, נפעיל את הגישה ההיברידית של ענן מקומי וענן ציבורי מרוחק. זה יחסוך את הצורך בחיבור רציף לאינטרנט תוך כדי הנסיעה.
המודולים, שאנו מפתחים, נועדו להתאמה אישית. כך, שיוכלו לפעול מקומית גם כאשר הקישור לאינטרנט ניתק. המערכת לומדת את הרצונות של הנהג ומבצעת התאמה כל הזמן של הגישה אליו, כולל גמישות מלאה בדיאלוגים וצורת הקשר עם הנהג, לאור ההתנהגות שלו והצורך המיידי שלו".
שי ניסים, (בתמונה), סמ
נכ"ל מו"פ
ViVotext ומייסד משותף ומנכ"ל
Kinedio: "אנו עוסקים ומפתחים
קולות וירטואליים הנמספקים את
הרגשות האנושיים הקיימות מאחוריהם. זה מאפשר ליצור תוכן קולי חדש מהקלטות של העבר, גם של אנשים, שעברו מזמן מהעולם. זה מאפשר לקול להישאר ניצחי ולספק הבעות אנושיות חדשות בקולו של האדם - לנצח.
הטכנולוגיות של הקול כיום מרוכזות במידע הקיים בקול, בבהירות הדיבור וביכולת פיענוח הדיבור, אך לא עוסקות בכלל ברגשות הקיימות מאחורי הקול. בתקשורת האנושית פנים אל פנים יש לרגשות חשיבות מכרעת, יותר מהדיבור עצמו.
בפיתוח שלנו כרגע אנו מטפלים בקולות, שמיועדים לילדים, כולל קולות של ילדים עצמם או מבוגרים הקוראים ומדברים לילדים, למשל, מקריאים סיפורים או מדברים בדו-שיח אל הילדים. זה יכול להיות מוטמע בממשקים ממותגים ובאפליקציות ממותגות של מי שרוצה לקדם שיווק או פרסומת.
בשנה הקרובה יצא מוצר ראשון לשוק של ViVoText. הפתרון הזה יאפשר לספק תוכן קולי בתוך צעצוע, תוכן המשתנה עם הזמן תוך התאמה אישית לילד המחזיק את הצעצוע. זה יוכל בהמשך לשמש תעשיות רבות, לרבות עולם הפרסום, קריאת ספרים, לצרכי נגישות ועוד.
בתחום הפרסום הקמנו מיזם מקביל בשם Kinedio, שהוא סטארטאפ המתמקד בפיתוחים של ViVoText המכוונים לעולם הפרסום. אנו בשלבי פיתוח של אפליקציות בטכנולוגיות, שפיתחנו ובהמשך זה יתאים לשימושים כלליים, לכל מטרה.
אנו נפתח יכולת כך, שכל אחד יוכל לבנות לעצמו ספריית קול של עצמו תוך יכולת שליטה ברגשות, שהקול שלו מביע. המשתמש יוכל בעתיד בעצמו להפיק תכני קול חדשים, לפי הרגשות, שהוא מעוניין לשדר לזה השומע את קולו".
בתמונה (מימין): ד"ר אוטה וינטר, שי ניסים וד"ר שרה בסון: