זיהוי קולי בסמארטפון, בבית ובעסק - המהפכה הקולית כבר כאן
מאת:
מיכאל פנחס, 17.4.19, 12:09
אילו יישומים ושירותים מופעלים ב"זיהוי קולי"? איך משיגים חיסכון בהוצאות העסק ע"י מעבר ל"זיהוי קולי" נייד? היתרונות באימוץ טכנולוגיות זיהוי קולי לשיפור ולייעול חוויית הלקוחות, העובדים והמשתמשים, עם תמיכה בכל סוגי הסמארטפונים ומוצרי קצה מכל הסוגים.
היכולות של
זיהוי קולי (ובמקביל מערכות העונות בקול אנושי לפונה), הפכו ללהיט. כיום, רבים משתמשים ביכולות זיהוי בסמארטפון שלהם, החל מסירי (
Siri) - יכולת המצויה בכל המכשירים של אפל וכלה באיתור כתובת ב-
Waze. התחום החדש הזה מכונה בשם:
Personal Assistant ("עוזרת אישית").
לאחר שנים של הימנעות מלענות על השאלה בדבר היקף המכירות של
Alexa, פתרון הזיהוי הקולי (והגאדג'טים) של חברת הענק אמזון, נחשף בתחילת ינואר 2019 מספר המכשירים, שנמכרו עד אז, כולל אלה בהם אלכסה מובנית, מכשירים, שלא יוצרו ע"י אמזון, אך אלכסה נמצאת בהם כמו סמארטפונים - למשל הסמארטפון
LG V35, או רמקולים - למשל
Sonos One, וזה בהחלט מספר גדול מאוד - יותר מ-100 מיליון מכשירים. לא פורטה החלוקה לפי סוגים, כמו ,למשל, מכשירי
Echo Dot. זה בהחלט מספר מרשים ביותר, לטכנולוגיה, שלא הייתה מוכרת לציבור אך לפני מספר שנים.
אלכסה אינה יחידה בשוק הזה. מלבד אלכסה יש עוד 4 מערכות מתחרות מובילות, שנמכרות בהיקפים של עשרות מיליוני יחידות בשנה במספרים הולכים וגדלים (גם בישראל):
- Google Assistance. פלטפורמה לזיהוי קולי מתקדמת, עם יכולת שהוטמעה במוצרים רבים, כולל מוצרי חברת הבת של גוגל בשם Nest.
- Siri (או Hey Siri), פתרון מבית אפל המוטמע כמעט בכל קווי המוצרים של אפל.
- Cortana מבית מיקרוסופט. המערכת מוטמעת במוצרים רבים כולל מחשבים ניידים, אוזניות ומערכות Call Center (מוקדי שירות לקוחות).
- Bixby מבית סמסונג. מערכת המוטמעת במוצרי סמסונג היותר חדישים ושל חברות העובדות עם פתרונות של סמסונג.
בתחום מערכות הזיהוי הקולי לעסקים וארגונים מי שמובילות את השוק הזה בעולם הן החברות:
Nuance, מיקרוסופט ו-
IBM ובישראל: חברת אודיוקודס.
תשובות קצרות לשאלות נפוצות:
1. למה "זיהוי קולי" הפך רק כעת שירות מצליח?
משום שמדובר בתחום מאוד קשה ליישום הדורש כוח עיבוד מחשוב ברמה גבוהה (בעיקר בגלל ההבדלים בדיבור בין בני אדם, באין סוף שפות וניבים וצורות ביטוי שונות שיש לבני אדם). התחום הזה התפתח ב-20 שנה האחרונות במקביל להתפתחות עולם המחשוב.
לא ניתן להשוות את החוויה של השימוש ב"זיהוי קולי" לפני 10 או 20 שנה לאחור, למול החוויה של היום, שהיא הרבה יותר מדויקת: עוברת את קו ה-95% דיוק. חוויית המשתמש היא הרבה יותר טובה, גם המערכת מבינה אותך והיא גם עונה לך במהירות ובדייקנות, שלא הייתה בעבר.
כיום, שירות "זיהוי קולי" נשמע בדומה לקול אנושי, עד כי לא ניתן להבחין, שאתה מדבר עם מכונה ולא עם אדם חי. לא קיים יותר הקול המתכתי המנוכר והקופצני של העבר, עם זמן תגובה ארוך והמון שגיאות. כש-
Siri יצאה לשוק בפעם הראשונה, היא הבינה אנגלית רק במבטא מאוד מסוים של תושבי ניו-יורק הלבנים - הוותיקים, כי זה מה שהמפתחים הצליחו לפתח בזמנו. כיום, סירי מבינה ועונה בשפות רבות וניבים רבים והמגבלה הזו כבר לא קיימת.
2. איך השיגעון הזה ל"זיהוי קולי" החל ומי מפתח ועוסק בו?
הפתרון הטכנולוגי שמכונה בשם
Personal Assistance לא החל עם אמזון. למעשה, הוא פרץ לתודעה הציבורית עם תחילת שירותי
Siri באפל, כשהכריזה על אייפון
4s באוקטובר 2011.
מאז, נכנסו לשוק אפליקציות רבות היכולות להיכנס למשבצת של
Personal Assistance. למשל, הפתרון בשם
Google Home (שהוא המשך של יישום קודם של גוגל בשם
Google Assistant), שהושק בנובמבר 2016.
עד 2016, בשוק העולמי של פתרונות תקשורת בקול היו הפתרונות העיקריים הבאים:
Apple's Siri, Microsoft's Cortana, Google Assistant, ו-
Samsung's Viv שהוחלף ל-
Samsung Bixby.
אולם, ההצלחה של פתרונות אלה הייתה עד 2016 ממש זעירה ושולית. מידי שנה נמכרו רק כמה עשרות אלפי עד כמה מיליונים בודדים של יחידות מוצרי "עוזרת אישית".
הפריצה הגדולה של התחום להמונים הייתה ב-2016, כשאמזון הציגה את
Alexa בתצורה של
Amazon Echo, מכשיר קטן ובמחיר אפסי המופעל בענן ומוטמע במוצרי קצה מאוד קטנים, יפים וזולים מאוד, עם יכולות כמעט אין סופיות. מולה יצאה גוגל בפתרונות של חברת הבת שלה
Nest, שתואמת לקו מוצרי
Google Home של גוגל.
המערכת בענן של אמזון יכולה לבצע כל דבר, שמישהו מעוניין לפתח לכל צורך אנושי ועסקי. צריך רק להיות בתאימות למכשיר דרך רשת האינטרנט או בחיבור ישיר (דרך רשת ה-
WiFi). היתרון של הפתרון של אמזון: הוא זמין כל הזמן לכל פקודה קולית, אין צורך להפעיל דבר, רק לדבר אל המכשיר כשהמילה הראשונה חייבת להיות אלכסה -
Alexa, כדי שהמכשיר יגיב.
נוצרה כאן תעשייה חדשה הכוללת הכל, החל ממוצרי חומרה תואמים וכלה באפליקציות תואמות. מאות רבות של חברות כבר מפתחות ומשווקות מוצרים תואמים, לכל מטרה, שאפשר להעלות על הדעת.
במקביל, מתפתחת תעשייה מאוד מתקדמת של תוכנות, החל מתוכנות של
AI (ר"ת:
Artificial Intelligence) – בינה מלאכותית וכלה ביישומונים קטנים המבצעים פקודה אחת, לפי הוראה בקולו של המשתמש. המטרה של כל האפליקציות: לספק חוויית שימוש למחזיקים בחומרה. בלי זה אין כל ערך לחומרה.
פותחו לאלכסה מאות אלפי יישומונים במאות תחומים, שמבצעים אין סוף של הוראות ומספקים אין סוף של מידע ושימושים. קל מאוד לפתח אפליקציות \ יישומונים לאלכסה, זה סוד הפיתוחים המהירים. כך, במהלך 2018 נכנסו מספר לא קטן של מתחרים בתחום זה (מלבד אמזון וגוגל), ובכלל זה מיקרוסופט, סמסונג,
LG, אפל ועוד. רשתות חברתיות מתחברות לטרנד הזה כבר כעת. כך, שהשימוש ברשתות חברתיות ייעשה גם כן בקול. הרכבים האוטונומיים שהחלו לצאת לשוק העולמי, מכילים בתוכם כבר יכולות זיהוי קולי המובנות ברכב. היכולות הללו כבר נכנסו גם לרכבים רגילים, כולל רכבים עממיים.
התחום הזה חודר לכל פינה. דוגמה בולטת: מדפסות אפסון שבקו ה-
EcoTank המאוד פופולרי (גם בישראל), מספקות הדפסה באמצעות הוראות קוליות של המשתמש במדפסת. לא צריך ללחוץ על שום מקש במדפסת ושום קליק של עכבר או מקלדת במחשב, כדי לתפעל את המדפסות הללו של אפסון. המדפסות תומכות ביכולת של
עוזרת אישית חכמה (
Personal Assistance), מבוסס מערכת אלכסה של אמזון והתוצאה: אפשרות לתת למדפסת הוראות הדפסה קוליות ולקבל משוב בקול - מהמדפסת.
החידוש אולי הכי מגניב (כרגע בארה"ב ויחל בקרוב בעוד כמה ארצות בעולם, יגיע אלינו בהמשך השנה הבאה), הוא פיצ'ר חדש במערכת ה-
Personal Assistance של גוגל. חברת גוגל החלה לתת למשתמשים אמתיים לבדוק את ה-
Google Duplex היכול להתקשר במקומכם למסעדות ולמספרות, ולמשל, לקבוע תורים בשמכם. זו מערכת מבוססת
AI (בינה מלאכותית), שניתן באמצעותה לקבוע תורים ע"י בקשה מהעוזרת הקולית של גוגל, והיא זו שעושה את השיחה בשבילכם, במקומכם. איך זה עובד?
מאוד פשוט. כל שעל המשתמש לעשות הוא לבקש מהעוזרת הקולית להזמין מקום למסעדה ביום ובשעה, שהוא מעוניין, ולציין כמה מקומות הוא מזמין. העוזרת הקולית מתקשרת בעצמה בטלפון למסעדה, ומנהלת שיחה בזמן אמת עם הנציג האנושי של המסעדה
. גוגל החליטה, שהמערכת תזדהה בתחילת השיחה כמערכת ממוחשבת, כדי שאף אחד לא יטעה לחשוב, שהוא מדבר עם בן אנוש, בעוד הוא מדבר עם מחשב.
3. האם "זיהוי קולי" נכנס גם לעולם העסקי?
בהחלט. בתחום העסקי, שנת 2016 הייתה שנת "הפריצה הגדולה" ותחילת יישום צ'אטבוטים בעסקים ברחבי העולם ושנת 2017 הייתה השנה בה התופעה הזו התפשטה לכל רבדי השוק (גם בישראל).
פתרונות "זיהוי קולי" נכנסו לכל תחום, כולל תחום הרפואה. אחד הפתרונות הנפוצים ביותר הוא הצ'אטבוטים עם זיהוי קולי ופתרונות של ניתוב שיחות (המחליפים את הפתרונות הישנים והמעצבנים של
IVR).
הצ'אטבוטים הורסים כל תפיסת עולם קיימת של קשר עם לקוחות, כי ניתן לפתח בוטים לכל מטרה, במהירות, בזול ולהטמיע אותם במהירות. זאת, כי מדובר בשירות ענן המופעל בקלות על הסמארטפון של המשתמש. כל מי שיודע לפתח אפליקציות סלולר יכול לפתח בוטים בקלות ובמהירות, ולענות לכל צורך עסקי. בהמשך, תוך שנה עד 3 שנים, כל הצ'אטבוטים יהפכו לאפליקציות המופעלות בקול, מבוססות על זיהוי קולי.
הקשר עם מוקדי שירות לקוחות יבוסס תוך מספר שנים קצר בעיקר על צ'אטבוטים ובוטים (ורובוטים), שיודעים להבין אותן ולדבר אתך בשפה טבעית, כאילו הם היו בני אדם אמתיים.
4. מה היתרונות של שירותי תקשורת משולבים בקול עם "זיהוי קולי" בגישת ה-Personal Assistance ולאן התחום הזה מתפתח?
- הגישה ידידותית למשתמש ומספקת מגוון רב יותר של שליטה עם "חוויית שימוש".
- אין צורך באפליקציות מיוחדות (מהסגנון המוכר לנו בעשורים האחרונים) על הסמארטפון או המחשב. הכל מבוצע בקולו של המשתמש, שמדבר עם אלכסה, או כל פתרון זיהוי קולי מתחרה.
- יכולת רכישה של מוצרים ושירותים בפקודה קולית אחת.
- יכולת הפעלה של מוצרים ושירותים בפקודה קולית אחת, בלי לגעת פיזית במכשירים. למשל, להדליק או לכבות חשמל, לפתוח או לסגור תריס, להדליק או לכבות מזגן, להתניע או לכבות רכב, להפעיל טלוויזיה או רדיו, וכך הלאה. כל פעולה אנושית מוכרת יכולה לקבל מענה בפקודה קולית דרך אלכסה, או מי מהמערכות המתחרות.
- יכולת חיבור קלה לכל מוצר תואם, עם יכולת להפעיל אין סוף של מוצרים תואמים דרך מכשיר אחד.
- מתן מענה לצרכים של כל אחד בכל תחום.
- עלות אפסית מול תמורה מידית.
היתרונות של המעבר לפקודות קוליות, שרצות מעל לרשת האינטרנט, הן עצומות והתחום הזה יצמח בצורה חזקה בשנים הקרובות.
שוק
זיהוי הדיבור העולמי נמצא בצמיחה מואצת ומדהימה בכל רחבי העולם, מ-941 מיליון דולרים מכירות ב-2017 השוק הזה יגיע לכ-2.2 מיליארד דולרים ב-2022, גידול ממוצע של 18.2% בשנה (!). ישראל נמצאת ומובילה גם בתחום הזה.
על פי
Business Insider, 84% מהעסקים בארה"ב ישתמשו תוך שנתיים ביישומיים קולים מבוססי
זיהוי קולי, כמוצר בסיסי ומוביל בקשר שלהם עם הלקוחות, השותפים וגם בתוך הארגונים והעסקים. מדובר במהפכה המתרחשת ממש כעת בעולם המערבי וגם בישראל.
מדובר במעבר מהיר מקשר אנושי לקשר מבוסס יכולות מתקדמות של מערכות המחשוב המצויות בשוק, יכולות הנמצאות בענן (כלומר ב-
Data Center של ספק שירותי ענן הנמצא אי שם בארץ או בעולם) והעסק מאמץ יכולות כאלו לעצמו די בקלות, כדי להתקדם, להתייעל וגם לחסוך בהוצאות.
זאת, משום שאחת ההוצאות הכבדות ביותר בעסקים ובארגונים היא אנשי תמיכה ומוקד, שעולים בישראל כ-165 אלף ₪ לשנה על כל מוקדן (כולל עלויות ההכשרה של המוקדן אך ללא עלויות הציוד והתשתיות הנדרשות לכל מוקדן). המהפכה הזו התחילה ביצירת מערכות צ'טבוטים והמשיכה למערכות של זיהוי קולי, ניתוב שיחות קולי ורובוטים קוליים והשלב האחרון במהפכה, שכבר החל, הוא רובוטים אנושיים, שמחלפים לגמרי את הצורך באנשים, בתפקידים רבים הכרוכים במגע עם הלקוחות, שותפים, ספקים וגם בתוך העסק עצמו.
כאמור לעיל, אחת השחקניות הבולטות בתחום היא אודיוקודס, שהכריזה לאחרונה על מהלך של הוספת
AI (ר"ת:
Artificial Intelligence) - אינטליגנציה מלאכותית, למערכות
זיהוי דיבור של החברה, ליצירת קו חדש של פתרונות לשוק והוקמה בחברה חטיבה חדשה בשם
Voice.AI, לצורך ההתפתחות המבטיחה הזו. זה חלק מהתפתחות תחום
שירותי התקשורת בענן.
יישומים קוליים מבוססי
AI יכולים לשפר תהליכים פנימיים בתוך הארגון ומול לקוחות העסק, וזה מספק
ROI (החזר השקעה) מהיר ביותר, בכל עסק המאמץ את כיוון ההתפתחות הזה.
דוגמה מוחשית היא השדרוג של מערכת השליטה במזגנים החדשים של חברת אלקטרה, במערכת הנקראת "אלקטרה
Smart". כך, ניתן לשלוט במזגן מכל מקום (דרך רשת הסלולר) ולא רק כשנמצאים בבית או במשרד.
במקום שהמשתמשים יקישו על כפתורים באפליקציה או במכשיר שלט-רחוק כדי לשלוט במזגן, הם פשוט מדברים עם המזגן ונותנים לו פקודות בקולם (ומקבלים משוב בקול) דרך הסמארטפון.
המערכת הזו היא שילוב של עולם ה-
IoT (האינטרנט של החפצים) ומערכות זיהוי קולי, שפותחה ע"י אודיוקודס תחת מערכת
VocaSDK. היתרון במערכת של אלקטרה הוא, שאין צורך בחיבור של הסמארטפון לאינטרנט, כדי שהפקודות הקוליות של המשתמש תעבורנה למזגן, שכן הפקודות הללו יכולות לעבור גם ברשת הקול והמסרונים של ספק הסלולר. ברור, שהחוויה המלאה של השימוש במערכת מושגת בחיבור של הסמארטפון לאינטרנט. יודגש, שהמזגן אמור להיות מחובר כל הזמן לאינטרנט דרך רשת ה-
WiFi הביתית או המשרדית.
תחום זיהוי קולי מזמן יצא מהמשבצת של "
Personal Assistance", שהחלה לפרוץ לתודעה של הציבור בשירות
Siri במכשירי הסמארטפון של אפל. כיום, אפשר למצוא את השירותים הללו בתחומים עסקיים רבים, שמתפתחים כל הזמן, בגלל התחרות, שנפתחה בתחום זה ע"י ענקיות דוגמת אמזון, מיקרוסופט, סמסונג וגוגל.
בעוד מרבית מנועי זיהוי הדיבור הציגו יכולות דיוק של כ-95% כבר לפני כמה שנים, רק לאחרונה (ובעיקר הודות לטכנולוגיות
Machine Learning למיניהן), המנועים הפופולריים עושים דרכם לעבר רמת דיוק של 99%. בכך, הטכנולוגיה הזו קיבלה יכולות להמריא ולהיכנס גם למגזר העסקי והארגוני. השירותים הללו מסופקים בד"כ בגישת שירות ענן.
טיפ
למי שמהסס להיכנס לעולם זיהוי קולי בשירותי ענן, מומלץ להתחיל "בקטן". דהיינו: לבחור מרכזיה של סניף יחסית קטן ולהעביר את השירות של הזיהוי הקולי בה לענן, או לבחור יישום אחד (נניח ניתוב שיחות חכם), שיועבר לקבלת השירות עם זיהוי קולי בענן, כולל במכשירי הסלולר. בחירה בפתרון הנכון דורשת ייעוץ מהמומחים לנושא.
צריך להתחיל בקטן, להתנסות וללמוד איך זה עובד, להפיק לקחים ולהשתפר, עם מבט רחב ומפוקח על המעבר המלא לענן, לאורך ציר זמן של שנה עד שנתיים. זה הכיוון. הטיפ החשוב ביותר כאן הוא: חובה להתנסות בשירותים של ספק שירותי תקשורת מכל הסוגים ובענן, גם אם זה נעשה בקנה מידה מצומצם. ההתנסות בקנה מידה קטן בענן תוכל להוסיף מידע לתהליך קבלת ההחלטות של העסק.
שורה תחתונה בתחום מערכת לזיהוי קולי בעסקים בישראל:
הפתרונות של זיהוי דיבור בענן (ובמיוחד כאלה המבוססים על טכנולוגיות זיהוי דיבור) תוך שימוש בסמארטפונים וניתוב שיחות חכם, זוכים כיום להצלחה רבה בשוק העולמי וגם להתחלה די יפה בישראל. זאת, בגלל ההיקף הרחב של היכולות, שבעל העסק מקבל ביישומים החדשים, שמספקים יתרונות עסקיים ברורים.
השוק של הטלפוניה הניידת רווי מתחרים והכוח מצוי בידי הצרכנים. לכן, אין להסתנוור רק מהמחיר ומהיכולות הטכניות של הספק. מומלץ, בכל מקרה, לדרוש מהספק הסכם
SLA (הסכם רמת שירות).
מאת:
מיכאל פנחס, מהנדס תקשורת, אפריל 2019.
מחבר המדריך
לפתרונות תקשורת ומחשוב ענן ולרכישת
מרכזיות טלפון IP לעסקים