המערכת שיכולה להבין דיבור כמעט כמו האדם

חוקרים של חברת מיקרוסופט סיפרו כי הצליחו לשפר את טכנולוגיית הבינה המלאכותית כך שתוכל לתרגם שיחה בין שני דוברי שפות שונות ואף להמיר את השיחה לטקסט • עם זאת, מומחים טוענים כי פענוח שפה טבעית ללא טעויות כלל הוא יעד לא ריאלי

רפאלה גויכמן, themarker
ז' אלול התשע"ז 29.08.17 | 15:06

בשבוע שעבר ציינו חוקרים של חברת מיקרוסופט אבן דרך משמעותית במחקר ובפיתוח של בינה מלאכותית, כשלטענתם, המערכת שפיתחו הצליחה לזהות דיבור בשיעור שגיאות של 5.1% — כלומר, ברמה כמעט אנושית.

בבלוג של החברה פורסם כי החוקרים הצליחו לשפר את הטכנולוגיה כך שתוכל להבין שפה טבעית, לתרגם שיחה בין שני דוברי שפות שונות ואף להמיר את השיחה לטקסט כתוב.

במשך יותר מ–60 שנה תחום זיהוי הקול והשפה נמצא במוקד המחקר והעשייה של ענקיות טכנולוגיה כמו IBM, מיקרוסופט, אפל, אמזון וגוגל. בשנים האחרונות גבר השימוש בעוזרים אישיים אוטומטיים שמגיבים לפקודות קוליות באמצעות סמארטפונים — כמו סירי, גוגל אסיסטנט, ביקסבי וקורטנה — וכן באמצעות טכנולוגיות אחרות, כמו אקו של אמזון, שמופעל באמצעות אלקסה. גם מערכות הכתבה ממוחשבות קיימות זה זמן, אך כדי להעלות את מהימנותן היה צורך להשקיע משאבים רבים.

כיום, הודות לטכנולוגיית למידה עמוקה, יכולות השעתוק של מחשבים כמעט משתוות לאלה של בני אדם, מערכות התרגום הממוחשבות משתפרות במהירות, ומערכות שממירות טקסט לדיבור נשמעות פחות רובוטיות ויותר אנושיות.

מחשבים אמנם הרבה יותר טובים מבעבר בהתמודדות עם שפה טבעית, אבל כדי לקיים שיחה קוהרנטית, עליהם להיות מסוגלים להבין הקשרים — ולא רק לענות לפקודות קוליות פשוטות, כפי שהם עושים כיום. זו השאיפה של מיקרוסופט במערכת שלה.

165 אלף מלים

החוקרים של מיקרוסופט לימדו את המערכת להבין כיצד בני אדם מדברים באופן טבעי, כדי שהיא תוכל להציג תרגום קרוב ככל הניתן למה שנאמר. בנוסף, מנסים החוקרים ללמד את המערכת לזהות לא רק את השפה המקומית — אלא גם את חיתוך הדיבור והביטויים המקומיים, ולתרגם אותם בצורה הטובה ביותר לצד השני. לפי החברה, במשך 20 שנה היא השתמשה בקורפוס של שיחות טלפון שאספה, ובאמצעותו בנתה את המערכת שנקראת Switchboard. החוקרים אימנו מערכת לתמלל שיחות בין כמה אנשים, שכללו נושאים שונים, כמו ספורט ופוליטיקה. בנוסף, אוצר המלים של המערכת הורחב מ–30,500 ל–165 אלף מלים.

למיקרוסופט יש כמה פלטפורמות טכנולוגיות שבזכותן היא נחשפת לשפה טבעית ודרכן היא מנתחת את זיהוי הדיבור ומשפרת אותו. כמה אפליקציות ושירותים שונים משתמשים באותן ספריות — בהן פונקציית התרגום הסימולטני של פאוור פוינט, תרגום השיחה של סקייפ, הבנת הפקודות של קורטנה והכתבה קולית בווינדוס.

תהליך שהתחיל כבר בשנות ה–50

זה 25 שנה שהחברה משקיעה משאבים רבים בתחום זיהוי הקול, ועיקר המחקר שלה נעשה בארה"ב. ערן יריב, מנהל המחקר והפיתוח של קורטנה בישראל במרכז הפיתוח של מיקרוסופט, הסביר ל–TheMarker כי "כבר בשנות ה–50, כשטבעו את המושג אינטליגנציה מלאכותית, התחילו לבדוק אם מחשב יכול להבין שפה. היום אנחנו הרבה מעבר ליכולות האלה. כבר היום אפשר בסקייפ לערוך שיחה בשפה אחת בשעה שבצד השני ישמעו אותה בשפה אחרת".

"בתחום זה יש כמה אבני יסוד, שאחת מהן היא תמלול. נכנס סטרים של אודיו מכל אמצעי הקלטה, ומהצד השני יוצא טקסט", אומר יריב, ומוסיף: "כיום אפשר, למשל, לבצע שיחת טלפון, ובסופה לקבל תמלול מלא שנעשה על ידי המחשב, שמשתווה באיכותו לכזה שנעשה על ידי בני אדם".

על פי תוצאות המחקר האחרון שפירסמה מיקרוסופט, היא הצליחה לשפר ב–12% את יכולותיה של המערכת — שרק לפני שנה הציגה יכולת בשיעור שגיאה של 5.9%. לדברי יריב, "המודלים שנבנים לזיהוי שפה משתכללים מחודש לחודש. השימוש ברשתות ניורונים עמוקות (deep neural networks), בשילוב דגימות חדשות ומגוונות, מניב שיפורים מתמידים". הוא מוסיף כי "בניגוד למערכות שהיו בשימוש לפני כמה חודשים, המערכות הנוכחיות מפיקות ומנתחות מאפיינים מכמה רבדים שונים במקביל: ההברה, המלה הבודדת והחלק התחבירי במשפט".

מטרת החברה היא לספק למשתמשי כל הפלטפורמות שלה את היכולת לנהל שיחה ללא מחסומי שפה. בנוסף, במיקרוסופט שואפים שהמערכת תוכל להאיץ את מהירות ההבנה של המשתמש, ולסייע לו בחלוקת קשב. דוגמה לכך היא במקרה של הרצאה, שבה המשתמש לא הספיק לכתוב במחברתו את כל מה שנאמר — המערכת תהיה מסוגלת לתמלל את ההרצאה בעצמה.

לשאלה אם המערכת תגיע לרמה של אדם באופן מוחלט משיב יריב: "0% טעות זה יעד לא ריאלי. יש יותר מדי גורמים בתהליך שמשפיעים על הדיוק. המטרה היא להגיע ליכולות על־אנושיות במידה מספקת, ולהתרחב לשפות רבות ככל האפשר — כדי להיות מסוגלים לתת שירות איכותי ואמין בכל האפליקציות השונות".

קורטנה מיקרוסופט בינה מלאכותית המרת שיחה לטקסט

'בחדרי' גם ברשתות החברתיות - הצטרפו!

הוספת תגובה

לכתבה זו טרם התפרסמו תגובות

כתבות מומלצות בשבילך

תגובות

הוסיפו תגובה

{{ comment.number }}.

הגב לתגובה זו

טען עוד

חדשות

פוליטי-מדיני

בחצרות קודש

ברנז'ה

עסקים ונדל"ן

מתכונים

משפט ופלילים

רץ ברשת

מומלצים

נשים

דעות

יהדות

מוזיקה

תיירות

מחשבים ואינטרנט

בריאות

רכב ותחבורה

VOD

תוכן מקודם

המערכת שיכולה להבין דיבור כמעט כמו האדם

'בחדרי' גם ברשתות החברתיות - הצטרפו!

כתבות מומלצות בשבילך

תגובות