טיים אאוט timeout

לתרגם מחשבית

| מאת: אוניברסיטת חיפה, אילן יבלברג

נמאס לכם מגוגל טרנסלייט? בפרויקט חדש נמצאו דרכים שיכולים לשפר את הביצועים של תוכנות התרגום הממוחשבות

צילום: שאטרסטוק

תוכנות תרגום ממוחשבות הפכו לכלי שימושי כמעט בכל בית, הן מאפשרות תרגום שנע בין סביר לטוב מאוד ואפשר לתרגם בעזרתן שפות רבות. עם זאת, בדרך כלל גם בשפות הקרובות זו לזו יש לא מעט טעויות ואי דיוקים בתרגום, במיוחד כשמדובר במשפטים ארוכים ובנושאים מורכבים.

פרויקט שנערך בחוג למדעי המחשב באוניברסיטת חיפה מצביע על שורה של גילויים חדשים הקשורים לתכונות הלשוניות הייחודיות של טקסט מתורגם, שיכולים לשפר בצורה משמעותית את הביצועים של תוכנות התרגום הממוחשבות. "יש הבדל סטטיסטי בין טקסט שנכתב בשפה כלשהי במקור, לבין טקסט שתורגם משפה אחת לאחרת, לא חשוב כמה מוכשר המתרגם. הקורא האנושי אולי אינו יכול להבחין בהבדלים אלה, אבל המחשב יודע לקרוא הבדלים אלה ב־100 אחוז", אומר פרופ' שולי וינטנר, ראש החוג למדעי המחשב ומי שעומד בראש הפרויקט.

תחילת הניסיונות לפתח תוכנות תרגום ממוחשבות החלו כבר בשנות ה־50 של המאה הקודמת, והן היו מורכבות ממילון דו לשוני גדול ומכמה כללי דקדוק אופייניים לשפות שונות. אולם גישה זו נחלה כישלון מוחלט, עד שבתחילת שנות ה־90 שני מאמרים של חוקרים ב־IBM שינו את הגישה, ומערכות התרגום החלו להתבסס על שני מודלים סטטיסטיים מרכזיים. מודלים אלו למעשה סופרים כמה פעמים צירוף מסוים של מילים חוזר על עצמו בשפה מסוימת. לשם כך, על התוכנה לסרוק כמות עצומה של טקסטים. על פי גישה זו מודל אחד סורק כמות גדולה של טקסטים זהים בשתי שפות, לדוגמה טקסט בעברית והתרגום שלו לאנגלית. מודל זה נקרא מודל תרגום, והוא קובע מה התרגום בעל הסיכוי הסטטיסטי הגבוה ביותר שיתקבל בתרגום של משפט כלשהו מאנגלית לעברית. המודל השני הוא מודל השפה, הוא סורק טקסטים בשפה אחת בלבד וקובע למודל התרגום את הצורה התחבירית בעלת הסיכוי הגבוה ביותר להופיע. תוכנות התרגום משלבות שני מודלים אלה כדי לקבוע מה התרגום המילולי של משפט כלשהו ומהי הדרך הסבירה ביותר שהוא יופיע תחבירית.

ואולם, מהמידע הקיים בחקר השפות מתברר שיש הבדלים גדולים בין טקסטים שנכתבים במקור בשפה כלשהי לבין טקסטים שתורגמו לשפה זו משפה אחרת. במחקר שנערך באוניברסיטת חיפה נמצא כי להבדלים אלה יש השפעה על הדיוק של תוכנות התרגום. "לא חשוב עד כמה טוב ומוצלח המתרגם האנושי, השפה שבה כתוב טקסט כלשהו, 'שפת המקור', משתלטת על 'שפת התרגום'. כנראה שיש תהליכים קוגניטיביים שקורים במהלך תרגום. הקורא האנושי אולי לא יוכל להבחין בין מסמך שנכתב בעברית כשפת מקור לבין טקסט שתורגם לעברית מאנגלית – אבל המחשב יודע לזהות זאת", הסביר פרופ' וינטנר.

בדרך כלל גם בשפות הקרובות זו לזו יש לא מעט טעויות ואי דיוקים בתרגום צילום: שאטרסטוק

בדרך כלל גם בשפות הקרובות זו לזו יש לא מעט טעויות ואי דיוקים בתרגום
צילום: שאטרסטוק

על תרגום וסימני קריאה

במחקרים קודמים שנערכו כחלק מהפרויקט מצא פרופ' וינטנר שבשפות רבות המחשב יודע להבחין אם הטקסט נכתב בשפת המקור או שהוא תורגם, כשההבדלים לא מצויים בעושר השפה או באורך המשפטים, אלא דווקא במקומות בלתי צפויים. "מתברר שטקסט באנגלית שתורגם מגרמנית כולל יותר סימני קריאה. למעשה, טקסט כזה כולל באופן ממוצע פי חמישה יותר סימני קריאה", הסביר.

המחקר החדש, שהתבסס על עבודת הדוקטורט של ד"ר גנדי למברסקי, בהנחייתו של פרופ' וינטנר, חיבר בין ההבדלים שמצאו החוקרים עד כה בתוכנות התרגום הממוחשבות. במחקר נמצא שתוכנות אלה מדייקות הרבה יותר כאשר מודל השפה שלהן סורק טקסטים שתורגמו לשפה הנסרקת – כלומר, תוכנה שסרקה עבור מודל השפה טקסטים בעברית שתורגמו ממקור באנגלית, תרגמה טוב ומדויק יותר מאנגלית לעברית, מאשר תוכנה שסרקה טקסטים שנכתבו במקור בעברית. עוד נמצא במחקר כי כדי שהתוכנה תהיה מדויקת יותר, כיוון התרגום שסורק מודל התרגום צריך להתאים לכיוון שבו רוצים לתרגם – כלומר, כשאנו רוצים לתרגם טקסט מאנגלית לעברית, התוכנה צריכה לסרוק טקסטים שתורגמו מאנגלית לעברית ולא טקסטים שתורגמו מעברית לאנגלית. על ממצאים אלה זכתה לאחרונה עבודת הדוקטורט בפרס העבודה המצטיינת לשנת 2013 של האגודה האירופית לתרגום ממוחשב.

על פי פרופ' וינטנר, בתוך עשר שנים תוכנות התרגום הממוחשבות יצליחו לדייק ברמה כזו שאי אפשר יהיה להבחין שמדובר במחשב. "בשנים האחרונות נזנחה החשיבות של התכונות הלשוניות של השפה, והתחום כולו עבר למודלים סטטיסטיים בלבד. אנחנו הראינו שיש מאפיינים בתכונות הלשוניות שעדיין חשובים – במקרה שלנו, התכונות הלשוניות של תרגום אנושי – ושצריך לנוע לכיוון תוכנה המשלבת בין שני המאפיינים", הוא סיכם.

בואו לעקוב ולדבר איתנו גם בפייסבוק, בטוויטר ובאינסטגרם. עדכונים יומיים על הכתבות הנבחרות בטיים אאוט ניתן לקבל בניוזלטר היומי שלנו

תגובות

Silence is Golden SRV:SRV1 on: 02f33f27ec0a08747416504e