הבעיה עם סינתוז קול - קרוסלה

קרוסלה

מסתובבת עם תוכן תורני, דיגיטלי, ליברלי, חברתי, פוליטי ועיוני

הבעיה עם סינתוז קול

יש לנו בעיה קשה עם סינתוז קול דיגיטלי, כלומר שהמחשב ידבר בקול שלי, או במונח המקצועי TTS. עוד לפני שנדרוש מהמחשב לדבר בקול זה או אחר, אנחנו רוצים שהוא ידבר עם רגשות, וכיום המקסימום שהפיקו מהמחשב זו הקראה מונוטונית של "זכית בפיס" או "יצאת חיובי לקורונה" בדיוק כמו "בעוד מאה מטרים פנה ימינה"…

ותהיתי אם אפשר לתקוף את זה בכלל מהכיוון המכני: מכונה שמדמה את מערכת הדיבור האנושי – אויר שעובר דרך "מיתרי הקול", תוך השפעה של הלשון, שפתיים והאף. מה שיאפשר לכאורה הרבה יותר גמישות בחיקוי של דיבור האדם. כי למעשה כיום, הקולות המסונתזים דיגיטלית מבוססים על "למידה עמוקה" שזה אומר לאמן את המחשב על אלפי שעות דיבור. ומי מסוגל לספק אלפי שעות מוקלטות? בעיקר הקראות מונוטוניות, ואולי מוקדי שירות לקוחות… ונכון לעכשיו, זה עובד בעיקר בשפות פופולריות, ובסגנון "בעוד מאה מטרים פנה ימינה", אין רגש, שמחה או עצב, אין דרמה או כעס. רובוטי.

לעומת זאת, אם מפענחים את התנועות הנדרשות כדי להפיק קול אדם ממערכת מכנית, כל העולם פתוח, לחיקוי כל קול בכל שפה וכל טון.

מדובר באתגר אדיר כי מערכת הדיבור היא מורכבת ביותר (ולכן נדיר למצוא שני אנשים בעלי קול זהה), ואפילו אחרי השקעה כבדה בפענוח המערכת זה לא יביא תוצר דיגיטלי שמאפשר לסנתז בלייב ללא הגבלה, אבל עדיין מדובר בעולם עשיר ויתרון אדיר על הסנתוז הדיגיטלי.

הנחתי שנעשו עבודות בתחום, אבל כל מה שמצאתי זה סרטונים ישנים של נסיונות עלובים (מבחינת התוצאה) לייצר מערכת כזו. אז נישאר בינתיים עם הקולות המונוטוניים שמצטיינים בקריאה משעממת. ואני מדמיין את הקול המשעמם של הווייז "דרך ללא מוצא לפניך"…