This post is also available in: enEnglish (אנגלית)

17494523_sחוקרים וסטודנטים מאוניברסיטת טקסס פיתחו מערכות חדשות לזיהוי קולות דיבור, גם בתנאים קשים יחסית כמו לחישה, טון דיבור לא אחיד מרוב התרגשות, או אף סתום.

את השיפורים האלה ביכולת לזהות קולות יהיה ניתן לשלב בתחומים כמו כניסה לחשבונות בנק, גישה לחדרים נעולים, תחילת עבודה על מחשבים או אימות קניות ברשת. כך לפי הדיווח ב HLS News Wire.

על פי הפרסומים של האוניברסיטה מדובר בפיתוח של צוות חוקרים מהמרכז למערכות דיבור (CRSS – Center for Robust Systems), שפועל בפקולטה להנדסה ומדעי המחשב. הפתרונות שפיתח הצוות – אלגוריתמים ומודלים מתמטיים – מבוקשים על ידי חוקרים אחרים בתחום עיבוד האותות. הצוות גם זכה בתחרויות בינלאומיות שבחסות הממשל האמריקאי וארגון ה IEEE.

זיהוי קולי עובד באמצעות קבלה או דחייה של אות שמשמעותו קול שמתאים או לא מתאים לאופן הדיבור של אדם מסוים. רעשי רקע או איכות המיקרופון שבו משתמשים יכולים לסבך את ניתוח הקול, וגם מצבים שמשפיעים על הדוברים עצמם כמו הזדקנות או מחלה.

iHLS – Israel Homeland Security

מערכות זיהוי כאלה בדרך כלל מפותחות בסביבה אידיאלית, ללא רעשי רקע או כשהדובר מקבל טקסט שהוכן מראש לקראת ההקלטה.

מכון התקנים האמריקאי (National Institute of Standards and Technology) הציב לאחרונה אתגר ליותר מחמישים אוניברסיטאות, מעבדות מחקר וחברות, והפיץ להן כ-80 מיליון קטעי דיבור עם רעשי רקע – טבעיים ומלאכותיים. על הצוותים שקיבלו את קטעי הדיבור הוטלה המשימה להחליט האם הם הוקלטו על ידי אנשים מסוימים או לא.

אנשי מעבדת ה CRSS מאוניברסיטת טקסס כבר החלו לפתח את הליך הזיהוי עוד קודם לכן, בהסתמך על תוצאות ניסויים ותחרויות קודמים. הצוות פיתח אלגוריתמים שבעזרתם ניתן להמיר גלי קול למידע דיגיטלי ביעילות רבה, אלגוריתמים שהצליחו להתגבר על רעשי רקע וקטעי שקט ואפשרו עיבוד אותות קל יחסית.