This post is also available in:
צוות מחקר ממעבדת מערכות מידע והחלטה (LIDS) של MIT פיתח שיטה חדשה להערכת ושיפור הדיוק של מערכות סיווג טקסט מבוססות בינה מלאכותית — טכנולוגיות שממלאות תפקיד הולך וגדל בסינון תוכן מקוון, תגובות צ’אטבוטים, ושירותים דיגיטליים במגזרים רבים.
מערכות סיווג אלה הן אלגוריתמים שמאומנים לקטלג טקסט — למשל: לאתר מידע שגוי, להבחין בין ביקורות מוצרים, או לזהות ייעוץ פיננסי בתוך תגובות של צ’אטבוטים. עם השימוש ההולך וגובר במודלי שפה בתחומים רגישים כמו בריאות, בנקאות ושירות לקוחות, הפכה הבטחת האמינות של סיווגי הטקסט לאתגר מרכזי.
על פי TechXplore, החוקרים מ-MIT פיתחו ערכת כלים בת שתי רכיבים שנועדה לבחון ולחזק את מערכות הסיווג. הרכיב הראשון, SP-Attack, מייצר דוגמאות "עוינות"(Adversarial Examples) – משפטים ששונו קלות כך שמשמעותם נותרת זהה, אך הם גורמים למערכת הסיווג להפיק תוצאה שונה. דוגמאות אלו חושפות חולשות בלוגיקה של המערכת. הרכיב השני, SP-Defense, משתמש בדוגמאות העוינות לצורך אימון חוזר של המודל ולשיפור עמידותו בפני שיבוש.
כדי לוודא שהשינויים לא משנים את משמעות המשפטים, השתמשו החוקרים במודלים שפתיים גדולים כדי לאמת את הדמיון הסמנטי בין המשפטים המקוריים והמשוכתבים. התוצאות חשפו כי אפילו שינויים מזעריים — לעיתים מילה בודדת — עלולים להפוך את תוצאת הסיווג. ניתוח נוסף גילה כי פחות מ־0.1% מהמילים באוצר המילים של המערכת אחראיות לחלק משמעותי מהשגיאות, מה שמאפשר למקד את הבדיקות על מילים "בעלות השפעה גבוהה".
בנוסף, המחקר מציג מדד חדש בשם p, המודד את רגישות המודל להתקפות עוינות ברמת המילה. בבדיקות, הכלים שפותחו הצליחו להפחית את שיעורי הצלחת ההתקפות העוינות בכמחצית בהשוואה לשיטות קודמות.
בעוד שטעויות סיווג עשויות להיראות שוליות בהקשרים כמו בידור או חדשות, בתחומים מפוקחים כמו ייעוץ רפואי, שירותים פיננסיים או אבטחת מידע, טעות כזו עלולה להיות קריטית. כאשר מתבצעות מיליארדי אינטראקציות שנוצרות בידי AI מדי יום, גם שיפור קטן ביכולת הסיווג של המערכת עשוי להוביל להשפעה משמעותית.
צוות MIT פרסם את הכלים שפותחו כקוד פתוח, במטרה לתמוך במאמצים רחבים לשיפור בטיחות הבינה המלאכותית ויישומה האחראי.


























