This post is also available in:
English (אנגלית)
ככל שהביקוש למודלים של בינה מלאכותית ממשיך לעלות, כך גוברת גם החשיבות של נתוני אימון איכותיים. נתונים סינתטיים מציעים חלופה מעשית לסטים של נתונים מהעולם האמיתי, במיוחד בסביבות רגישות או כאלה שקשה לאסוף מהן נתונים, אך לעיתים קרובות הם סובלים מהיעדר בקרת איכות מספקת. מסגרת חדשה, שפותחה על ידי חוקרים מאוניברסיטת פיטסבורג ואוניברסיטת פקין, מציעה מענה לפער הזה באמצעות שיטה להערכת איכות הנתונים הסינתטיים ולשיפור השימושיות שלהם באימון מודלים של בינה מלאכותית.
המחקר, שהוצג בכנס MobiSys 2025 וזכה בפרס המאמר המצטיין, מתמקד באתגר ייחודי לנתוני אותות אלחוטיים. בניגוד לנתונים חזותיים או קוליים, אותות אלחוטיים — אשר משמשים, בין היתר, ביישומים כמו ניטור ביתי או מציאות מדומה — אינם ניתנים לפירוש בקלות על ידי בני אדם. עובדה זו מקשה על ההערכה האם הדוגמאות הסינתטיות אכן משקפות את ההתנהגות האמיתית של האותות בעולם הפיזי.
כדי להתמודד עם האתגר, החוקרים פיתחו סט של מדדים להערכת שני היבטים קריטיים של הנתונים הסינתטיים: קרבה (Affinity) — מדד למידת ההתאמה בין הדאטה הסינתטי לדאטה מהעולם האמיתי, וגיוון (Diversity) — מדד למידת השונות והווריאציה בין הדוגמאות. בעוד שסטים רבים של נתונים סינתטיים מצליחים לייצר גיוון, החוקרים מצאו כי נתוני אותות אלחוטיים נוטים להיכשל בהשגת קרבה מספקת — מה שעלול להוביל לדוגמאות מאומנות בצורה שגויה או מטעה, על פי TechXplore.
כדי לשפר את תוצאות האימון של המודלים, הצוות פיתח גישה חצי-מושגחת המשתמשת במערכת בשם SynCheck. מסגרת זו מסננת דוגמאות סינתטיות באיכות נמוכה ומעדיפה נתונים בעלי קרבה גבוהה במהלך תהליך האימון. קבוצה קטנה של דוגמאות מאומתות משמשת כעוגן, ומסייעת למודל לזהות תבניות אות לגיטימיות.
מערכת SynCheck הניבה תוצאות מבטיחות: מודלים שאומנו באמצעותה רשמו שיפור של 4.3% בביצועים, בעוד שמודלים שאומנו עם נתונים סינתטיים לא מסוננים חוו ירידה של 13.4% בביצועים.
המחקר מדגיש עיקרון מרכזי בשימוש בנתונים סינתטיים: כמות בלבד אינה מספיקה. כדי שמודלי בינה מלאכותית יפעלו בצורה אמינה, במיוחד בתחומים מורכבים, נדרש תהליך מדוקדק של הערכה וסינון של נתוני האימון. עבודה זו מציעה דרך פרקטית לשיפור מערכות בינה מלאכותית הנשענות על קלטים מבוססי אותות — הן בסביבות מסחריות והן במחקר האקדמי.