גיוון נתונים יכול להציל את הבינה המלאכותית

גיוון נתונים יכול להציל את הבינה המלאכותית

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

בינה מלאכותית מחוללת מהפכה בתעשיות רבות, כולל בתחום הבריאות. עם זאת, בינה מלאכותית טובה רק כמו הנתונים שעליהם היא מבוססת.

נתונים מוטים ועם "דעות קדומות" עלולים להוביל לתוצאות חמורות, כולל ניתוחים מיותרים ואפילו פספוס אבחון של סרטן. לדוגמה, בינה מלאכותית המשמשת רופא עור חייבת מספיק דוגמאות על אנשים עם גווני עור שונים, או שתחמיץ אבחנה קריטית של סרטן העור.

מאמר חדש שכותרתו "דגימה גנרטיבית של גיוון-איכות ללמידה עם נתונים סינתטיים" על ידי חוקרים במדעי המחשב של אוניברסיטת דרום קליפורניה מציע גישה חדשנית להתמודד עם הטיה בתהליכי אימון מודלי למידת מכונה, במיוחד בתחומי ייצור תמונה. לפי Techxplore, החוקרים השתמשו במשפחת אלגוריתמים הנקראים "אלגוריתמים לגיוון-איכות " (Quality-diversity algorithms) כדי ליצור מערכי נתונים סינתטיים מגוונים שיכולים "לסתום את הפערים" בנתוני האימון בעולם האמיתי באופן אסטרטגי.

הכותב הראשי של המאמר אלן צ'אנג אמר: "אני חושב שזו האחריות שלנו כמדעני מחשב להגן טוב יותר על כל הקהילות, כולל קבוצות מיעוט, במערכות שאנו מתכננים. אנו מקווים כי אופטימיזציית גיוון-איכות יכולה לעזור ליצור נתונים סינתטיים הוגנים עבור השפעות רחבות ביישומים רפואיים וסוגים אחרים של מערכות בינה מלאכותית".

בינה מלאכותית שימשה בעבר כדי ליצור נתונים סינתטיים, אבל זה יכול להיות בעייתי שכן ישנה סכנה של הפקת נתונים משוחדים או מוטים שייצרו עוד יותר הטייה במעגל שילך ויחמיר. עם זאת, אלגוריתמים של גיוון-איכות יכולים לשמש ליצירת פתרונות מגוונים לבעיה, ובמקרה זה הם שימשו לפתרון הבעיה של יצירת מערכי נתונים סינתטיים מגוונים.

כך הצליחו החוקרים ליצור מערך נתונים מגוון של כ-50,000 תמונות ב-17 שעות, אשר נבדק בהצלחה על עד ארבעה מדדים של גיוון – גוון עור, הצגה מגדרית, גיל ואורך שיער.

צ'אנג מסביר: "זהו כיוון מבטיח להגדלת המודלים באמצעות דגימה המודעת להטיה, ואנחנו מקווים שנוכל לסייע למערכות בינה מלאכותית לספק ביצועים מדויקים עבור כל המשתמשים".

שיטה זו מגדילה במיוחד את הייצוג של קבוצות מצטלבות (קבוצות עם זהויות מרובות), כמו למשל אנשים כהי-עור עם משקפיים.

תגלית זו מראה לראשונה כי מודלים גנרטיביים יכולים להשתמש בגיוון-איכות כדי לתקן מסווגים מוטים. עבודה זו היא צעד ראשון בכיוון של מתן אפשרות למודלים מוטים "לתקן את עצמם" על ידי יצירה איטרטיבית של נתונים סינתטיים, ואימונים מחדש עליהם.