"להציל" את הבינה המלאכותית מדעות קדומות

image provided by pixabay

This post is also available in: English (אנגלית)

דוקטורנטים מאוניברסיטת אורגון וחוקרים מ-Adobe שיתפו פעולה כדי ליצור טכניקת הכשרה חדשה וחסכונית עבור מערכות בינה מלאכותית כדי להפוך אותן פחות מוטות חברתית ופחות מושפעות מדעות קדומות.

השיטה החדשה נקראת FairDeDup, קיצור של מניעת כפילויות הוגנת (fair deduplication) – מניעת כפילויות היא מונח המתייחס להסרת מידע מיותר מהנתונים המשמשים להכשרת מערכות AI, ובכך להפחית את עלויות המחשוב הגבוהות של ההכשרה.

מערכות AI מאומנות בדרך כלל על מערכי נתונים שנלקחו מהאינטרנט, שלעתים קרובות מכילים הטיות הקיימות בחברה, כך שכאשר הטיות אלה נספגות לתוך המודלים הן יכולות להמשיך את מעגל ההפצה של רעיונות והתנהגות לא הוגנים, כפי שהחוקרים הסבירו.

ההבנה כיצד מניעת כפילויות משפיעה על כמה שכיחות יהיו ההטיות מאפשרת לנהל את ההשפעות השליליות. אריק סליימן מהמכללה להנדסה של אוניברסיטת אורגון מסביר כי בעוד שהגרסה הקודמת שפיתח הצוות הראתה כי הסרת נתונים מיותרים יכולה לאפשר אימון AI מדויק עם פחות משאבים, הם מצאו שהתהליך יכול גם להחמיר את ההטיות החברתיות המזיקות שהבינה המלאכותית לומדת.

על פי Techxplore, שיטת FairDeDup עובדת על ידי דילול מערכי הנתונים של כותרות ותיאורי תמונה שנאספו מהאינטרנט באמצעות תהליך המכונה "pruning", או גיזום, המתייחס לבחירת קבוצת משנה של הנתונים המייצגים את כל מערך הנתונים. אם הדבר נעשה באופן מודע לתוכן, "גיזום" מאפשר לאדם לקבל החלטות מושכלות לגבי אילו חלקים של הנתונים יישארו ואילו ילכו.

"FairDeDup מסיר נתונים יתירים תוך שילוב מימדי גיוון ניתנים לשליטה המוגדרים על ידי בני אדם כדי למתן הטיות. הגישה שלנו מאפשרת לאמן AI שהוא לא רק חסכוני ומדויק, אלא גם הוגן יותר", אמר סליימן.

מטרת החוקרים הייתה להפחית את ההטיות הנוגעות למקצוע, גזע, מין, גיל, מיקום גיאוגרפי, תרבות ועוד. טיפול בהטיות אלה במהלך "גיזום נתונים" יכול ליצור יותר מערכות בינה מלאכותית "צודקות חברתית".

"העבודה שלנו לא מכריחה את הבינה המלאכותית לפעול על פי התפיסה שלנו לגבי הוגנות, אלא יוצרת מסלול שמתווך את הבינה המלאכותית לפעול באופן הוגן כאשר היא מקושרת בתוך הגדרות מסוימות ובסיסי משתמשים בהם היא פרוסה. אנחנו מאפשרים לאנשים להגדיר מה הוגן במסגרת שלהם במקום שזה ייעשה ע"י האינטרנט או מערכי נתונים גדולים אחרים", סיכם סליימן.