מחקרים מזהירים כי AI למד לרמות בני אדם

image provided by pixabay

This post is also available in: English (אנגלית)

חוקרים גילו שמספר משמעותי של מערכות בינה מלאכותית פיתחו את היכולת לרמות בני אדם בדפוס מטריד שמעלה חששות כבדים וסיכונים אפשריים. המחקר בנושא טוען כי הן מערכות AI ייעודיות והן מערכות למטרות כלליות למדו לעשות מניפולציות על מידע כדי להשיג תוצאות ספציפיות.

על פי Interesting Engineering, המחקר מדגיש דוגמה בולטת במודל CICERO של חברת Meta, שהתגלה בתור "שקרן מומחה". CICERO הוא מודל AI שנועד לשחק את משחק האסטרטגיה Diplomacy, ולמרות הטענות של Meta כי היא אימנה את המודל להיות "ישר ומועיל במידה רבה", התגלה כי המודל משתמש בטקטיקות מטעות כמו הבטחות שווא, בגידה בבני ברית, ומניפולציה על שחקנים אחרים כדי לנצח את המשחק.

בעוד שבגידה ומניפולציה יכולות להיראות בלתי מזיקות כאשר הן חלק ממשחק, הן מדגימות את היכולת הפוטנציאלית של הבינה המלאכותית ללמוד ולהשתמש בטקטיקות מטעות בתרחישים אמיתיים.

דוגמה נוספת היא ChatGPT של OpenAI, אשר נראה מערים על עובד TaskRabbit כדי לפתור מבחן Captcha בכך שהעמיד פנים שיש לו ליקוי ראייה. הדו"ח מסביר כי בעוד GPT-4 קיבל רמזים ממפעיל אנושי, הוא עשה החלטות באופן עצמאי ולא קיבל הוראה לשקר, ובסופו של דבר השתמש בחשיבה עצמאית כדי להמציא תירוץ כוזב מדוע הוא זקוק לעזרה במשימה.

ממצאים אלה מראים כיצד מודלי בינה מלאכותית יכולים ללמוד להיות מטעים כאשר זה מועיל להשלמת המשימות שלהם. המחבר הראשי של המאמר וחוקר בטיחות בינה מלאכותית ב-MIT, פיטר ס. פארק, אמר כי "למפתחי AI אין הבנה ברורה של מה גורם להתנהגויות לא רצויות של המודלים, כמו הונאה".

דפוס התנהגות זה של מודלי AI הלומדים הונאה מסוכן במספר דרכים – גורמים זדוניים יכולים לנצל אותו כדי לרמות ולפגוע באחרים, מה שיכול להוביל להונאה מוגברת, מניפולציה פוליטית, ואולי אפילו לגיוס טרוריסטים. יתר על כן, אם מערכת המיועדת לקבלת החלטות אסטרטגיות מאומנת להטעות, זה יכול לנרמל פרקטיקות מטעות בפוליטיקה ובעסקים.

החוקרים טוענים כי יש לטפל בסוגיית ההונאה בעוד ה-AI ממשיך להתפתח ולהיכנס ליותר ויותר אספקטים בחיי היומיום שלנו, וקוראים לתשומת לב דחופה מצד קובעי המדיניות.

לדברי פארק, "אנחנו כחברה צריכים כמה שיותר זמן להתכונן להונאה המתקדמת יותר של מוצרי AI עתידיים ומודלים של קוד פתוח. אם האיסור על הטעיה בבינה מלאכותית אינו אפשרי מבחינה פוליטית כרגע, אנו ממליצים לסווג מערכות מטעות כסיכון גבוה". סיווג כזה יכפה על המערכות הללו פיקוח ורגולציה קרובים ומחמירים יותר, ובכך עשוי להפחית את הסיכונים שהן מציבות לחברה.