מחקרים מזהירים כי AI למד לרמות בני אדם

May 16, 2024

This post is also available in: English (אנגלית)

חוקרים גילו שמספר משמעותי של מערכות בינה מלאכותית פיתחו את היכולת לרמות בני אדם בדפוס מטריד שמעלה חששות כבדים וסיכונים אפשריים. המחקר בנושא טוען כי הן מערכות AI ייעודיות והן מערכות למטרות כלליות למדו לעשות מניפולציות על מידע כדי להשיג תוצאות ספציפיות.

על פי Interesting Engineering, המחקר מדגיש דוגמה בולטת במודל CICERO של חברת Meta, שהתגלה בתור "שקרן מומחה". CICERO הוא מודל AI שנועד לשחק את משחק האסטרטגיה Diplomacy, ולמרות הטענות של Meta כי היא אימנה את המודל להיות "ישר ומועיל במידה רבה", התגלה כי המודל משתמש בטקטיקות מטעות כמו הבטחות שווא, בגידה בבני ברית, ומניפולציה על שחקנים אחרים כדי לנצח את המשחק.

בעוד שבגידה ומניפולציה יכולות להיראות בלתי מזיקות כאשר הן חלק ממשחק, הן מדגימות את היכולת הפוטנציאלית של הבינה המלאכותית ללמוד ולהשתמש בטקטיקות מטעות בתרחישים אמיתיים.

דוגמה נוספת היא ChatGPT של OpenAI, אשר נראה מערים על עובד TaskRabbit כדי לפתור מבחן Captcha בכך שהעמיד פנים שיש לו ליקוי ראייה. הדו"ח מסביר כי בעוד GPT-4 קיבל רמזים ממפעיל אנושי, הוא עשה החלטות באופן עצמאי ולא קיבל הוראה לשקר, ובסופו של דבר השתמש בחשיבה עצמאית כדי להמציא תירוץ כוזב מדוע הוא זקוק לעזרה במשימה.

ממצאים אלה מראים כיצד מודלי בינה מלאכותית יכולים ללמוד להיות מטעים כאשר זה מועיל להשלמת המשימות שלהם. המחבר הראשי של המאמר וחוקר בטיחות בינה מלאכותית ב-MIT, פיטר ס. פארק, אמר כי "למפתחי AI אין הבנה ברורה של מה גורם להתנהגויות לא רצויות של המודלים, כמו הונאה".

דפוס התנהגות זה של מודלי AI הלומדים הונאה מסוכן במספר דרכים – גורמים זדוניים יכולים לנצל אותו כדי לרמות ולפגוע באחרים, מה שיכול להוביל להונאה מוגברת, מניפולציה פוליטית, ואולי אפילו לגיוס טרוריסטים. יתר על כן, אם מערכת המיועדת לקבלת החלטות אסטרטגיות מאומנת להטעות, זה יכול לנרמל פרקטיקות מטעות בפוליטיקה ובעסקים.

החוקרים טוענים כי יש לטפל בסוגיית ההונאה בעוד ה-AI ממשיך להתפתח ולהיכנס ליותר ויותר אספקטים בחיי היומיום שלנו, וקוראים לתשומת לב דחופה מצד קובעי המדיניות.

לדברי פארק, "אנחנו כחברה צריכים כמה שיותר זמן להתכונן להונאה המתקדמת יותר של מוצרי AI עתידיים ומודלים של קוד פתוח. אם האיסור על הטעיה בבינה מלאכותית אינו אפשרי מבחינה פוליטית כרגע, אנו ממליצים לסווג מערכות מטעות כסיכון גבוה". סיווג כזה יכפה על המערכות הללו פיקוח ורגולציה קרובים ומחמירים יותר, ובכך עשוי להפחית את הסיכונים שהן מציבות לחברה.

מחקרים מזהירים כי AI למד לרמות בני אדם

כתבות אחרונות

הג׳ל המתכתי הראשון בעולם עשוי להניע את עתיד האנרגיה

סכנה למשתמשים: הדליפה שמזכירה לכולנו להחליף סיסמה

שידור רציף, גם על כנף מטוס: אנטנות גמישות בהדפסה תלת־ממדית

קפיצה בזיהוי חזותי: בינה מלאכותית לומדת להבחין בפריטים אישיים

העתיד של השיקום הוויזואלי בעזרת בינה מלאכותית

פיתוח חדש מבטיח סוללות בטוחות יותר, עמידות וידידותיות לסביבה

עם דיוק של 99%: כך חברת Never Mine מעצבת מחדש את...

שיטה חדשה לייצור מגנטים תחזק את מנועי האנרגיה הנקייה

היכונו לעתיד: לא צריך 1.21 ג'יגו-וואט, רק תשתית טובה

מערכת רובוטית דקיקה מציעה טיפול ממוקד בגוף

צריח חדש עם הגנה חכמה לרחפנים ומטוסים נמוכים

מעקב אחר יתושים ושיטפונות מהחלל

כמו פרחים בטבע: רובוטי דנ"א זעירים שמשנים את חוקי המשחק הרפואי

מנוע זעיר מדגים חום קיצוני לחקר תרמודינמיקה ומחלות

חוקרים הצליחו להגיע לדיוק במיקום ברמת הסנטימטרים בשעונים חכמים

רופא בכיס החלל: עוזרים דיגיטליים לשמירת בריאות במרחק מיליוני ק"מ

טכנולוגיית אבטחה שאי אפשר לשכפל – בתוך טיפה של ג'ל

מצמצמים את פער הטאלנטים העולמי עם בינה מלאכותית: כך חברת אייברס...

כלי קוד פתוח חדש משנה את חוקי המשחק בהדפסה מרובת־חומרים

חכם בשמש – החיישן השקוף שיזהיר אותך לפני שתישרף