חוקרים "פרצו" צ'אטבוטים וגרמו להם לתקוף צ'אטבוטים אחרים

חוקרים "פרצו" צ'אטבוטים וגרמו להם לתקוף צ'אטבוטים אחרים

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

חוקרים מסינגפור הצליחו להערים על שלושה צ'אטבוטים – צ'אט GPT, גוגל בארד ומיקרוסופט בינג – וגרמו להם להפר את החוקים אליהם תוכנתו, ואף הצליחו לגרום להם לתקוף צ'אטבוטים אחרים ו-"לפרוץ" גם אותם.

צוות מחקר באוניברסיטה הטכנולוגית של נניאנג (NTU) בסינגפור הצליח לפגוע במספר רב של צ'אטבוטים ולגרום להם לייצר תוכן שמפר את ההנחיות שלהם, כפי שדווח על ידי האוניברסיטה. על פי חדשות Cybernews, תהליך זה ידוע בשם "jailbreaking", ובו האקרים מנצלים פגמים במערכת של תוכנה כדי לגרום לה לעשות משהו שהמפתחים שלה הגבילו אותה בכוונה מלעשות.

לאחר ש"פרצו" את התכנה, החוקרים השתמשו במאגר נתונים של הנחיות שהוכחו כמוצלחות בפריצת צ'אטבוטים כדי ליצור מודל שפה גדול המסוגל ליצור הנחיות נוספות לפרוץ צ'אטבוטים אחרים.

ליו יי, ממחברי המחקר, הסביר: "כאשר מאמנים מודל שפה גדול עם הנחיות jailbreak, ניתן להפוך את ייצור ההנחיות לאוטומטיות, ובכך להשיג שיעור הצלחה הרבה יותר גבוה משיטות אחרות קיימות. למעשה, אנחנו תוקפים צ'אטבוטים על ידי שימוש בהם נגד עצמם".

לכן, למרות שהמפתחים מציבים מגבלות שנועדו למנוע מהצ'אטבוטים שלהם לייצר תוכן אלים, לא אתי או פלילי, עדיין ניתן להערים על הבינה המלאכותית, כפי שאמר ליו יאנג, המחבר הראשי של המחקר.

יאנג מסביר כי למרות היתרונות שלהם, צ'אטבוטים מבוססי בינה מלאכותית עדיין פגיעים להתקפות jailbreak. הם עדיין פגיעים אל מול גורמים זדוניים שמנצלים חולשות כדי לאלץ אותם ליצור פלט שמפר את הכללים אליהם תוכנתו.

יתר על כן, על פי החוקרים, מודל שפה גדול שנפרץ יכול להמשיך להסתגל וליצור חדש הנחיות פריצה משלו גם אם המפתחים מתקנים את החולשות במודלים שלהם, ובכך ההאקרים בעצם מנצחים את המפתחים במשחק שלהם, עם הכלים שלהם.