חוקרים "פרצו" צ'אטבוטים וגרמו להם לתקוף צ'אטבוטים אחרים

Jan 3, 2024

This post is also available in: English (אנגלית)

חוקרים מסינגפור הצליחו להערים על שלושה צ'אטבוטים – צ'אט GPT, גוגל בארד ומיקרוסופט בינג – וגרמו להם להפר את החוקים אליהם תוכנתו, ואף הצליחו לגרום להם לתקוף צ'אטבוטים אחרים ו-"לפרוץ" גם אותם.

צוות מחקר באוניברסיטה הטכנולוגית של נניאנג (NTU) בסינגפור הצליח לפגוע במספר רב של צ'אטבוטים ולגרום להם לייצר תוכן שמפר את ההנחיות שלהם, כפי שדווח על ידי האוניברסיטה. על פי חדשות Cybernews, תהליך זה ידוע בשם "jailbreaking", ובו האקרים מנצלים פגמים במערכת של תוכנה כדי לגרום לה לעשות משהו שהמפתחים שלה הגבילו אותה בכוונה מלעשות.

לאחר ש"פרצו" את התכנה, החוקרים השתמשו במאגר נתונים של הנחיות שהוכחו כמוצלחות בפריצת צ'אטבוטים כדי ליצור מודל שפה גדול המסוגל ליצור הנחיות נוספות לפרוץ צ'אטבוטים אחרים.

ליו יי, ממחברי המחקר, הסביר: "כאשר מאמנים מודל שפה גדול עם הנחיות jailbreak, ניתן להפוך את ייצור ההנחיות לאוטומטיות, ובכך להשיג שיעור הצלחה הרבה יותר גבוה משיטות אחרות קיימות. למעשה, אנחנו תוקפים צ'אטבוטים על ידי שימוש בהם נגד עצמם".

לכן, למרות שהמפתחים מציבים מגבלות שנועדו למנוע מהצ'אטבוטים שלהם לייצר תוכן אלים, לא אתי או פלילי, עדיין ניתן להערים על הבינה המלאכותית, כפי שאמר ליו יאנג, המחבר הראשי של המחקר.

יאנג מסביר כי למרות היתרונות שלהם, צ'אטבוטים מבוססי בינה מלאכותית עדיין פגיעים להתקפות jailbreak. הם עדיין פגיעים אל מול גורמים זדוניים שמנצלים חולשות כדי לאלץ אותם ליצור פלט שמפר את הכללים אליהם תוכנתו.

יתר על כן, על פי החוקרים, מודל שפה גדול שנפרץ יכול להמשיך להסתגל וליצור חדש הנחיות פריצה משלו גם אם המפתחים מתקנים את החולשות במודלים שלהם, ובכך ההאקרים בעצם מנצחים את המפתחים במשחק שלהם, עם הכלים שלהם.

חוקרים "פרצו" צ'אטבוטים וגרמו להם לתקוף צ'אטבוטים אחרים

כתבות אחרונות

הדור הבא של מטוסי קרב: אוטונומי, רב-תכליתי וללא מסלול המראה

שילוב מדעי המוח והנדסה לפתרונות חדשניים לכאב

הג׳ל המתכתי הראשון בעולם עשוי להניע את עתיד האנרגיה

סכנה למשתמשים: הדליפה שמזכירה לכולנו להחליף סיסמה

שידור רציף, גם על כנף מטוס: אנטנות גמישות בהדפסה תלת־ממדית

קפיצה בזיהוי חזותי: בינה מלאכותית לומדת להבחין בפריטים אישיים

העתיד של השיקום הוויזואלי בעזרת בינה מלאכותית

פיתוח חדש מבטיח סוללות בטוחות יותר, עמידות וידידותיות לסביבה

עם דיוק של 99%: כך חברת Never Mine מעצבת מחדש את...

שיטה חדשה לייצור מגנטים תחזק את מנועי האנרגיה הנקייה

היכונו לעתיד: לא צריך 1.21 ג'יגו-וואט, רק תשתית טובה

מערכת רובוטית דקיקה מציעה טיפול ממוקד בגוף

צריח חדש עם הגנה חכמה לרחפנים ומטוסים נמוכים

מעקב אחר יתושים ושיטפונות מהחלל

כמו פרחים בטבע: רובוטי דנ"א זעירים שמשנים את חוקי המשחק הרפואי

מנוע זעיר מדגים חום קיצוני לחקר תרמודינמיקה ומחלות

חוקרים הצליחו להגיע לדיוק במיקום ברמת הסנטימטרים בשעונים חכמים

רופא בכיס החלל: עוזרים דיגיטליים לשמירת בריאות במרחק מיליוני ק"מ

טכנולוגיית אבטחה שאי אפשר לשכפל – בתוך טיפה של ג'ל

מצמצמים את פער הטאלנטים העולמי עם בינה מלאכותית: כך חברת אייברס...