This post is also available in:
English (אנגלית)
מחקר חדש שבוצע על ידי חוקרים מאוניברסיטת אוקספורד, EleutherAIוהמכון לביטחון בינה מלאכותית של בריטניה מציג שיטה חדשנית לשיפור האבטחה במודלי שפה פתוחים, ומציע מסלול אפשרי לפיתוח בטוח של בינה מלאכותית בקוד פתוח.
במקום להסתמך על מנגנוני בטיחות המתווספים לאחר סיום האימון, החוקרים מציעים לסנן מראש תכנים רגישים מתוך מערך האימון. גישה מניעתית זו מפחיתה משמעותית את הסיכון לשימוש לרעה, במיוחד בתחומים שבהם בינה מלאכותית עלולה להיות מנוצלת ליצירת תכנים מזיקים.
מודלים פתוחים – כלומר כאלה שפרמטרי האימון שלהם זמינים לציבור – הפכו לרכיב מרכזי במערכת המחקר של תחום ה-AI. הם תורמים לשקיפות ומונעים ריכוז יתר של שליטה בידי קומץ חברות. חלק מהמודלים הפתוחים אף מצמצמים את הפער מול מודלים קנייניים בביצועים. עם זאת, פתיחות זו יוצרת גם סיכונים, שכן ניתן לכוון אותם לאחר השחרור לאפיקים מזיקים באמצעות אימון נוסף (fine-tuning) על תכנים בעייתיים.
על פי TechXplore, כדי להתמודד עם אתגר זה, החוקרים פיתחו מערכת סינון רב-שלבית הכוללת רשימות מילות מפתח ומסווגים מבוססי למידת מכונה, שנועדו להחריג מידע רגיש ממערך האימון. לצורכי ניסוי, הם התמקדו בסיכונים ביולוגיים, וסיננו מידע בנושאים כגון וירולוגיה, גנטיקה הפוכה ועיצוב נשק ביולוגי. התוצאה: צמצום של כ-8–9% בלבד ממערך האימון, תוך שימור ידע כללי רחב.
המודלים שאומנו על הנתונים המסוננים שמרו על ביצועים גבוהים במדדים סטנדרטיים, אך הפגינו גם עמידות ברורה לניסיונות עוינים של fine-tuning. גם לאחר חשיפה ליותר מ-25,000 מאמרים רגישים ולמעלה מ-300 מיליון טוקנים באימון מתריס, המודלים שמרו על מנגנוני ההגנה שלהם, והציגו ביצועים טובים יותר בהשוואה לשיטות הגנה מסורתיות כגון fine-tuning רגיל או בקרת גישה.
הממצאים הללו רלוונטיים במיוחד לאור הדאגה הגוברת בעולם מהסיכונים של שימוש דואלי בטכנולוגיות AI. ככל שהמודלים הפתוחים הופכים למתוחכמים יותר וקשה יותר לפקח עליהם לאחר פרסומם, אסטרטגיות כמו סינון נתונים מראש מציעות מסלול מבטיח לפיתוח אחראי של בינה מלאכותית — כזה ששומר על האיזון בין תועלת לבין בטיחות במגוון הקשרים יישומיים.
המחקר המלא, תחת הכותרת: "Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs". זמין כ-preprint באתר arXiv.