כותבים קוד עם בינה מלאכותית? הנה עוד דרך בה תוקפי סייבר יכולים לנצל את זה

This post is also available in: English (אנגלית)

ככל שכלי בינה מלאכותית גנרטיבית הופכים לחלק בלתי נפרד מתהליכי פיתוח תוכנה, מחקר חדש מזהיר מפני איום אבטחה מתפתח הנובע מאופן יצירת הקוד על ידי מודלי שפה (LLMs). חוקרים מאוניברסיטת טקסס בסן אנטוניו, אוניברסיטת אוקלהומה ווירג'יניה טק זיהו תופעה שהם מכנים "הזיית חבילות" (Package Hallucination) – תוצאה לוואי של קוד שנוצר על ידי בינה מלאכותית, העלולה לחשוף את שרשרת אספקת התוכנה להתקפות מצד שחקנים זדוניים.

הבעיה מתרחשת כאשר מודלים מייצרים קריאה לחבילות תוכנה (packages) שאינן קיימות בפועל במהלך יצירת הקוד. מפתחים עלולים לשלב בטעות את אותן "חבילות מדומיינות" בפרויקטים שלהם – ובכך ליצור פתח לתוקפים, שיכולים לרשום את שמות החבילות הללו ולהחדיר לתוכן קוד זדוני.

לפי המחקר, למעלה מ-576,000 דגימות קוד נוצרו בעזרת 16 מודלים שונים כדי לבדוק את היקף התופעה. מודלים מסחריים כמו GPT-4 ו-Claude הראו שיעור הזיות של מעל 5%, בעוד שמודלים בקוד פתוח כמו CodeLlama ו-DeepSeek Coder יצרו חבילות לא קיימות ביותר מ-20% מהמקרים. בסך הכול זוהו מעל 200,000 שמות חבילה ייחודיים שגויים – נתון שממחיש את שכיחות ומגוון הפלטים השגויים הללו.

הסכנה האמיתית טמונה באופן שבו ניתן לנצל את החולשה הזו. שחקן זדוני יכול לעקוב אחר שמות חבילות שנוצרים לעיתים תכופות, ולהעלות חבילה באותו שם למאגר ציבורי. מפתחים, מבלי לדעת שמדובר בשם מומצא, עלולים לכלול את החבילה בקוד – ובכך לחשוף את הקוד או את כל עץ התלויות הארגוני לתוקפים.

ממצאי המחקר מעלים חשש גובר מהסתמכות יתר על קוד שמופק על ידי בינה מלאכותית, במיוחד בסביבות ייצור או במערכות קריטיות. למרות שהכלים הללו יכולים להאיץ את הפיתוח, החוקרים מזהירים כי הם אינם תחליף לבדיקות אבטחה והליכי ולידציה מסורתיים. מתקפות הזיית חבילות מוסיפות שכבת סיכון חדשה, הדורשת תשומת לב מוגברת מצד מפתחים וצוותי אבטחת מידע.

עם המשך ההתרחבות של השימוש בבינה מלאכותית גנרטיבית בתחום התכנות, המחקר מהווה תזכורת לכך שנוחות צריכה להתאזן עם בקרה ואחריות – במיוחד בעבודה עם מערכות קוד פתוח החשופות למניפולציות.