להתראות, דיפסיק? חוקרים בארה"ב חושפים מודל בינה מלאכותית בעלות של 50 דולר בלבד

Image by Unsplash

This post is also available in: English (אנגלית)

במסגרת הישג פורץ דרך, צוות חוקרים מאוניברסיטת סטנפורד ומאוניברסיטת וושינגטון פיתח מודל חשיבה מתקדם בתחום ה-AI בשם S1, בעלות נמוכה להפליא של פחות מ-50 דולר. הישג זה משמעותי במיוחד בתעשייה שבה פיתוח מודלים דומים דורש לעתים קרובות מיליוני דולרים.

מודל S1 נועד להתמודד עם משימות חשיבה מורכבות, ובמבחנים הגיע לביצועים ברמה של מודלים מובילים כגון O1 של OpenAI ו-R1 של DeepSeek במשימות הכוללות מתמטיקה וכתיבת קוד.

פריצת דרך זו מגיעה בזמן של תחרות גוברת בתחום ה-AI. לאחרונה, חברת הסטארט-אפ הסינית DeepSeek הכתה גלים עם מודל החשיבה שלה, R1, אשר טענה כי פותח תמורת 6 מיליון דולר בלבד. עם זאת, מבקרים רבים הטילו ספק בטענותיה של דיפסיק, וגם הביעו את דאגתם לגבי אבטחת המודלים שלה.

את העלות הנמוכה של פיתוח S1 ניתן לייחס לטכניקה הנקראת "זיקוק". תהליך זה כרוך באימון של S1 לחקות את יכולות החשיבה של מודל AI קיים – ספציפית, מודל Gemini 2.0 Flash Thinking Experimental model של גוגל, הפעם. על ידי שימוש במערך נתונים שהורכב מ-1,000 שאלות ותשובות, יחד עם ה- reasoning tracesשל מודל ג'מיני, S1 למד להגיע לפתרונות מדויקים בשבריר מהזמן והעלות בהשוואה לשיטות המסורתיות.

לדברי החוקרים, האימון של S1 לקח רק 26 דקות באמצעות 16 Nvidia H100 GPUs, בעלות של רק 20 דולר בסך הכל. החוקרים השתמשו בשיטת Supervised Fine-Tuning (SFT), שיטה הכוללת הנחיית המודל בהוראות מפורשות להאצת תהליך הלמידה.

התפתחות מסקרנת במהלך יצירתו של S1 הייתה שימוש בהוראת "המתנה", שעזרה לשפר את הדיוק של המודל. על ידי שילוב הפסקות בתהליך החשיבה של המודל, החוקרים מצאו כי S1 הצליח לבדוק את תגובותיו, ולעתים קרובות לתקן שגיאות ולהגיע למסקנות מדויקות יותר.

בסופו של דבר, החוקרים שעומדים מאחורי S1 מקווים שעבודתם תניע חדשנות פתוחה, ותהפוך את מודלי החשיבה רבי העוצמה לנגישים יותר לקהילה העולמית ותאיץ את ההתקדמות בטכנולוגיית הבינה המלאכותית לטובת הכלל.

ניתן למצוא את המחקר של הצוות ב-arXiv.