This post is also available in:
English (אנגלית)
חוקרים של אפל הציגו משפחה פורצת דרך של מודלי שפה מולטי-מודאלים (MLLM) המכונה MM1.5. המודלים הנעים בגודל מ-1 מיליארד ל-30 מיליארד פרמטרים, באופן מרשים. פיתוח חדש זה מדגיש את מחויבותה של אפל לקידום טכנולוגיות בינה מלאכותית גנראטיבית, במטרה למצב את עצמה כשחקן מפתח בתחום ה-AI.
בעוד שסמארטפונים יכולים להריץ מודלים עם כמה מיליארדי פרמטרים, כל דבר מעל 10 מיליארד בדרך כלל דורש מחשב לביצועים אופטימליים, ותעשיית הטכנולוגיה ראתה מודלים העולים על טריליון פרמטרים. עם זאת, אפל טוענת כי איסוף זהיר של נתונים יחד עם טכניקות אימון חדשניות מאפשרים לדגמים הקטנים יותר שלה – במיוחד אלה עם 1 מיליארד ו 3 מיליארד פרמטרים – לספק ביצועים חזקים.
דגמי MM1.5 מתוכננים במיוחד כדי להתמודד עם משימות מורכבות הכוללות תמונות עשירות בטקסט, הבנת תוכן חזותי, והשוואה בין כמה תמונות. שתי גרסאות שונות של MM1.5 פותחו: MM1.5-Video, המתמקד בהבנת וידאו, ו-MM1.5-UI, המותאם להבנה של UI במובייל.
בהתבסס על ארכיטקטורת MM1 שהוצגה במרץ 2024, MM1.5 מציגה שיפורים משמעותיים בביצועים. הדגמים הדחוסים, הזמינים בגדלים 1B ו-3B, מתוארים כקומפקטיים מספיק לפריסה קלה במכשירים ניידים, אך חזקים מספיק כדי לגבור על מודלים גדולים יותר של קוד פתוח בתרחישים רבים.
בבדיקות השוואתיות, מודל MM1.5 של 3 מיליארד פרמטר הועמד כנגד Phi-3-Vision של מיקרוסופט, המכיל 4 מיליארד פרמטרים. אף על פי שאף אחד מהמודלים לא הופיע כמנצח ברור, המודל של אפל הצטיין בהבנה עשירה בטקסט, בעוד ש-Phi-3-Vision היה טוב יותר במשימות מבוססות על ידע ספציפי.
אפל טוענת כי MM1.5 בולט כמודל מתקדם ומרשים העולה על רשימה של מתחרים. למרות התקדמות זו, מודלים מובילים של ענקיות טכנולוגיה כמו גוגל ו- OpenAI נשארים עדיפים, ומראים כי גודל עדיין משחק תפקיד מכריע בביצועי AI.
למרות שעדיין לא ברור אם הדגמים החדשים הללו ישולבו במכשירים של אפל, הצגתם מסמלת צעד משמעותי קדימה בשיפור יכולות הבינה המלאכותית הגנרטיבית של החברה.

























