מחקר של אפל מאתגר הנחות לגבי המוכנות של בינה מלאכותית כללית

Image by Unsplash

This post is also available in: English (אנגלית)

מחקר שנערך לאחרונה על ידי חוקרים של אפל העלה ספקות רציניים לגבי היכולות של מערכות הבינה המלאכותית המתקדמות ביותר כיום, במיוחד אלה שתוכננו לחשיבה מורכבת. הממצאים מצביעים על כך שמודלים של חשיבה גדולה מהדור הנוכחי (LRMs) עדיין רחוקים מלהשיג את סוג האינטליגנציה הכללית המקושרת ל-AGI.

במאמר טכני שכותרתו " The Illusion of Thinking: Understanding the Strength and Limitations of Reasoning Models via the Lens of Problem Complexity", אפל בדקה LRMs מובילים כגון O1/O3 של OpenAI, Claude 3.7 Sonnet Thinking, DeepSeek-R1, ו-Gemini Thinking של גוגל. במקום אמות מידה מסורתיות של בינה מלאכותית, החוקרים חשפו מודלים אלה לבעיות מורכבות יותר ויותר ולא סטנדרטיות שנועדו לבחון את יכולת החשיבה שלהם בהקשרים לא מוכרים.

התוצאות היו משמעותיות: למרות ש-LRMs מצליחים במשימות פשוטות יותר, הדיוק שלהם קרס כאשר הם מתמודדים עם בעיות עם מורכבות גוברת. הצוות של אפל הגיע למסקנה שמערכות אלה – למרות שהן מתויגות כמודלים "חושבים" – לא מצליחות לפתח מיומנויות כלליות אמיתיות לפתרון בעיות. במקום זאת, הם נוטים לשחזר דפוסים נלמדים מבלי להכליל את אסטרטגיות החשיבה שלהם על פני תרחישים חדשים.

"הדיוק מתמוטט בסופו של דבר לאפס מעבר למורכבות מסוימת", ציינו החוקרים, וטענו כי מודלים אלה רק מחקים היגיון במקום לעסוק בו. ממצא זה נוגד את הטענות האחרונות של כמה חברות מובילות בתעשיית ה-AI, כולל OpenAI ו-Anthropic, שהצהירו בפומבי כי יהיה ניתן להשיג את AGI בשנים הקרובות.

מבחינה טכנולוגית, ההשלכות הן משמעותיות. המחקר מצביע על מגבלה מבנית באופן שבו LRMs בנויים ומאומנים, מה שמעלה חששות לגבי הסתמכות יתר על מודלים של שפה גדולה למשימות הדורשות חשיבה איתנה ואדפטיבית.

מבקרים בקהילת המחקר של ה-AI הדהדו את המסקנות של אפל, והזהירו כי LRMs לא יכול להיות הנתיב ל-AGI כמו שכמה חזו. לעת עתה, נראה כי הקפיצה מזיהוי דפוסים מרשים לבינה אמיתית עדיין נמצאת בתהליך – ומזכירה לטכנולוגים ולקובעי מדיניות כאחד שהטענות ל-AGI בטווח הקרוב עלולות להיות מוקדמות מדי.