מודל בינה מלאכותית לומד להסיק מסקנות ללא הנחיה אנושית

Image by Pexels

This post is also available in: English (אנגלית)

פיתוח חדש בתחום הבינה המלאכותית מצביע על כך שמכונות nמתחילות להתקרב ליכולת הסקת מסקנות עצמאית. חוקרים מחברת DeepSeek AI הציגו את מודל R1 שלהם לאחר שלמד לפתור בעיות מורכבות ללא הוראות אנושיות שלב אחר שלב, מה שמציג שינוי מהותי בגישה להכשרת יכולות חשיבה לוגית במודלים של בינה מלאכותית.

המחקר, שפורסם בכתב העת Nature, מתאר כיצד R1 למד להתמודד עם משימות מתקדמות במתמטיקה, מדעים ותכנות, תוך שימוש בלמידת חיזוק (Reinforcement Learning) במקום בשיטות המסורתיות של למידה מונחית. במקום לקבל אינספור דוגמאות לפתרון בעיה, המודל התאמן באמצעות ניסוי וטעייה, כשהמשוב היחיד שקיבל היה האם התשובה הסופית נכונה או לא.

שיטה זו מחקה את אופן הלמידה האנושי: לא על ידי שינון כל שלב, אלא דרך ניסוי, בדיקת התוצאה והתאמת האסטרטגיה בהתאם. במהלך האימון, R1 החל להפגין התנהגויות כמו אימות עצמי של פתרונות ובחירה בגישות חלופיות כדי להגיע לתוצאה הנכונה. לפי TechXplore, במקרים מסוימים אף התחיל להשתמש במילה "רגע" כחלק מתהליך פנימי של בחינה מחודשת של מהלכי החשיבה שלו.

הייחודיות בגישה זו היא בכך שהיא עוקפת את החסרונות של שיטות למידה מסורתיות, כגון הטיה אנושית או תלות יתר בדוגמאות פתורות מראש. המעורבות האנושית בפרויקט R1 הייתה מצומצמת, והתמקדה בעיקר בכיול היכולות לאחר סיום שלב האימון המרכזי.

מבחני ביצועים הניבו תוצאות מרשימות: במבחן AIME לשנת 2024 – מבחן מתמטי מאתגר במיוחד המיועד לתלמידי תיכון מצטיינים – השיג R1 דיוק של 86.7%, והקדים מודלים קודמים שהתבססו במידה רבה על נתונים מתויגים בידי אדם.

עם זאת, החוקרים מציינים כי המערכת עדיין אינה חפה מבעיות. במצבים מסוימים, R1 סיבך יתר על המידה משימות פשוטות, או עבר לשפה אחרת במהלך ביצוע משימה שניתנה בשפה לא-אנגלית. תופעות אלו מדגישות את האתגרים שנותרו בפיתוח מערכות הסקה אוטונומיות כלליות.

ובכל זאת, היכולת של R1 ללמוד מיומנויות פתרון בעיות בכוחות עצמו מצביעה על שינוי אפשרי בגישת הפיתוח של מערכות AI. אם תמשיך להשתפר, למידת חיזוק עשויה להפוך לבסיס לדור הבא של מערכות בינה מלאכותית – כאלה שיהיו גמישות יותר, אוטונומיות באמת, ובעלות יכולת הסקה עצמאית במצבים מציאותיים.