This post is also available in:
English (אנגלית)
מחקר חדש של חוקרים מאוניברסיטת קליפורניה בסן דייגו מצא כי GPT-4.5 של OpenAI ו-Llama 3.1 405B של מטא הצליחו במבחן טיורינג הקלאסי בתנאים מסוימים. התוצאות מצביעות על כך שהמודלים המתוחכמים הללו יכולים לחקות באופן משכנע שיח אנושי, כאשר GPT-4.5 הגיע לאחוז הצלחה של 73% מול משתתפים אנושיים במהלך חמש דקות של שיחת צ'אט, כאשר הוא מתבקש לדמות "פרסונה" ספציפית.
מבחן טיורינג, שהוצע במקור על ידי אלן טיורינג ב-1950, שימש זה מכבר כאמת מידה לאינטליגנציה של מכונות. על פי תפיסתו של טיורינג, אם מכונה יכולה לנהל שיחה מבוססת טקסט מבלי שהחוקר יוכל להבדיל אותה באופן מהימן מבן אדם, היא יכולה להיחשב כ"חושבת". בעוד שמערכות AI התקשו באופן היסטורי בלעבור את מבחן טיורינג, כעת, ההתקדמות האחרונה בעיבוד שפה טבעית הפכה את זה להרבה יותר קל עבור מודלים כמו GPT-4.5 ו-Llama 3.1 לחקות התנהגות אנושית באופן משכנע.
במחקר, GPT-4.5 הגיע לשיעור ההצלחה הגבוה ביותר, והתעלה על המשתתפים האנושיים בשיחה בהפרש ניכר. בינתיים, לאמה 3.1 הגיע לשיעור ניצחון של 56% בתנאים דומים, אם כי שני הדגמים הראו ביצועים טובים יותר כאשר קיבלו את ההנחיות לאמץ מאפיינים אנושיים ספציפיים, כגון פרטים על חיי היומיום ומצבים רגשיים. ללא הנחיות אלה, הביצועים של GPT-4.5 ירדו ל-36%, מה שמצביע על כך שהצלחתו של מודל הבינה המלאכותית מסתמכת במידה רבה על יכולתו להקרין אישיות אמינה.
ממצאים אלה הציתו מחדש את הוויכוחים האם מבחן טיורינג נותר מדד תקף לאינטליגנציה של בינה מלאכותית. מבקרים טוענים כי הוא עשוי רק להדגים את היכולת של ה-AI לחקות דפוסי שפה ולא הבנה אמיתית או חשיבה. למרות שעברו את מבחן טיורינג, מודלים אלה נשארים אלגוריתמים מורכבים שאין להם מודעות עצמית. בעת בה הבינה המלאכותית הופכת למוכשרת יותר ויותר בחיקוי שיחה אנושית, עולות שאלות לגבי הרלוונטיות של המבחן בהערכת טבעה האמיתי של הבינה המלאכותית.