צ'אט GPT לא עובר את מבחן טיורינג – מה זה אומר?

צ'אט GPT לא עובר את מבחן טיורינג – מה זה אומר?

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

מאז שצ'אט GPT יצא לציבור בשנת 2022, מומחים לבינה מלאכותית תוהים אם הוא עמד במבחן טיורינג, בו משתמשים למדוד האם מכונה יכולה ליצור פלט שלא ניתן להבדיל בינו לבין תגובה אנושית. לפי שני חוקרים מאוניברסיטת קליפורניה בסן דייגו, הצ'אטבוט מתקרב לכך- אבל לא לחלוטין.

אין ספק שצ'אט GPT חכם, זריז, ומציג תדמית של אינטליגנציה (הוא נשמע אנושי ואפילו מראה הומור), אבל במקביל הוא לפעמים מספק מידע כוזב לחלוטין, הוזה ואינו משקף את התפוקה של עצמו.

החוקרים, קמרון ג'ונס ובנג'מין ברגן, פנו לעבודתו של אלן טיורינג, שהמציא תהליך שקובע אם מכונה יכולה להגיע לנקודה של אינטליגנציה ויכולת שיחה שבה היא יכולה לשטות במישהו ולגרום לו לחשוב שהיא אנושית.

בדו"ח שלהם "האם GPT-4 עובר את מבחן טיורינג?" הם אספו 650 משתתפים ויצרו 1,400 "משחקים" הכוללים שיחות קצרות שנערכו בין המשתתפים לבין אדם אחר או מודל GPT. המשתתפים התבקשו לקבוע עם מי הם מדברים.

על פי Techxplore, דגם GPT-4 הוליכו שולל את המשתתפים בכ-41% מהמקרים, ולעומת זאת דגם GPT-3.5 רימה אותם רק ב5-14% מהמקרים. מעניין עוד יותר הוא שבני אדם הצליחו לשכנע את המשתתפים שהם לא מכונה רק ב-63% מהניסויים.

החוקרים סיכמו כי לא מצאו ראיות לכך ש-GPT-4 עבר את מבחן טיורינג. עם זאת, הם ציינו כי מבחן טיורינג הינו עדיין מדד בעל ערך ליעילות של דיאלוג מכונה.

עם זאת, הם הזהירו כי צ'אטבוטים עדיין יכולים לתקשר בצורה משכנעת מספיק כדי לשטות במשתמשים במקרים רבים – "שיעור הצלחה של 41% מצביע על כך שהולכת שולל על ידי מודלים של בינה מלאכותית כבר עשויה להיות סבירה, במיוחד בהקשרים בהם בני שיח אנושיים פחות ערניים לאפשרות שהם לא מדברים עם בן אדם", כך אמרו, והוסיפו כי מודלים של בינה מלאכותית המסוגלים להתחזות לבני אדם עלולים להיות בעלי השלכות חברתיות וכלכליות נרחבות.

כאשר מדובר בתהליך זיהוי השותף לשיחה, המשתתפים התמקדו במספר גורמים, כמו פורמליות- מודלים שהיו יותר מידי או פחות מידי רשמיים הדליקו "נורה אדומה" אצל המשתתפים בניסוי. אינדיקטורים אחרים היו שימוש נרחב מידי חסכני מידי במילים, או שימוש טוב מדי או "גרוע באופן לא משכנע" בדקדוק וסימני פיסוק.

לבסוף, על פי הדיווחים, המשתתפים היו רגישים לתגובות שנשמעו "גנריות מידי". החוקרים הסבירו: "מודלי שפה גדולים לומדים לייצר השלמות סבירות, והם מכווננים היטב בכדי למנוע יצירת דעות שנויות במחלוקת. תהליכים אלה עשויים לעודד תגובות גנריות טיפוסיות באופן כללי שחסרות את הייחודיות האופיינית לאדם: סוג של כשל אקולוגי".

החוקרים סיכמו כי חשוב לעקוב אחר מודלים של בינה מלאכותית בעודם צוברים יותר יכולת תמרון וסופגים יותר תכונות אנושיות ביכולות השיחה, וקבעו כי נהיה יותר ויותר חשוב לדעת זהות גורמים שמובילים להונאה, ולפתח אסטרטגיות כדי להתמודד עם התופעה.