שיטה מהפכנית לזיהוי טקסט שנוצר על ידי AI

שיטה מהפכנית לזיהוי טקסט שנוצר על ידי AI

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

דיוק, הבחנה, וגילוי מידע שגוי הן יכולות קריטיות בסביבה המקוונת של ימינו, בה יש לטקסטים קצרים (כמו פוסטים ותגובות במדיה החברתית) תפקיד כה מרכזי בהפצת מידע, ומחזיקים כוח והשפעה עמוקה על דעת הקהל והשיח האינטרנטי.

שיטה חדשה שפותחה מזהה כאשר טקסט נוצר על ידי AI, ומבטיחה לחולל מהפכה באופן שבו אנו מאמתים תוכן דיגיטלי. עבודה זו של מדעני מחשב באוניברסיטתColumbia Engineering  מתייחסת לחששות הגוברים סביב מודלים של שפה גדולה, יושרה דיגיטלית, מידע שגוי ואמון.

הפיתוח של Raidar (זיהוי AI גנרטיבי ע"י שכתוב) הובל על ידי הפרופסורים למדעי המחשב ג'ונפנג יאנג וקרל וונדריק. Raidar מספק גישה חדשנית לאבחנה האם טקסט נכתב על ידי אדם או נוצר על ידי בינה מלאכותית, והוא עושה זאת מבלי להזדקק לגישה לפרטים הפנימיים של המודל.

לפי Techxplore, החוקרים השתמשו במאפיין ה-"עקשנות" הייחודי של מודלי שפה גדולים – הם מדווחים כי מודלי שפה גדולים נוטים לשנות טקסט שנכתב על ידי אדם יותר מאשר טקסט שנוצר על ידי AI, ייתכן כי המודלים הללו רואים טקסט שנוצר על ידי AI כאופטימלי ולכן מבצעים בו שינויים מינימליים בלבד.

ריידר משתמש במודל שפה כדי לנסח מחדש או לשנות טקסט נתון ולאחר מכן מודד כמה עריכות ביצעה בו המערכת. המערכת מקבלת טקסט (יכול להיות פוסט מהמדיה החברתית, סקירת מוצר, פוסט בבלוג, וכו') ולאחר מכן מבקש ממודל השפה הגדולה לשכתב אותו. המודל מחזיר את הטקסט המשוכתב ל-Raidar שבתורו משווה בין שתי הגרסאות ומודד את השינויים שנעשו – שינויים רבים מצביעים על טקסט שנכתב על ידי אדם, בעוד שינויים מעטים מצביעים על טקסט שככל הנראה נוצר ע"י מכונה.

שיטה זו משיגה תוצאות מדויקות להפליא אפילו בטקסטים ומקטעים קצרים, התקדמות משמעותית מטכניקות קודמות שדרשו טקסטים ארוכים לצורך השגת דיוק טוב. המודל משיג דיוק כזה בכך שהוא משתמש במודלי מתקדמים כדי לשכתב את הקלט ללא צורך לגשת לארכיטקטורה, האלגוריתמים, או נתוני האימון של מערכת הבינה המלאכותית – זה אומר שהוא הראשון מסוגו בתחום זיהוי הטקסט שנוצר ע"י AI.

המחבר הראשי של המאמר, צ'נג-ג'י מאו, דוקטורנט לשעבר באוניברסיטת Columbia Engineering, מסביר: "היכולת של השיטה שלנו לזהות במדויק תוכן שנוצר על ידי בינה מלאכותית ממלאת פער מכריע בטכנולוגיה הנוכחית. זה לא רק מרגש, זה חיוני לכל מי שמעריך את שלמות התוכן הדיגיטלי ואת ההשלכות החברתיות של היכולות המתרחבות של הבינה המלאכותית".

במבט לעתיד, Raidar מבטיח להיות כלי משמעותי במאבק בהפצת מידע שגוי ובהבטחת אמינותו של מידע דיגיטלי. צוות הפיתוח עובד בנוסף ליצור דרכים לזיהוי תמונות, וידאו ושמע שנוצרו על ידי AI, במטרה לפתח כלים מקיפים לזיהוי תוכן AI בתחומי מדיה מרובים.