אלגוריתם אוטומטי לזיהוי Fake News

אלגוריתם אוטומטי לזיהוי Fake News

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

תחת האיום הגובר של מידע שגוי ודיסאינפורמציה המופצים באינטרנט חוקרים ומדענים רבים עבדו על פיתוח מערכת לזיהוי אוטומטי של "חדשות מזויפות" המסתמכת על למידת מכונה. עם זאת, יש מומחים המזהירים שאין לסמוך על המערכות האלה יותר מידי.

במחקר חדש, פרופ' דורית נבו ממכון הפוליטכני של רנסלאר פרסמה מחקר חדש הבוחן את הטעויות שכלי הזיהוי האלה עושים. החוקרים מצאו בעיות של הטיות דעה והכללות הנובעים מההכשרה והעיצוב של המודלים, כמו גם מהאופי הבלתי צפוי של תוכן חדשותי.

את המודלים האלה מאמנים באמצעות קבוצה של תוויות המכונות "ground truth" (אמת בסיסית), אבל האנשים המייצרים את התוויות עשויים בעצמם לא להיות בטוחים אם אייטם חדשותי מסוים אמיתי או מזויף, מה שיכול להפיץ הטיות של דעות שונות. ייתכן שצרכן אחד יראה תוכן מסוים כמוטה או מבוסס על דעות קדומות, בעוד שצרכן אחר עשוי לחשוב שהתוכן נכון. באופן דומה, מודל אחד עשוי לסמן תוכן כבלתי אמין, בעוד שמודל אחר יסמן אותו כאמת. ייתכן שמפתח אחת חושב שמודל מסוים הוא המודל הטוב ביותר, בעוד שמפתח אחר עשוי לא להסכים – יש להשיג הבנה ברורה של הנושאים האלה לפני שיהיה ניתן להחשיב מודל כאמין.

על פי Techxplore, צוות המחקר ניתח 140,000 כתבות מחודש אחד בשנת 2021 ובדק את הנושאים שעלו בעקבות מודרציה אוטומטית של התוכן, והגיע לשלוש מסקנות עיקריות – זה משנה מי בוחר את האמת הבסיסית, אוטומצית משימות עלולה להנציח הטיה ודעות קדומות, והתעלמות או פישוט ההקשר מצמצמים את התוקף של המחקר.

בנוסף, צריכים לעדכן ולהעריך מחדש את המודל כל הזמן, משום שהוא עלול להפוך לפחות מדויק עם הזמן והאמת הבסיסית עלולה להשתנות, ולכן מומחים חייבים לחקור גישות חדשות לביסוס האמת הבסיסית.

זיהוי לא מדויק של חדשות מזויפות יכול להיות בעל השלכות חמורות, וסביר להניח כי לעולם לא יהיה מודל אחד שמתאים לכל הסיטואציות. החוקרים מציעים שילוב של אוריינות תקשורתית עם מודל לזיהוי חדשות מזויפות לשם השגת התוצאות האמינות ביותר. אפשרות נוספת היא החלת מודל רק על נושא מסוים בניגוד לניסיון להכשיר אותו על כל נושא בו זמנית.

החוקרים מסכמים כי ניתן להגיע לפתרון יעיל וחזק על ידי שילוב של מספר פתרונות חלשים.