שימוש בבינה מלאכותית לניטור על טרור באינטרנט

שימוש בבינה מלאכותית לניטור על טרור באינטרנט

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

פלטפורמות המדיה החברתית מוצפות כל הזמן בכמויות אדירות של תוכן, וצריך לנטר על הכמויות הללו באופן שוטף כדי לאתר תוכן מזיק או לא חוקי, כמו קידום טרור ואלימות. נפח הנתונים העצום אומר שאנשים לא יכולים לבצע את הבדיקה באופן ידני, ולכן השימוש בכלים אוטומטיים כמו כלי AI הוא חיוני. הבעיה היא שיש לכלים האלה מספר מגבלות.

המאמצים האחרונים לפתח כלים לזיהוי והסרה של תוכן טרור באינטרנט דורבנו בחלקם על ידי חוקים ותקנות חדשים, כולל הרגולציה המקוונת על תכני טרור של האיחוד האירופי המחייבת ספקי שירותים להסיר תוכן טרור מהפלטפורמה שלהם בתוך שעה אחת מקבלת צו הסרה מרשות לאומית מוסמכת.

לפי Techxplore, ישנם שני סוגים של כלים לחיסול תוכן טרוריסטי – הכלי הראשון עובר על חשבון מסוים והדרך בה הוא מתנהל ושולח הודעות, כמה זמן החשבון קיים, השימוש בתיוגים טרנדיים או לא קשורים, ונפח תגובות ופרסומים חריג. כלי זה דומה לכלי זיהוי ספאם מכיוון שהוא אינו מסתכל על התוכן עצמו, והוא שימושי לזיהוי הפצה מהירה של כמויות גדולות של תוכן ע"י בוטים.

הסוג השני של כלי הוא מבוסס תוכן המתמקד במאפיינים לשוניים, שימוש במילים, תמונות וכתובות אינטרנט. כלים אוטומטיים מבוססי תוכן נוקטים באחת משתי גישות:

  • התאמה: השוואת תמונות או סרטונים למסד נתונים קיים של תמונות וסרטונים שזוהו בעבר כטרוריסטים בטבעם. הבעיה היא שקבוצות טרור מנסות לעתים קרובות להתחמק משיטות כאלה על ידי יצירת גרסאות שונות במקצת של אותו התוכן.
    כדי להתמודד עם בעיה זו, כלים מבוססי התאמה בדרך כלל משתמשים בגיבוב תפיסתי (perceptual hashing) המתמקד בדמיון, מתעלם משינויים קלים (כמו התאמת צבע פיקסלים), אך מזהה תמונות עם אותו עקרון תוכן.
  • סיווג: משתמש בלמידת מכונה וצורות אחרות של AI כדי לסווג תוכן. לשם כך, הבינה המלאכותית זקוקה לדוגמאות רבות המתויגות כתוכן טרוריסטי, ועל ידי ניתוח הדוגמאות היא לומדת אילו תכונות מבדילות סוגים שונים של תוכן, ויודעת לסווג תוכן חדש בכוחות עצמה.
    לאחר הכשרה, האלגוריתמים יכולים לחזות אם פריט תוכן חדש שייך לאחת הקטגוריות שצוינו, אשר לאחר מכן מוסר או מסומן בדגל לבדיקה אנושית.
    גישה זו בעייתית משום שאיסוף והכנה של מערך נתונים גדול לאימון האלגוריתמים גוזל זמן רב ודורש משאבים רבים. יתר על כן, נתוני האימון יכולים להפוך במהירות ללא רלוונטיים משום שטרוריסטים כל הזמן משתמשים במונחים חדשים ודנים באירועים עולמיים ועניינים עכשוויים.

המסקנה היא שהקלט האנושי נשאר חיוני למרות ההתקדמות של הבינה המלאכותית, והינו חשוב לשימור מסדי וערכות נתונים, להערכת תוכן המסומן לבדיקה ולהפעלה של תהליכי ערעור.

מומחים ממליצים על יוזמות שיתופיות בין ממשלות והמגזר הפרטי, בטענה כי ארגונים בינלאומיים, ממשלות ופלטפורמות טכנולוגיות חייבים לתעדף את הפיתוח של משאבים שיתופיים כאלה משום שבלעדיהם זה יהיה בלתי אפשרי לטפל ביעילות בתוכן טרור מקוון.