בינה מלאכותית והבעיה של "גירוד נתונים"

בינה מלאכותית והבעיה של "גירוד נתונים"

image provided by pixabay

This post is also available in: enEnglish (אנגלית)

כלי בינה מלאכותית רבים מכשירים את מודלי השפה הגדולים שלהם באמצעות נתונים ציבוריים, אבל עכשיו אתרי מדיה חברתית רבים מחפשים דרכים להגן על המידע שלהם מפני גירוד נתונים (Data Scraping). הבעיה היחידה היא שכיום גירוד נתונים אינו בלתי חוקי.

על פי אתר Cybernews, גירוד נתונים מתייחס לתוכנית מחשב המחלצת נתונים מהפלט שנוצר מתוכנית אחרת, מה שהופך לבעיה גדולה עבור אתרי מדיה חברתית גדולים כמו טוויטר או רדיט.

דוגמה לכך היא מייסד רדיט סטיב הופמן שאמר לניו יורק טיימס שזה לא מקובל שחברות בינה מלאכותית כמו OpenAI מגרדות כמויות אדירות של נתונים מאתר רדיט כדי להכשיר את המערכות שלהן בצורה חינמית. לאחר מכן הוא התחיל לגבות כסף בשביל הגישה לנתונים של האתר, והכעיס אלפי משתמשים.

גוגל עומדת גם היא בפני תביעה שהוגשה לאחר שעדכנה את מדיניות הפרטיות שלה כדי לאפשר גירוד נתונים למטרות אימון בינה מלאכותית, וחברת OpenAI עומדת בפני תביעה בגין שימוש לכאורה בספרים המוגנים בזכויות יוצרים ללא רשות על מנת להכשיר את מערכות הבינה המלאכותית שלה.

לדברי דן פינטו, מייסד שותף ומנכ"ל Fingerprint, מודלים של בינה מלאכותית אינם היחידים שיכולים לגרד נתונים של חברות לצורך הכשרה. גורמים זדוניים או אפילו מתחרים עלולים לגנוב נתונים של החברה לאימון מערכות בינה מלאכותית, או למטרות זדוניות יותר.

פינטו מסביר בראיון ל-Cybernews שכדי להתמודד עם בעיה זו, חברות יכולות ליישם חומות אש ביישומי אינטרנט ולחסום טווחי כתובות IP של מדינות ומרכזי נתונים שידוע כי מארחים "מגרדי נתונים", או לחילופין להוסיף מערכת זיהוי CAPTCHA. עם זאת, הוא הסתייג "עם גירוד נתונים, אתה אף פעם לא יכול למנוע 100% מהניסיונות. המטרה שלך היא להגדיל את רמת הקושי של המגרדים לרמה הנכונה עבור העסק שלך".

כשנשאל על מקרים כמו של טוויטר ורדיט, פינטו טען שכמו מפתחים רבים של אפליקציות צד שלישי, חברות צריכות לשמור על ממשקי API (ממשקי תכנות יישומים) פתוחים ולגבות מחירים מתאימים, ובו בעת להפוך גירוד נתונים למאוד מאתגר.

אבל יש בעיה מסוימת משום שגירוד נתונים אינו בלתי חוקי, בינתיים.

מצד אחד, גירוד ו-"זחילה" של נתונים רגילים יכולים אפילו לעזור לעסקים לצמוח הרבה יותר מהר. פינטו מספק דוגמה בה הוא עצמו עבד בשביל מנוע חיפוש עבור מכונות משומשות, והשתמש בזחילה כדי לאסוף מידע על המכונות הזמינות למכירה באינטרנט. הוא טוען כי הוא רואה את הפעולה הזאת כמוסרית "משום שזה עזר לרוכשי ציוד ולמוכרים להשלים הרבה יותר עסקאות משהיו בעבר".

מצד שני, הפעולה הזאת הופכת לבעייתית במקרים בהם מידע שאינו זמין לציבור מופק, אז ללא קשר לכוונה זה הופך לגניבה.

"עדיין מנסים לפענח תקנות, מדיניות, ואפילו שיטות עבודה מומלצות, אבל פסקי הדין האחרונים הצביעו על כך שאם מידע זמין לציבור באופן גלוי, הוא צריך להיות נגיש לבוטים", סיכם פינטו. "זה מצביע שוב על ההתמקדות בהפיכת הגירוד למסובך יותר במקום להסתמך על תביעות משפטיות בלבד".