חברה סינית משיקה מודל שפה מתקדם בקוד פתוח, אבל יש כמה בעיות

Image by Unsplash

This post is also available in: English (אנגלית)

DeepSeek, שם עולה בעולם הבינה המלאכותית, חשפה את מודל השפה הפתוח החדש שלה, DeepSeek-R1, בטענה שהוא מתחרה במודלים מובילים כמו O1-1217 של OpenAI במדדים רבים. עם 671 מיליארד פרמטרים וגישה ייחודית בה רק 37 מיליארד פרמטרים פועלים בכל זמן נתון, DeepSeek-R1 מבטיח ביצועים יוצאי דופן תוך שמירה על יעילות חישובית. המודל כבר זוכה לשבחים על יכולותיו המתקדמות במשימות כמו חשיבה מתמטית, כתיבת קוד והבנת שפה כללית.

על פי הדיווחים, DeepSeek-R1 מתעלה על המתחרים שלו בכמה תחומים קריטיים. על פי בדיקות פנימיות, הוא קיבל ציון של 79.8% ב-AIME 2024, מעט מעל O1-1217 של OpenAI. ב-MATH-100, הוא השיג ציון של 97.3%, גם קצת יותר טוב מהמודל של OpenAI, תוך שהוא משיג ביצועים טובים יותר ממודלים אחרים. המודל גם מצטיין בפלטפורמות כתיבת קוד כמו Codeforces, מה שמציב אותו ב-4% העליונים של המשתתפים הגלובליים. העובדה שהמודל הוא בקוד פתוח מאפשר למפתחים ולחברות להוריד וליישם את המודל, יתרון משמעותי עבור אלה המחפשים להימנע מבניית מודלי בינה מלאכותית בעצמם.

מבחינת תמחור,  DeepSeek-R1הוא תחרותי מאוד, ומציע API במחיר זול בהרבה מההצעות של OpenAI. בנוסף, דגמים קטנים יותר של המודל זמינים גם עבור אלה עם צרכים תובעניים פחות.

עם זאת, בעוד שהביצועים הטכניים של המודל זכו לתשומת לב, הוא מתאפיין בצנזורה שגרמה להרמת גבות. על פי דיווח של Cybernews, DeepSeek-R1 מסרב להתייחס לנושאים רגישים כמו המחאות בכיכר טיאננמן, טייוואן, או תוקפי סייבר סינים, כך שלעתים קרובות הוא מנתב מחדש שאילתות כאלה עם הצהרות מעורפלות. המודל דבק אך ורק בנרטיב התואם את עמדת הממשלה הסינית. צנזורה זו היא נקודה בעייתית מרכזית, שכן היא מגבילה את האובייקטיביות של המודל ומורידה את המשיכה הבינלאומית שלו.

למרות חששות אלה, המפרט הטכני של DeepSeek-R1 והעובדה שהוא זמין בקוד פתוח ממקמים אותו כשחקן יוצא דופן בנוף הבינה המלאכותית, מה שעלול לשבש את הדומיננטיות של ענקיות הטכנולוגיה האמריקאיות. עם זאת, מדיניות הצנזורה שלה עשויה לעכב את אימוצו בשווקים שבהם חופש המידע נמצא בעדיפות עליונה, ואולי עדיף שכך.