This post is also available in: 
     English (אנגלית)
English (אנגלית)
בינה מלאכותית גנראטיבית (Generative AI) מתמודדת מזה זמן רב עם אתגרים בייצור תמונות עקביות ואיכותיות. מודלים קיימים מכילים בעיות כגון פרטים שגויים, סימטריית פנים לא עקבית ובעיות בגודל תמונה ורזולוציה. עם זאת, פריצת דרך של מדעני המחשב באוניברסיטת רייס מבטיחה לטפל בבעיות אלה ולשפר את האיכות של תמונות שנוצרו על ידי בינה מלאכותית.
מודלים מסורתיים של בינה מלאכותית גנראטיבית, כגוןStable Diffusion ,MidJourney ו-dall-E, יוצרים תמונות על ידי הוספת רעש אקראי לתמונות אימון ולאחר מכן הסרה של הרעש הזה כדי ליצור תמונות חדשות. בעוד שמודלים אלה מרשימים ביצירת תמונות מציאותיות ופוטוראליסטיות, הם מתקשים עם נושאים מסוימים, במיוחד כאשר יוצרים תמונות בממדים שאינם מרובעים. מודלים אלה לעתים קרובות גורמים לאלמנטים רפטטיבים או מעוותים כאשר צריכים לייצר תמונות עם יחסים שונים הנדרשים עבור מסכים שונים.
דוקטורנט אוניברסיטת רייס מואייד חאג'י עלי הציג גישה חדשה בשם ElasticDiffusion, שהוצג בכנס של המכון למהנדסי חשמל ואלקטרוניקה (IEEE) לשנת 2024 על Computer Vision וזיהוי דפוסים (CVPR) בסיאטל. ElasticDiffusion נועד לפתור את הבעיות הקשורות לתמונות שאינן מרובעות ולשפר את הדיוק הכולל של התמונה שנוצרה.
חאג'י עלי מסביר כי בעוד ש- diffusion modelsמצטיינים ביצירת תמונות מרובעות, הם נתקלים בקשיים כאשר מוטלת עליהם המשימה ליצור תמונות של עם יחסים שונים. בעיה זו נובעת מכך שמודלים אלה משלבים אותות מקומיים וגלובליים – מידע מפורט ברמת הפיקסלים ומתאר התמונה הכולל – אל תוך זרם נתונים יחיד. כאשר מתמודדים עם ממדים שאינם מרובעים, המודלים מייצרים לעתים קרובות פגמים חזותיים בשל החזרה או חוסר התאמה של אותות אלה.
שיטת ElasticDiffusion מחדשת על ידי הפרדת אותות מקומיים וגלובליים לנתיבי גנרציה מותנים ולא מותנים. הפרדה זו מאפשרת למודל לטפל בשטח הנוסף הנדרש לתמונות שאינן מרובעות בצורה יעילה יותר. על ידי חיסור המודל המותנה מהמודל הלא-מותנה, ElasticDiffusion מייצר ציון שמכיל את המידע הכולל של התמונה. לאחר מכן, היא שמה נתונים מפורטים ברמת הפיקסלים ברביעים, ומבטיחה כי מידע גלובלי כגון יחס הממדים ותוכן התמונה יישאר שלם וימנע בלבול.
למרות התוצאות המבטיחות שלו, ElasticDiffusion דורש כיום זמן עיבוד גדול פי 6-9 בהשוואה למודלים אחרים של דיפוזיה. צוות המחקר שואף לצמצם את הזמן הזה כדי להתאים את היעילות של מודלים כמוStable Diffusion ו-dall-E,תוך שמירה על איכות התמונה משופרת.
הצגת ElasticDiffusion מסמנת צעד משמעותי קדימה ב-Generative AI, ומציעה את הפוטנציאל ליצירת תמונה מדויקת ורב-תכליתית יותר. התקדמות זו יכולה לשנות את האופן שבו משתמשים במודלים של בינה מלאכותית ביישומים שונים, החל באמנות דיגיטלית וכלה בזיהוי אובייקטים בעולם האמיתי.

 
            
