מה הוא מידג'רני (Midjourney) ואיך הוא עובד?
מידג'רני הוא כלי המופעל על ידי בינה מלאכותית, היוצר תמונות מהנחיות המשתמש. מידג'רני בקיאה בהתאמת סגנונות אמנות כדי ליצור תמונה עם שילוב הבקשות. אחד הדברים הטובים במידג'רני היא יצירת סגנונות, כשאחד הסגנונות שתפסו במיוחד, הוא סצנות פנטזיה ומדע בדיוני, בשילוב יחד עם תאורה דרמטית שנראית כמו אמנות קונספט מעובדת ממשחק וידאו.
אז, כיצד פועל מידג'רני?
מידג'רני הוא כלי ליצירת תמונות בינה מלאכותית שלוקח קלט דרך הודעות טקסט ופרמטרים ומשתמש באלגוריתם למידה חישובית (ML) המאומן על כמות גדולה של נתוני תמונה כדי לייצר תמונות ייחודיות. מופעל על ידי מודל דיפוזיה סמוי (LDM), טכניקת סינתזת טקסט לתמונה חדשנית. לפני שנבין איך LDMs עובדים, הבה נבחן מהם מודלים של דיפוזיה ומדוע אנחנו צריכים LDMs.
מודלים של דיפוזיה (DM) הם מודלים מחוללים מבוססי שנאים שלוקחים פיסת נתונים, למשל תמונה, ומוסיפים בהדרגה רעש לאורך זמן עד שלא ניתן לזהות אותו. בשלב זה, הם מנסים לשחזר את התמונה לצורתה המקורית, ובכך הם לומדים כיצד ליצור תמונות או נתונים אחרים.
הבעיה עם DMs היא שהחזקים צורכים לעתים קרובות מאות ימי GPU, וההסקה היא די יקרה בגלל הערכות עוקבות. כדי לאפשר אימון DM על משאבי חישוב מוגבלים מבלי לפגוע באיכותם כמו גם בגמישותם, DMs מיושמים במרחב הסמוי של מקודדים אוטומטיים חזקים שהוכשרו מראש.
אימון מודל דיפוזיה על ייצוג כזה מאפשר להגיע לנקודה אופטימלית בין הפחתת המורכבות לשימור הפרטים, תוך שיפור משמעותי בנאמנות החזותית. הצגת שכבת תשומת לב צולבת לארכיטקטורת המודל הופכת את מודל הדיפוזיה למחולל רב עוצמה וגמיש לכניסות מותנות בדרך כלל כגון טקסט ותיבות תוחמות, המאפשר סינתזה מבוססת-קונבולוציה ברזולוציה גבוהה.
עד עכשיו זה קצת סינית, נכון?
אבל רגע, יש עוד 🙂
גרסת "האור" (V5)
מידג'רני משחררת באופן שגרתי גרסאות חדשות כדי לשפר את היעילות, הקוהרנטיות והאיכות. הדגם האחרון הוא ברירת המחדל, אך ניתן להשתמש במודלים אחרים באמצעות הפרמטר של –version או –v או באמצעות הפקודה /settings ובחירת גרסא שונה. גרסאות שונות מצטיינות בסוגים שונים של תמונות. המודל החדש ביותר הוא של מידג'רני V5.1 הוא החדש והמתקדם ביותר, ששוחרר בתחילת חודש מאי, 2023. כדי להשתמש בדגם זה, הוסיפו את הפרמטר –v 5.1 לסוף הבקשה, או השתמשו בפקודה /settings כדי לבחור במידג'רני את גרסה 5.1
מה חדש מגרסא V5 והלאה?
הגרסא החדשה של מידג'רני עבר הכשרה על קבוצת העל בינה מלאכותית ונמצא בעבודות כבר מעל 5 חודשים. הוא משתמש בארכיטקטורות עצביות שונות באופן משמעותי ובטכניקות אסתטיות חדשות. V5 הוא לא השלב האחרון, שמדגיש את ההתקדמות של משהו עמוק ובלתי נתפס בכוח הדמיון האנושי הקולקטיבי שלנו.
– טווח סגנוני רחב בהרבה ומגיב בקלות יותר להנחיות
– איכות תמונה גבוהה בהרבה (עלייה ברזולוציה פי 2) טווח דינמי משופר
– תמונות מפורטות יותר. סביר יותר שהפרטים יהיו נכונים. פחות טקסט לא רצוי.
– ביצועים משופרים עם בקשת תמונה
– תומך בטיעון –tile עבור ריצוף חלק (ניסיוני)
– תומך ביחסי רוחב-גובה של –ar גדולים מ-2:1 (ניסיוני)
– תומך ב–iw לשקילת הנחיות תמונה לעומת הנחיות טקסט
סגנון ודרישה עבור גרסאות V5 ומעלה
– המבחן של היום הוא בעצם מצב 'פרו' של המודל.
– זה הרבה יותר 'חסר דעה' מ-v3 ו-v4, והוא מכוון לספק מגוון רחב של פלטים ולהגיב מאוד לקלט.
– הפשרה כאן היא שזה עשוי להיות קשה יותר לשימוש. ייתכן שהנחיות קצרות לא יעבדו גם כן. צריך לנסות לכתוב טקסט ארוך יותר ומפורש יותר על מה שתרצו (נגיד: "צילום קולנועי עם תאורה דרמטית")
– נא לשוחח זה עם זה בצ'אט מהיר כדי להבין כיצד להשתמש ב-v5.
– אנו מקווים שיהיה לנו סגנון ברירת מחדל 'ידידותי' עבור v5 לפני שנעביר אותו לברירת מחדל. כשזה יקרה, אנחנו עדיין נאפשר לך לכבות אותו ולחזור למשהו כמו המצב ה'גולמי' הזה היום.
שימו לב
– המודל הזה יכול ליצור תמונות הרבה יותר מציאותיות מכל מה שהצלחתם בעבר.
פרמטרים בסיסיים
יחסי גובה-רוחב
משנה את יחס הרוחב-גובה
–aspect, או –ar.
אי סדר
משנה את מידת המגוון של התוצאות. ערכים גבוהים, חריגים ובלתי צפויים יותר.
–chaos <מספר 0–100>
לא
–ללא הנחיה שלילית
–no plants
איכות
כמה זמן איכות בעיבוד להשקיע. ערך ברירת המחדל הוא 1. ערכים גבוהים יותר עולים יותר וערכים נמוכים יותר עולים פחות.
–quality <.25, .5, 1, or 2>, or –q <.25, .5, 1, or 2>
סיד (זרעים)
הבוט של מידג'רני משתמש במספר "זרעים" (סיד) כדי ליצור שדה של רעש חזותי, כמו טלוויזיה סטטי, כנקודת התחלה ליצירת רשתות התמונה הראשוניות. מספרי זרעים נוצרים באופן אקראי עבור כל תמונה, אך ניתן לציין אותם באמצעות –seed או –פרמטר אותו סיד. שימוש באותו מספר סיד והנחיה יפיק תמונות סיום דומות.
–seed <מספר שלם בין 0-4294967295>
עצירה
השתמשו בפרמטר –stop כדי לסיים עבודה באמצע התהליך. עצירת עבודה באחוז מוקדם יותר עלולה ליצור תוצאות מטושטשות ופחות מפורטות.
–stop <מספר שלם בין 10–100>
סִגְנוֹן
מעבר בין גרסאות של דגם מידג'רני גרסה 4
–סגנון <4a, 4b או 4c>
לְסַגְנֵן
פרמטר משפיע עד כמה הסגנון האסתטי המוגדר כברירת מחדל של מידג'רני מוחל על התוצאה.
–stylize <number>, או –s <number>
Uplight
השתמשו בקנה מידה "אור" חלופי בעת בחירת לחצני U. התוצאות קרובות יותר לתמונת הרשת המקורית. התמונה המוגדלת פחות מפורטת וחלקה יותר.
–uplight
אפבטא – UpBeta
שימוש ב-Upscale בטא חלופי בעת בחירת לחצני U. התוצאות קרובות יותר לתמונת הרשת המקורית. לתמונה המוגדלת יש הרבה פחות פרטים נוספים. ערכי ברירת מחדל (דגם גרסה 5)
–upbeta
תזכרו: יחסי גובה-רוחב גדולים מ-2:1 הם ניסויים ועשויים להפיק תוצאות בלתי צפויות.
הנה כמה דוגמאות להנחיות המשמשות ב- מידג'רני V5 והלאה
- conjoined twins attached at the side, dirty, tattered, cinematic light, ultra-realistic, high contrast, hdr, dark rich colors, photography, powerful, stare, weathered face, 30 – megapixel, 4k, 85 – mm – lens, sharp – focus, intricately – detailed, long exposure time, f/ 8, ISO 100, shutter – speed 1/ 125, diffuse – back – lighting, award – winning photograph, facing – camera, High – sharpness, depth – of – field, ultra – detailed photography –ar 3:2 –q 2 –v 5.
- Full Body beautiful blonde, wearing a brown jacket, photography, Canon EOS 5D Mark IV DSLR camera, EF 50mm f/1.8 STM lens, Resolution 30.4 megapixels, ISO sensitivity: 32,000, Shutter speed 8000 second –ar 9:16 –upbeta –v 5.hasselblad 24mm full body shot photography of gorgeous satisfied looking African woman, detailed natural skin, no makeup, detailed eyes, long dreadlocks –ar 2:3 –q 5 –v 5 –v 4.
- Hasselblad 24mm full body shot photography of gorgeous satisfied looking African woman, detailed natural skin, no makeup, detailed eyes, long dreadlocks –ar 2:3 –q 5 –v 5 –v 4
- Beautiful dark red sunset over the sea shore at night, intricate, amazing, beautiful, realistic, ultra-high resolution, wide angle, depth of field, dynamic lighting –ar 1:2 –v 5 Thank you for providing more examples of Midjourney prompts.
דוגמאות אלה מדגימות יותר את רמת הפירוט והספציפיות שניתן להשתמש בה בהודעות טקסט כדי ליצור תמונות רצויות. ההנחיות עושות שימוש בפרמטרים שונים כמו יחס רוחב-גובה, איכות והגדרות גרסה, יחד עם תיאורים מפורטים של הנושא הרצוי, תאורה והגדרות המצלמה. דוגמאות אלו יהיו שימושיות להבנת מגוון האפשרויות בעת יצירת תמונות באמצעות מידג'רני.