تصاویر ساختهشده با هوش مصنوعی این روزها به موضوع داغی در فضای مجازی تبدیل شدهاند. چندان عجیب نیست که ابزارهای مدرن هوش مصنوعی برندهی جایزههای معتبر عکاسی شوند. صرفنظر از اینکه مولدهای تصویر هوش مصنوعی را دوست داشته باشید یا از آنها متنفر باشید، این ابزارها به محبوبیت بالایی رسیدهاند و گویا قصد توقف هم ندارند.
امروزه ابزارهای هوش مصنوعی متعددی برای ساخت عکس از دستور متنی، توسعه یافتهاند. این ابزارها در ابتدا با نواقصی همراه بودند، اما بهتدریج عملکرد دقیقتری پیدا کردند بهگونهای که حتی تشخیص عکسهای هوش مصنوعی از تصاویر واقعی بسیار مشکل شد و ابزار دیگری توسعه پیدا کرد تا بتواند تصاویر هوش مصنوعی را تشخیص دهد.
مهمترین نکته در مورد استفاده از هر ابزار هوش مصنوعی این است که بدانیم چگونه یک سری جمله را بیان کنیم تا نتیجهی تولید شده تا حد ممکن به ایدهی ما نزدیک شود. درخواست متنی باید کاملاً دقیق و همراه با بیشترین جزئیات موردنظر باشد.
یکی از ویژگیهای ابزارهای ساخت عکس با هوش مصنوعی سبکدهی به تصویر است. شما میتوانید از سبکهای نقاشی مختلفی مانند آبرنگ یا نقاشی آکریلیک در پایان توصیف متنی خود استفاده کنید. علاوهبر این، میتوان با عباراتی مانند کارتون سهبعدی، کارتون دهه ۹۰ یا کلیپآرت، حالت کارتونی خاصی را برای تصویر ایجاد کرد.
چطور با هوش مصنوعی عکس بسازیم؟
برای ساخت عکس با هوش مصنوعی با هر ابزاری ابتدا باید درخواست متنی خود را با تمامی جزئیات لازم جهت تصویرپردازی ارائه دهیم. برای نمونه میتوانیم درخواست خود را به این صورت بنویسیم:
اتاق نشیمن مدرن داخل یک آپارتمان در شهری بزرگ در هنگام بعد از ظهر. این اتاق پنجرههای بزرگ کشیده داشته باشد و روی دیوار، تابلوی نقاشی با سبک Art Deco نصب شده باشد و یک پلیر موسیقی، صندلی راحتی و قفسهی کوچکی از کتاب در این اتاق وجود داشته باشند.
ابزارهای ساخت عکس با هوش مصنوعی
پس از آمادهسازی دستور مورد نظر، اکنون باید دستور را در پنجرهی چت یا کادر گفتوگوی ابزارهای هوش مصنوعی وارد و بدینشکل درخواست ساخت عکس را بدهیم. در این مقاله میخواهیم ضمن معرفی بهترین و محبوبترین مولدهای تصویر و قابلیتهای آنها، توصیف متنی گفتهشده را به هریک بدهیم و خروجی آنها را ببینیم و با یکدیگر مقایسه کنیم.
DALL-E 3
DALL-E اولین مولد تصویر هوش مصنوعی بود که در سال ۲۰۲۱ بر سر زبانها افتاد. جدیدترین نسخهی این مولد با عنوان DALL-E3 دارای سطح و قابلیتهای درک زبانی بالاتری از DALL-E2 است. ابزار مورد بحث توسط OpenAI توسعه یافته و از قدرت مدل زبانی بزرگ GPT-4 بهره میبرد.
با توجه به تصاویری که نسخه سوم DALL-E تولید کرده، میتوان گفت میزان دقت و وضوح و همچنین کیفیت آنها نسبت به نسخههای قبل بهبود چشمگیری یافته است. نسخهی دوم DALL-E به برخی از کلمات در دستور متنی توجه نمیکرد و این موضوع باعث میشد تا نتیجهی نهایی مورد انتقاد کاربران قرار بگیرد. اما OpenAI وعده داد که نسخهی سوم این سرویس، متنها را بسیار بهتر درک میکند.
در تصاویر زیر، مقایسهای میان DALL•E 2 و DALL•E 3 انجام شده است. به هر دو نسخه این توصیف متنی داده شده است: «یک نقاشی روغنی از یک کلوچهی شکلاتی که در یک لیوان شیر فرو میرود و انفجاری از طعمها نشان داده میشود.»
با وجود اینکه دسترسی مستقیم به DALL-E3 نیاز به تهیهی اشتراک در سایت OpenAI دارد و برای کاربران ایرانی با محدودیت همراه است؛ مایکروسافت آن را بهصورت رایگان از طریق هوش مصنوعی بینگ و کوپایلت در اختیار میگذارد.
Bing Image Creator
Bing Image Creator ابزار ساخت تصویر با هوش مصنوعی در موتور جستجوی بینگ مایکروسافت است که از نسخهی حرفهای DALL-E 3 شرکت OpenAI بهره میبرد و به کاربران اجازه میدهد تصویر مورد نظر خود را براساس توصیف متنی ایجاد کنند. بدین ترتیب دیگر نیازی به پرداخت هزینه برای استفادهی مستقیم از Dall-E نخواهد بود. مولد تصویر بینگ از زبان فارسی پشتیبانی میکند.
بینگ ایمیج کریتیور دارای مجموعه ابزار متنوعی نیست. با این حال برای استفادهی شخصی میتواند سرگرمکننده باشد. تمام تصاویر این مولد با نسبت مربعی ۱:۱ و ۱۰۲۴ در ۱۰۲۴ پیکسل تولید میشوند. رابط کاربری آسان است و همچنین میتوانید تصاویر تولیدشده را بدون واترمارک ذخیره کنید. استفاده از این ابزار تنها منوط به داشتن اکانت مایکروسافت خواهد بود.
گوگل جمنای (Gemini)
چتبات Gemini گوگل که در ابتدا تحت عنوان بارد شناخته میشد، به پشتوانهی مدل هوش مصنوعی Imagen 2 میتواند عکس هم تولید کند و بهزودی نتایج آن بهلطف نسخه جدید مدل هوش مصنوعی Imagen 3 نیز بهتر خواهد شد. ابزارهای مبتنی بر هوش مصنوعی مولد در جمنای، ImageFX، موتور جستوجو، تبلیغات، Duet AI و Vertex AI توسط مدل زبانی بزرگ Imagen 2 پشتیبانی میشوند. برای تبدیل متن به تصویر در جمنای، باید در ابتدای درخواست متنی خود به آن بفهمانید که به دنبال تصویری با ویژگیهای مدنظر هستید.
ImageFX
ابزار تولید تصویر ImageFX از مدل زبانی بزرگ Imagen 2 گوگل برای تبدیل متن به عکس قدرت میگیرد. این ابزار توانایی بسیار جذابی در راهنماییکردن کاربر برای نوشتن بهترین درخواست دارد. به عنوان مثال، کلیدواژههای مهم داخل درخواست متنی را استخراج و برای هرکدام چند گزینه پیشنهاد میدهد تا آن را ویرایش و بهینه کند (مانند تصویر زیر).
استفاده از این ابزار نیز رایگان است اما متأسفانه از زبان فارسی پشتیبانی نمیکند.
استیبل دیفیوژن (Stable Diffusion)
استیبل دیفیوژن را میتوان یکی از قدرتمندترین ابزارهای تولید و ویرایش تصویر دانست. این ابزار از دقت بالایی در جزئیات تصاویر دارد و سعی میکند عکس ساختهشده بیشترین انطباق را با درخواست کاربر داشته باشد.
اشتراک رایگان استیبل دیفیوژن اجازهی ساخت ۱۰ عکس در روز را میدهد و تصاویر دارای واترمارک خواهند بود. علاوهبراین، امکانات پیشرفتهتری مانند افزایش کیفیت تصویر و حق نشر تصویر نیز در حالت رایگان وجود ندارد و عکسها بهصورت عمومی برای بقیهی کاربران قابل مشاهده خواهند بود.
استیبل دیفیوژن در بخش تبدیل متن به تصویر ویژگیهای منحصربهفردی دارد، از جمله:
امکان اضافهکردن درخواست منفی (Negative Prompt) برای المانهایی که نمیخواهیم در تصویر وجود داشته باشند.
تعیین استایل تصویر، مانند فانتزی، آبرنگ، نقاشی، پیکسل آرت، واقعگرایانه، انیمه، فیلم آنالوگ و موارد دیگر.
تعیین نسبت تصویر، از حالت مربعی، تا افقی و عمودی در نسبتهای مختلف.
مشخصکردن تعداد تصاویر تولیدشده در هربار درخواست.
حذف پسزمینهی عکس و حذف هوشمند برخی عناصر تصویر
UpScale یا افزایش وضوح و ابعاد تصویر
امکان تبدیل نقاشی و طراحی به تصویر
نصب نرمافزار استیبل دیفیوژن در کامپیوتر امکان اجرای محلی این ابزار را بدون نیاز به اینترنت فراهم میآورد. با این حال، طبق گفتهی Stability AI، لازم است حداقل ویندوز ۱۰ روی سیستم نصب باشد و از کارت گرافیک انویدیا با حداقل ۴ گیگابایت VRAM استفاده شود، گرافیکهای مجتمع پاسخگو نخواهند بود.
برای استفاده از نسخهی تحت وب استیبل دیفیوژن، کافی است که با ورود به وبسایت StableDiffusionOnline، دستور مورد نظر خود را تایپ کنید تا به خروجی دلخواهتان برسید.
اپلیکیشن استیبل دیفیوژن برای گوشی آیفون و گوشیهای اندرویدی از طریق گوگل پلی و اپ استور قابل دریافت است.
DreamStudio
دریم استودیو ابزار قدرتمند دیگری از Stability AI است. با ورود به سایت DreamStudio میتوانید اپلیکیشنی جذاب با امکانات متعدد را مشاهده کنید. با این اپلیکیشن میتوانید چند تصویر را بهصورت یکجا بسازید و نسبت تصویر و عناصر مشخص را در اثر هنری خود تغییر دهید. دریم استودیو مانند استیبل دیفیوژن سبکهای متفاوتی را در اختیار کاربر قرار میدهد.
در تب Edit میتوانید بخشهایی از تصویر ساختهشده را اضافه یا حذف کنید. برای مثال، بهکمک Eraser بخشی از عکس را پاک و با نوشتن دستور متنی آن ناحیه را پر میکنید. DreamStudio قابلیتهای Inpainting و Outpainting دارد که امکان ویرایش محتوای داخل عکس و گسترش مرزهای آن را میدهند. میتوانید همزمان چند نسخه از یک تصویر بهوجود بیاورید تا از هریک از آنها الهام بگیرید. علاوهبراین، در این ابزار میتوان وضوح تصاویر را افزایش داد.
متأسفانه برای استفاده از دریم استودیو باید هزینه بپردازید؛ اما هنگام ثبتنام، ۲۵ اعتبار رایگان یا ۱۲۵ بار تولید تصویر خواهید داشت. با پرداخت حداقل ۱۰ دلار میتوانید ۵۰۰۰ تصویر بسازید.
میدجرنی (Midjourney)
با اینکه میدجورنی اولین مولد تصویر هوش مصنوعی نبود، خیلی زود به انتخاب اول خیلی از افراد تبدیل شد. توانایی میدجرنی در ساخت تصاویر واقعگرایانه و دقیق موجب شد که میدجرنی ۶ مورد توجه و استقبال بسیاری از کاربران قرار بگیرد.
میدجرنی برخلاف سایر ابزارها امکان دسترسی مستقیم از طریق سایت یا اپلیکیشن ندارد و باید اکانت دیسکورد داشته باشید. کاربران میتوانند تا ۲۵ تصویر اول خود را بهصورت رایگان در میدجرنی تولید کنند، اما برای استفادهی بیشتر و بهرهمندی از قابلیتهای پیشرفته باید اشتراک پولی تهیه شود. ارزانترین اشتراک این سرویس ماهانه ده دلار است.
با اینکه میتوانید از دستورهای سادهی میدجرنی هم برای ساخت تصاویر زیبا استفاده کنید، قدرت واقعی این سرویس در پارامترهای آن است. برای مثال میتوانید نسبت تصویر ۱۶:۹ را با استفاده از پارامتر –ar تعریف کنید یا میتوانید تصاویر به سبک انیمه را با پارامتر –niji بسازید.
فایرفلای (Adobe Firefly)
ادوبی، غول دنیای ویرایش عکس و فیلم، بهلطف مدل هوش مصنوعی Firefly Image 3 توانست ابزارهای مبتنیبر AI را وارد نرمافزار فتوشاپ کند. برای آموزش این مدل از کتابخانهی بزرگ Adobe Stock استفاده شده است.
هوش مصنوعی Firefly Image 3 قابلیتهای منحصربهفردی را به فتوشاپ اضافه کرده است؛ از جمله Reference Image برای ساخت عکس از روی یک تصویر بهعنوان مرجع و Generate Background برای ایجاد بکگراندهای خلاقانه. ادوبی امکان ساخت تصویر با نسخهی سوم مدل Firefly را از طریق برنامهی تحت وب در دسترس قرار میدهد.
در داخل سایت ابزارها و تنظیمات مختلفی برای بهینهسازی درخواست کاربر دیده میشود. میتوانید نسبت تصویر را برای تناسب با فضاهای مختلف تنظیم کنید، استایل عکس را در حالت آرت (هنری) قرار دهید، یک عکس بهعنوان مرجع به مدل معرفی کنید یا افکتهای متنوعی را برای تصویر خود برگزینید. این ابزار در حالت رایگان روی تصویر واترمارک قرار میدهد. برای استفاده از امکانات پیشرفتهتر باید اشتراک تهیه شود.
Craiyon
کرایون ابزاری رایگان برای ساخت عکس با هوش مصنوعی بر اساس درخواستهای متنی است. این ابزار در سال ۲۰۲۲ با نام DALL-E mini شناخته میشد اما ارتباطی با OpenAI ندارد. کرایون میتواند تصاویر را در سبکهای مختلفی از واقعگرایانه تا کارتونی و انیمه ایجاد کند. این ابزار در هر درخواست ۹ حالت از تصویر را تولید میکند.
خروجیهای کرایون کیفیت کمتری دارند، اما مزیت این مولد تصویر چیست؟ با کرایون میتوانید بهصورت نامحدود تصویرسازی کنید و تا رسیدن به نتایج دقیق و دلخواه، تصاویر را تغییر دهید. تفاوت کلیدی دیگر کرایون با DALL-E این است که به هیچ عنوان سانسور نمیشود و هر دستوری را میتوان در آن وارد کرد.
همچنین میتوانید بر اساس سبکی خاص تصویرسازی کنید. علاوه بر این، رابط کاربری وبسایت بسیار ساده است و کاربران تازهکار میتوانند بهراحتی و بهصورت رایگان از آن استفاده کنند. البته برای دسترسی به امکانات پیشرفتهتر باید اشتراک تهیه کنید.
منبع: زومیت