معرفی بهترین ابزارهای ساخت تصاویر با هوش مصنوعی در سال ۲۰۲۴

تصاویر ساخته‌شده با هوش مصنوعی این روزها به موضوع داغی در فضای مجازی تبدیل شده‌اند. چندان عجیب نیست که ابزارهای مدرن هوش مصنوعی برنده‌ی جایزه‌های معتبر عکاسی شوند. صرف‌نظر از اینکه مولدهای تصویر هوش مصنوعی را دوست داشته باشید یا از آن‌ها متنفر باشید، این ابزارها به محبوبیت بالایی رسیده‌اند و گویا قصد توقف هم ندارند.

امروزه ابزارهای هوش مصنوعی متعددی برای ساخت عکس از دستور متنی، توسعه یافته‌اند. این ابزارها در ابتدا با نواقصی همراه بودند، اما به‌تدریج عملکرد دقیق‌تری پیدا کردند به‌گونه‌ای که حتی تشخیص عکس‌های هوش مصنوعی از تصاویر واقعی بسیار مشکل شد و ابزار دیگری توسعه پیدا کرد تا بتواند تصاویر هوش مصنوعی را تشخیص دهد.

مهمترین نکته در مورد استفاده از هر ابزار هوش مصنوعی این است که بدانیم چگونه یک سری جمله را بیان کنیم تا نتیجه‌ی تولید شده تا حد ممکن به ایده‌ی ما نزدیک شود. درخواست متنی باید کاملاً دقیق و همراه با بیشترین جزئیات موردنظر باشد.

یکی از ویژگی‌های ابزارهای ساخت عکس با هوش مصنوعی سبک‌دهی به تصویر است. شما می‌توانید از سبک‌های نقاشی مختلفی مانند آبرنگ یا نقاشی آکریلیک در پایان توصیف متنی خود استفاده کنید. علاوه‌بر این، می‌توان با عباراتی مانند کارتون سه‌بعدی، کارتون دهه ۹۰ یا کلیپ‌آرت، حالت کارتونی خاصی را برای تصویر ایجاد کرد.

چطور با هوش مصنوعی عکس بسازیم؟

برای ساخت عکس با هوش مصنوعی با هر ابزاری ابتدا باید درخواست متنی خود را با تمامی جزئیات لازم جهت تصویرپردازی ارائه دهیم. برای نمونه می‌توانیم درخواست خود را به این صورت بنویسیم:

اتاق نشیمن مدرن داخل یک آپارتمان در شهری بزرگ در هنگام بعد از ظهر. این اتاق پنجر‌ه‌های بزرگ کشیده داشته باشد و روی دیوار، تابلوی نقاشی با سبک Art Deco نصب شده باشد و یک پلیر موسیقی، صندلی راحتی و قفسه‌ی کوچکی از کتاب در این اتاق وجود داشته باشند.

ابزارهای ساخت عکس با هوش مصنوعی

پس‌ از آماده‌سازی دستور مورد نظر، اکنون باید دستور را در پنجره‌ی چت یا کادر گفت‌وگوی ابزارهای هوش مصنوعی وارد و بدین‌شکل درخواست ساخت عکس را بدهیم. در این مقاله می‌خواهیم ضمن معرفی بهترین و محبوب‌ترین مولدهای تصویر و قابلیت‌های آن‌ها، توصیف متنی گفته‌شده را به هریک بدهیم و خروجی آن‌ها را ببینیم و با یکدیگر مقایسه کنیم.
DALL-E 3
DALL-E اولین مولد تصویر هوش مصنوعی بود که در سال ۲۰۲۱ بر سر زبان‌ها افتاد. جدیدترین نسخه‌ی این مولد با عنوان DALL-E3 دارای سطح و قابلیت‌های درک زبانی بالاتری از DALL-E2 است. ابزار مورد بحث توسط OpenAI توسعه‌ یافته و از قدرت مدل زبانی بزرگ GPT-4 بهره می‌برد.

با توجه به تصاویری که نسخه‌ سوم DALL-E تولید کرده، می‌توان گفت میزان دقت و وضوح و همچنین کیفیت آن‌ها نسبت‌ به نسخه‌های قبل بهبود چشمگیری یافته است. نسخه‌ی دوم DALL-E به برخی از کلمات در دستور متنی توجه نمی‌کرد و این موضوع باعث می‌شد تا نتیجه‌ی نهایی مورد انتقاد کاربران قرار بگیرد. اما OpenAI وعده داد که نسخه‌ی سوم این سرویس، متن‌ها را بسیار بهتر درک می‌کند.

در تصاویر زیر، مقایسه‌ای میان DALL•E 2 و DALL•E 3 انجام شده است. به هر دو نسخه این توصیف متنی داده شده است: «یک نقاشی روغنی از یک کلوچه‌ی شکلاتی که در یک لیوان شیر فرو می‌رود و انفجاری از طعم‌ها نشان داده می‌شود.»

با وجود اینکه دسترسی مستقیم به DALL-E3 نیاز به تهیه‌ی اشتراک در سایت OpenAI دارد و برای کاربران ایرانی با محدودیت همراه است؛ مایکروسافت آن را به‌صورت رایگان از طریق هوش مصنوعی بینگ و کوپایلت در اختیار می‌گذارد.

Bing Image Creator

Bing Image Creator ابزار ساخت تصویر با هوش مصنوعی در موتور جستجوی بینگ مایکروسافت است که از نسخه‌ی حرفه‌ای DALL-E 3 شرکت OpenAI بهره می‌برد و به کاربران اجازه می‌دهد تصویر مورد نظر خود را براساس توصیف متنی ایجاد کنند. بدین ترتیب دیگر نیازی به پرداخت هزینه برای استفاده‌ی مستقیم از Dall-E نخواهد بود. مولد تصویر بینگ از زبان فارسی پشتیبانی می‌کند.

بینگ ایمیج کریتیور دارای مجموعه ابزار متنوعی نیست. با این حال برای استفاده‌ی شخصی می‌تواند سرگرم‌کننده باشد. تمام تصاویر این مولد با نسبت مربعی ۱:۱ و ۱۰۲۴ در ۱۰۲۴ پیکسل تولید می‌شوند. رابط کاربری آسان است و همچنین می‌توانید تصاویر تولیدشده را بدون واترمارک ذخیره کنید. استفاده از این ابزار تنها منوط به‌ داشتن اکانت مایکروسافت خواهد بود.

گوگل جمنای (Gemini)

چت‌بات Gemini گوگل که در ابتدا تحت عنوان بارد شناخته می‌شد، به پشتوانه‌ی مدل هوش مصنوعی Imagen 2 می‌تواند عکس هم تولید کند و به‌زودی نتایج آن به‌لطف نسخه جدید مدل هوش مصنوعی Imagen 3 نیز بهتر خواهد شد. ابزارهای مبتنی بر هوش مصنوعی مولد در جمنای، ImageFX، موتور جست‌وجو، تبلیغات، Duet AI و Vertex AI توسط مدل زبانی بزرگ Imagen 2 پشتیبانی می‌شوند. برای تبدیل متن به تصویر در جمنای، باید در ابتدای درخواست متنی خود به آن بفهمانید که به دنبال تصویری با ویژگی‌های مدنظر هستید.

ImageFX

ابزار تولید تصویر ImageFX از مدل زبانی بزرگ Imagen 2 گوگل برای تبدیل متن به عکس قدرت می‌گیرد. این ابزار توانایی بسیار جذابی در راهنمایی‌کردن کاربر برای نوشتن بهترین درخواست دارد. به‌ عنوان مثال، کلیدواژه‌های مهم داخل درخواست متنی را استخراج و برای هرکدام چند گزینه پیشنهاد می‌دهد تا آن را ویرایش و بهینه کند (مانند تصویر زیر).

استفاده از این ابزار نیز رایگان است اما متأسفانه از زبان فارسی پشتیبانی نمی‌کند.

استیبل دیفیوژن (Stable Diffusion)

استیبل دیفیوژن را می‌توان یکی از قدرتمند‌ترین ابزارهای تولید و ویرایش تصویر دانست. این ابزار از دقت بالایی در جزئیات تصاویر دارد و سعی می‌کند عکس ساخته‌شده بیشترین انطباق را با درخواست کاربر داشته باشد.

اشتراک رایگان استیبل دیفیوژن اجازه‌ی ساخت ۱۰ عکس در روز را می‌دهد و تصاویر دارای واترمارک خواهند بود. علاوه‌براین، امکانات پیشرفته‌تری مانند افزایش کیفیت تصویر و حق نشر تصویر نیز در حالت رایگان وجود ندارد و عکس‌ها به‌صورت عمومی برای بقیه‌ی کاربران قابل مشاهده خواهند بود.

استیبل دیفیوژن در بخش تبدیل متن به تصویر ویژگی‌های منحصربه‌فردی دارد، از جمله:

امکان اضافه‌کردن درخواست منفی (Negative Prompt) برای المان‌هایی که نمی‌خواهیم در تصویر وجود داشته باشند.
تعیین استایل تصویر، مانند فانتزی، آب‌رنگ، نقاشی، پیکسل آرت، واقع‌گرایانه، انیمه، فیلم آنالوگ و موارد دیگر.
تعیین نسبت تصویر، از حالت مربعی، تا افقی و عمودی در نسبت‌های مختلف.
مشخص‌کردن تعداد تصاویر تولیدشده در هربار درخواست.
حذف پس‌زمینه‌ی عکس و حذف هوشمند برخی عناصر تصویر
UpScale یا افزایش وضوح و ابعاد تصویر
امکان تبدیل نقاشی و طراحی به تصویر
نصب نرم‌افزار استیبل دیفیوژن در کامپیوتر امکان اجرای محلی این ابزار را بدون نیاز به اینترنت فراهم می‌آورد. با این حال، طبق گفته‌ی Stability AI، لازم است حداقل‌ ویندوز ۱۰ روی سیستم نصب باشد و از کارت گرافیک انویدیا با حداقل ۴ گیگابایت VRAM استفاده شود، گرافیک‌های مجتمع پاسخگو نخواهند بود.

برای استفاده از نسخه‌ی تحت وب استیبل دیفیوژن، کافی است که با ورود به وب‌سایت StableDiffusionOnline، دستور مورد نظر خود را تایپ کنید تا به خروجی دلخواهتان برسید.

اپلیکیشن استیبل دیفیوژن برای گوشی آیفون و گوشی‌های اندرویدی از طریق گوگل پلی و اپ استور قابل دریافت است.

DreamStudio

دریم استودیو ابزار قدرتمند دیگری از Stability AI است. با ورود به سایت DreamStudio می‌توانید اپلیکیشنی جذاب با امکانات متعدد را مشاهده کنید. با این اپلیکیشن می‌توانید چند تصویر را به‌صورت یکجا بسازید و نسبت تصویر و عناصر مشخص را در اثر هنری خود تغییر دهید. دریم استودیو مانند استیبل دیفیوژن سبک‌های متفاوتی را در اختیار کاربر قرار می‌دهد.

در تب Edit می‌توانید بخش‌هایی از تصویر ساخته‌شده را اضافه یا حذف کنید. برای مثال، به‌کمک Eraser بخشی از عکس را پاک و با نوشتن دستور متنی آن ناحیه را پر می‌کنید. DreamStudio قابلیت‌های Inpainting و Outpainting دارد که امکان ویرایش محتوای داخل عکس و گسترش مرزهای آن را می‌دهند. می‌توانید همزمان چند نسخه‌ از یک تصویر به‌وجود بیاورید تا از هریک از آن‌ها الهام بگیرید. علاوه‌براین، در این ابزار می‌توان وضوح تصاویر را افزایش داد.

متأسفانه برای استفاده از دریم‌ استودیو باید هزینه بپردازید؛ اما هنگام ثبت‌نام، ۲۵ اعتبار رایگان یا ۱۲۵ بار تولید تصویر خواهید داشت. با پرداخت حداقل ۱۰ دلار می‌توانید ۵۰۰۰ تصویر بسازید.

میدجرنی (Midjourney)

با اینکه میدجورنی اولین مولد تصویر هوش مصنوعی نبود، خیلی زود به انتخاب اول خیلی از افراد تبدیل شد. توانایی میدجرنی در ساخت تصاویر واقع‌گرایانه و دقیق موجب شد که میدجرنی ۶ مورد توجه و استقبال بسیاری از کاربران قرار بگیرد.

میدجرنی برخلاف سایر ابزارها امکان دسترسی مستقیم از طریق سایت یا اپلیکیشن ندارد و باید اکانت دیسکورد داشته باشید. کاربران می‌توانند تا ۲۵ تصویر اول خود را به‌صورت رایگان در میدجرنی تولید کنند، اما برای استفاده‌ی بیشتر و بهره‌مندی از قابلیت‌های پیشرفته‌ باید اشتراک پولی تهیه شود. ارزان‌ترین اشتراک این سرویس ماهانه ده دلار است.

با اینکه می‌توانید از دستورهای ساده‌ی میدجرنی هم برای ساخت تصاویر زیبا استفاده کنید، قدرت واقعی این سرویس در پارامترهای آن است. برای مثال می‌توانید نسبت تصویر ۱۶:۹ را با استفاده از پارامتر –ar تعریف کنید یا می‌توانید تصاویر به سبک انیمه را با پارامتر –niji بسازید.

فایرفلای (Adobe Firefly)

ادوبی، غول دنیای ویرایش عکس و فیلم، به‌لطف مدل هوش مصنوعی Firefly Image 3 توانست ابزارهای مبتنی‌بر AI را وارد نرم‌افزار فتوشاپ کند. برای آموزش این مدل از کتابخانه‌ی بزرگ Adobe Stock استفاده شده است.

هوش مصنوعی Firefly Image 3 قابلیت‌های منحصربه‌فردی را به فتوشاپ اضافه کرده است؛ از جمله Reference Image برای ساخت عکس از روی یک تصویر به‌عنوان مرجع و Generate Background برای ایجاد بک‌گراندهای خلاقانه. ادوبی امکان ساخت تصویر با نسخه‌ی سوم مدل Firefly را از طریق برنامه‌ی تحت وب در دسترس قرار می‌دهد.

در داخل سایت ابزارها و تنظیمات مختلفی برای بهینه‌سازی درخواست کاربر دیده می‌شود. می‌توانید نسبت تصویر را برای تناسب با فضاهای مختلف تنظیم کنید، استایل عکس را در حالت آرت (هنری) قرار دهید، یک عکس به‌عنوان مرجع به مدل معرفی کنید یا افکت‌های متنوعی را برای تصویر خود برگزینید. این ابزار در حالت رایگان روی تصویر واترمارک قرار می‌دهد. برای استفاده از امکانات پیشرفته‌تر باید اشتراک تهیه شود.

Craiyon

کرایون ابزاری رایگان برای ساخت عکس با هوش مصنوعی بر اساس درخواست‌های متنی است. این ابزار در سال ۲۰۲۲ با نام DALL-E mini شناخته می‌شد اما ارتباطی با OpenAI ندارد. کرایون می‌تواند تصاویر را در سبک‌های مختلفی از واقع‌گرایانه تا کارتونی و انیمه ایجاد کند. این ابزار در هر درخواست ۹ حالت از تصویر را تولید می‌کند.

خروجی‌های کرایون کیفیت کمتری دارند، اما مزیت این مولد تصویر چیست؟ با کرایون می‌توانید به‌صورت نامحدود تصویرسازی کنید و تا رسیدن به نتایج دقیق و دلخواه، تصاویر را تغییر دهید. تفاوت کلیدی دیگر کرایون با DALL-E این است که به هیچ عنوان سانسور نمی‌شود و هر دستوری را می‌توان در آن وارد کرد.

همچنین می‌توانید بر اساس سبکی خاص تصویرسازی کنید. علاوه بر این، رابط کاربری وب‌سایت بسیار ساده است و کاربران تازه‌کار می‌توانند به‌راحتی و به‌صورت رایگان از آن استفاده کنند. البته برای دسترسی به امکانات پیشرفته‌تر باید اشتراک تهیه کنید.

منبع: زومیت