یکی از ویژگی های جالبی که گوگل توسعه داده است، یک سیستم هوش مصنوعی است که می تواند تصاویر مختلفی را بر اساس متن ورودی تولید کند. این شرکت می گوید Imagen توسعه یافته در Google Research، “درجه بی سابقهتصویری از واقع گرایی و سطح عمیقی از درک زبانی را ارائه می دهد.
این اولین بار نیست که مدل های هوش مصنوعی را می بینیم که می توانند تصاویر متفاوتی ایجاد کنند. DALL-E یک سیستم هوش مصنوعی است که می تواند متن را به تصویر تبدیل کند. اما توانایی آن در ایجاد تصاویر واقعی تر، نسخه گوگل را از سایر رقبا متمایز می کند.
محققان استانداردی به نام DrawBench برای آزمایش Imagen بر روی سایر مدلهای تبدیل متن به تصویر (از جمله DALL-E 2 و VQ-GAN + CLIP) ایجاد کردهاند. برای مقایسه، فهرستی متشکل از 200 پیامک ایجاد شد و در دسترس غرفه داران قرار گرفت. از محققان انسانی نیز خواسته شد تا به تصاویر تولید شده امتیاز دهند. پس از پایان آزمایش و انتشار نتیجه، گوگل گفت:
با مقایسه نتایج به دست آمده از مدل های مختلف از نظر کیفیت نمونه و دقت متن به تصویر، گروه انسانی Imagen را بر سایر مدل ها ترجیح دادند.
البته لازم به ذکر است که نمونه های روی ایمیجن به صورت دستچین شده است. در واقع، آنها احتمالا بهترین تصاویر تولید شده توسط هوش مصنوعی از گوگل هستند. از این رو، ایمیگن و توانایی او را نمی توان صرفاً با نگاه کردن به آنها قضاوت کرد. زیرا مطمئناً همه تصاویر به دست آمده زیبا نیستند.
مانند برخی از مدل های دیگر، Imagen در دسترس عموم نیست. چون از نظر گوگل هنوز کامل نیست. مجموعه دادههای بزرگ و بدون برچسب که دیگر در وب نیستند معمولاً برای تمرین مدلهای هوش مصنوعی متن به تصویر استفاده میشوند. این می تواند منجر به مشکلات شود. محققان در این مورد توضیح می دهند:
در حالی که این رویکرد پیشرفت الگوریتمی سریعی را در سالهای اخیر ممکن کرده است، مجموعههای دادهای از این نوع اغلب منعکس کننده کلیشههای اجتماعی، نظرات ظالمانه و مطالب تحقیرآمیز درباره گروهی از مردم هستند.
برخی از تصاویر آموزشی برای هرزنامه فیلتر شدند. اما ما همچنین از مجموعه داده LAION-400M استفاده کردیم که حاوی طیف وسیعی از محتوای نامناسب، از جمله تصاویر ناپسند، توهینهای نژادی، و کلیشههای مضر اجتماعی است.
در نتیجه، محققان پروژه گفتند، Imagen “سوگیری های اجتماعی” را به ارث برد. از این رو، ممکن است “کلیشه های اجتماعی مضر” را به تصویر بکشد. این گروه میگوید یافتههای اولیه نشان میدهد که مدل توسعهیافته آنها تمایل به سوگیریهای اجتماعی منفی دارد، از جمله ایجاد تصاویری از افراد با رنگ پوست روشنتر و ترسیم آنها به قالبهای جنسیتی. علاوه بر این، آنها احتمال سوء استفاده از برخی از Imagen را نشان دادند.
گروه توسعه ایمیجن متعهد می شود که این مدل هوش مصنوعی در آینده در دسترس عموم قرار گیرد. اما ابتدا باید مشکلات را حل کرد. یکی از موضوعاتی که آنها بررسی می کنند ایجاد یک چارچوب خاص است که می تواند تصاویر حاصل را بررسی کند.
هنوز هم می توانید از Imagen در وب سایت رسمی آنها به میزان محدودی استفاده کنید. جملات از پیش تعریف شده ای وجود دارد که می توان با ترکیب آنها یک مدل هوش مصنوعی گوگل ایجاد کرد تا تصاویر جالبی ایجاد کند. حتی میتوانید نتیجه را بهعنوان عکس یا نقاشی رنگ روغن خروجی بگیرید. سایر گزینه های قابل تنظیم شامل نوع حیوان نمایش داده شده، لباس، کار و محیط آن است.