ایجاد تصاویر بی عیب و نقص اما نژادپرستانه؛ دلیل عدم دسترسی مردم به هوش مصنوعی گوگل مشخص شده است

یکی از ویژگی های جالبی که گوگل توسعه داده است، یک سیستم هوش مصنوعی است که می تواند تصاویر مختلفی را بر اساس متن ورودی تولید کند. این شرکت می گوید Imagen توسعه یافته در Google Research، “درجه بی سابقهتصویری از واقع گرایی و سطح عمیقی از درک زبانی را ارائه می دهد.

این اولین بار نیست که مدل های هوش مصنوعی را می بینیم که می توانند تصاویر متفاوتی ایجاد کنند. DALL-E یک سیستم هوش مصنوعی است که می تواند متن را به تصویر تبدیل کند. اما توانایی آن در ایجاد تصاویر واقعی تر، نسخه گوگل را از سایر رقبا متمایز می کند.

محققان استانداردی به نام DrawBench برای آزمایش Imagen بر روی سایر مدل‌های تبدیل متن به تصویر (از جمله DALL-E 2 و VQ-GAN + CLIP) ایجاد کرده‌اند. برای مقایسه، فهرستی متشکل از 200 پیامک ایجاد شد و در دسترس غرفه داران قرار گرفت. از محققان انسانی نیز خواسته شد تا به تصاویر تولید شده امتیاز دهند. پس از پایان آزمایش و انتشار نتیجه، گوگل گفت:

با مقایسه نتایج به دست آمده از مدل های مختلف از نظر کیفیت نمونه و دقت متن به تصویر، گروه انسانی Imagen را بر سایر مدل ها ترجیح دادند.

البته لازم به ذکر است که نمونه های روی ایمیجن به صورت دستچین شده است. در واقع، آنها احتمالا بهترین تصاویر تولید شده توسط هوش مصنوعی از گوگل هستند. از این رو، ایمیگن و توانایی او را نمی توان صرفاً با نگاه کردن به آنها قضاوت کرد. زیرا مطمئناً همه تصاویر به دست آمده زیبا نیستند.

با Google Imagen AI یک تصویر از متن ایجاد کنید

مانند برخی از مدل های دیگر، Imagen در دسترس عموم نیست. چون از نظر گوگل هنوز کامل نیست. مجموعه داده‌های بزرگ و بدون برچسب که دیگر در وب نیستند معمولاً برای تمرین مدل‌های هوش مصنوعی متن به تصویر استفاده می‌شوند. این می تواند منجر به مشکلات شود. محققان در این مورد توضیح می دهند:

در حالی که این رویکرد پیشرفت الگوریتمی سریعی را در سال‌های اخیر ممکن کرده است، مجموعه‌های داده‌ای از این نوع اغلب منعکس کننده کلیشه‌های اجتماعی، نظرات ظالمانه و مطالب تحقیرآمیز درباره گروهی از مردم هستند.

برخی از تصاویر آموزشی برای هرزنامه فیلتر شدند. اما ما همچنین از مجموعه داده LAION-400M استفاده کردیم که حاوی طیف وسیعی از محتوای نامناسب، از جمله تصاویر ناپسند، توهین‌های نژادی، و کلیشه‌های مضر اجتماعی است.

در نتیجه، محققان پروژه گفتند، Imagen “سوگیری های اجتماعی” را به ارث برد. از این رو، ممکن است “کلیشه های اجتماعی مضر” را به تصویر بکشد. این گروه می‌گوید یافته‌های اولیه نشان می‌دهد که مدل توسعه‌یافته آن‌ها تمایل به سوگیری‌های اجتماعی منفی دارد، از جمله ایجاد تصاویری از افراد با رنگ پوست روشن‌تر و ترسیم آن‌ها به قالب‌های جنسیتی. علاوه بر این، آنها احتمال سوء استفاده از برخی از Imagen را نشان دادند.

مقالات مرتبط:

گروه توسعه ایمیجن متعهد می شود که این مدل هوش مصنوعی در آینده در دسترس عموم قرار گیرد. اما ابتدا باید مشکلات را حل کرد. یکی از موضوعاتی که آنها بررسی می کنند ایجاد یک چارچوب خاص است که می تواند تصاویر حاصل را بررسی کند.

هنوز هم می توانید از Imagen در وب سایت رسمی آنها به میزان محدودی استفاده کنید. جملات از پیش تعریف شده ای وجود دارد که می توان با ترکیب آنها یک مدل هوش مصنوعی گوگل ایجاد کرد تا تصاویر جالبی ایجاد کند. حتی می‌توانید نتیجه را به‌عنوان عکس یا نقاشی رنگ روغن خروجی بگیرید. سایر گزینه های قابل تنظیم شامل نوع حیوان نمایش داده شده، لباس، کار و محیط آن است.

دیدگاهتان را بنویسید لغو پاسخ