bato-adv

هوش مصنوعی جدید CM۳Leon/ بهترین ابزار تبدیل متن به تصویر

هوش مصنوعی جدید CM۳Leon/ بهترین ابزار تبدیل متن به تصویر
متا امروز از مدل هوش مصنوعی جدیدی به نام CM۳Leon (یا همان Chameleon یا «آفتاب‌پرست») رونمایی کرده و می‌گوید این سیستم می‌تواند در تبدیل متن به تصویر بهترین عملکرد را به نمایش بگذارد. این مدل همچنین یکی از اولین مدل‌هایی است که می‌تواند برای تصاویر توضیح یا کپشن بنویسد.
تاریخ انتشار: ۱۴:۳۳ - ۲۴ تير ۱۴۰۲

مدل هوش مصنوعی جدید CM۳Leon متا مدعی است که در مقایسه با نمونه‌های رقیب ازجمله مدل DALL-E ۲، بهترین عملکرد را دارد.

به گزارش دیجیاتو، طی دو سال اخیر مدل‌های هوش مصنوعی تولید تصویر رواج بالایی پیدا کرده‌اند و موانع فنی استفاده از آن‌ها تقریباً برطرف شده است. البته این بدان معنا نیست که عملکرد این مدل‌ها پایدار شده و به سطح مناسبی رسیده است؛ ولی متا ادعا می‌کند که با مدل جدید CM۳Leon دستاورد مهمی داشته و بهترین نمونه را در این حوزه ساخته است.

متا امروز از مدل هوش مصنوعی جدیدی به نام CM۳Leon (یا همان Chameleon یا «آفتاب‌پرست») رونمایی کرده و می‌گوید این سیستم می‌تواند در تبدیل متن به تصویر بهترین عملکرد را به نمایش بگذارد. این مدل همچنین یکی از اولین مدل‌هایی است که می‌تواند برای تصاویر توضیح یا کپشن بنویسد.

CM۳Leon یک مدل مبدل یا «ترنسفورمر» است که با استفاده از مکانیزمی موسوم به «توجه» (Attention) سعی می‌کند ارتباط داده‌های موجود ازجمله متن یا تصاویر به یکدیگر را ارزیابی کند. این توجه در کنار دیگر ویژگی‌های مربوط به معماری در مدل‌های ترنسفورمر می‌تواند سرعت آموزش مدل‌ها را افزایش دهد. ساخت مدل‌های ترنسفورمر بزرگ‌تر با افزایش توان پردازشی ممکن می‌شود.

هوش مصنوعی جدید CM۳Leon/ بهترین ابزار تبدیل متن به تصویر

توان موردنیاز برای CM۳Leon متا پنج‌برابر کمتر از مدل‌های مشابه است

متا ادعا می‌کند که CM۳Leon از اکثر مدل‌های ترنسفورمر بهینه‌تر است، چون به پنج‌برابر توان پردازشی کمتر نیاز دارد و می‌تواند با پایگاه کوچک‌تری از داده‌ها آموزش داده شود. این شرکت برای آموزش مدل خود از میلیون‌ها تصویر از شرکت Shutterstock استفاده کرده است.

قوی‌ترین نسخه از CM۳Leon حدود ۷ میلیارد پارامتر دارد که تقریباً دوبرابر مدل DALL-E ۲ از شرکت OpenAI است. یکی از قابلیت‌های کلیدی مدل هوش مصنوعی جدید متا که به افزایش قدرت آن کمک کرده، تکنیکی موسوم به «بهینه‌سازی نظارتی» (SFT) است. این تکنیک قبلاً در مدل‌های متنی مثل ChatGPT استفاده شده بود و حالا در مدل‌های تصویری هم خود را ثابت کرده است.

مدل CM۳Leon متا می‌تواند فرمان‌های مربوط به ویرایش تصاویر موجود را نیز درک کند. علاوه‌براین، همان‌طور که گفتیم، این مدل قادر است برای تصاویر توضیح کوتاه یا بلند بنویسد. عملکرد CM۳Leon در این زمینه حتی از مدل‌های مخصوص خلق کپشن برای تصاویر مثل Flamingo و OpenFlamingo هم بهتر است.

متا هنوز اعلام نکرده که قصد عرضه مدل هوش مصنوعی CM۳Leon را دارد یا نه و اگر پاسخ این سؤال مثبت است، این اتفاق چه زمانی خواهد افتاد.

bato-adv
مجله خواندنی ها
bato-adv
bato-adv
bato-adv
پرطرفدارترین عناوین