فرارو-اوایل این هفته، دانشمندان گوگل از ایجاد Transframer، قابلیت جدیدی که قادر به تولید ویدئوهای کوتاه بر اساس تصاویر ورودی است، خبر دادند.
به گزارش فرارو، این قابلیت جدید ادای احترامی به مدل مبتنی بر هوش مصنوعی دیگری است که با نام Transformer شناخته میشود. Transformer که در ابتدا در سال ۲۰۱۷ معرفی شد، یک معماری شبکه عصبی جدید با قابلیت تولید متن و با استفاده از شبیه سازی و مقایسه کلمات دیگر در یک جمله است.
این مدل از آن زمان در چارچوبهای یادگیری عمیق استاندارد مانند TensorFlow و PyTorch گنجانده شده است. همانطور که Transformer قدیمی از زبان برای پیشبینی نتایج استفاده میکند، فناوری جدید نیز از تصاویر متنی با ویژگیهای مشابه برای ایجاد ویدئوهای کوتاه استفاده میکند. فیلمهای حاصل در سراسر تصویر هدف حرکت میکنند و با وجود نداشتن هندسه در ورودی تصویر اصلی، پرسپکتیوهای دقیقی را ارائه میدهند.
فناوری جدید که با استفاده از پلتفرم هوش مصنوعی DeepMind توسعه یافته است، از تجزیه یک تصویر متنی واحد برای استخراج قطعات کلیدی دادههای تصویر و تولید تصاویر اضافی استفاده میکند. در طی این تجزیه و تحلیل، سیستم کادر بندی تصویر را شناسایی کرده و به سیستم کمک میکند تا محیط اطراف تصویر را پیش بینی کند. سپس برای پیش بینی بیشتر یک تصویر از زوایای مختلف، از تصاویر متنی استفاده میشود. این پیش بینی ها، احتمال وجود فریمهای تصویر اضافی را بر اساس دادهها، حاشیهنویسیها و هر اطلاعات دیگری که از فریمهای زمینه موجود است، مدل میکنند.
این پلتفرم با ارائه توانایی تولید ویدئوهای دقیق و معقول بر اساس مجموعه بسیار محدودی از داده ها، گام بزرگی در فناوری ویدئو برداشته است. فناوری Transframer نتایج بسیار امیدوارکنندهای را در سایر وظایف و آزمایشهای مرتبط با ویدئو مانند تقسیمبندی معنایی، طبقهبندی تصویر و پیشبینی جریان نوری ارائه میدهد. این فناوری در صنایع مبتنی بر ویدئو مانند بازی سازی کاربردهای بسیاری خواهد داشت.
محیطهای توسعه بازی مدرن بر تکنیکهایی مانند سایهزنی، نقشهبرداری بافت، عمق میدان و ردیابی پرتو تکیه دارند. فنآوریهایی مانند Transframer میتوانند راه جدیدی برای استفاده از هوش مصنوعی و یادگیری ماشینی در ساخت بازیها به توسعهدهندگان ارائه دهند و در عین حال زمان، منابع و تلاش لازم برای این کار را نیز کاهش میدهند.
منبع: newsprepare