نسل بعدی مدل هوش مصنوعی مولد گوگل، Gemini که مدتها وعده آن را داده بود بالاخره این هفته عرضه میشود. با این حال قرار است مدل قدرتمندتر و توانمندتر Gemini سال آینده وارد بازار شود.
به گزارش خبر آنلاین، در کنفرانس مطبوعاتی مجازی، اعضای تیم Google DeepMind، نیروی محرک پشت هوش مصنوعی «Gemini»، در کنار Google Research، مروری بر سطح بالایی از Gemini و قابلیتهای آن ارائه کردند. براساس شواهد، در واقع Gemini فقط یک هوش مصنوعی نیست بلکه یک خانواده از مدلهای هوش مصنوعی است که در سه مدل ارائه میشود:
«Gemini Nano» جمینی نانو، مدلی برای اجرا بر روی دستگاههای تلفن همراه مانند Pixel ۸ Pro
«Gemini Pro» جمینی پرو، مدل ساده جمینی
«Gemini Ultra» جمینی اولترا، مدل پرچمدار جمینی
Gemini Nano در دو اندازه مدل Nano-۱ (۱.۸ میلیارد پارامتر) و Nano-۲ (۳.۲۵ میلیارد پارامتر) عرضه میشود که به ترتیب دستگاههای با حافظه کم و بالا را هدف قرار میدهند.
در عین حال، Gemini Nano به زودی در پیش نمایش از طریق برنامه AI Core گوگل که به تازگی منتشر شده است، به صورت انحصاری برای اندروید ۱۴ در پیکسل ۸ پرو راه اندازی خواهد شد. Gemini Nano در ابتدا در پیکسل ۸ پرو و سپس در دیگر دستگاههای Android، ویژگیهایی که Google در جریان رونمایی پیکسل ۸ پرو در ماه اکتبر پیشنمایش کرد، مانند خلاصهسازی در برنامه Recorder و پاسخهای پیشنهادی برای برنامههای پیامرسانی پشتیبانیشده، را تقویت میکند.
سادهترین مکان برای امتحان Gemini Pro نیز، هوش مصنوعی Bard است، رقیب ChatGPT Google، که از امروز با یک نسخه تنظیمشده از Gemini Pro، حداقل به زبان انگلیسی در ایالات متحده (فقط برای متن، نه تصویر) پشتیبانی میشود. گفته میشود Gemini Pro با تنظیم دقیق، قابلیتهای استدلال، برنامهریزی و درک بهتر نسبت به مدل قبلی که Bard را هدایت میکرد، ارائه میدهد.
Gemini Pro همچنین در تاریخ ۱۳ دسامبر برای مشتریان سازمانی با استفاده از Vertex AI، پلتفرم یادگیری ماشینی کاملاً مدیریت شده گوگل، راه اندازی میشود و سپس به مجموعه توسعه دهندگان Generative AI Studio گوگل میرود. Gemini در ماههای آینده در محصولات Google مانند Duet AI، Chrome و Ads و همچنین به عنوان بخشی از جستجوی Google وارد خواهد شد.
اما چیز زیادی برای گفتن در مورد Gemini Pro، یا حداقل نسخه دقیق Gemini Pro که Bard را تقویت میکند، نیست. Gemini Pro در کارهایی مانند خلاصه کردن محتوا، فکر و نوشتن توانایی بیشتری دارد و از GPT-۳.۵ OpenAI، سلف GPT-۴، در شش معیار، از جمله یکی (GSM۸K) که استدلال ریاضی را میسنجد، بهتر عمل میکند. اما GPT-۳.۵ بیش از یک سال قدمت دارد ودر این مرحله به سختی میتوان از آن پیشی گرفت.
مانند Gemini Pro، این مدل یعنی Gemini Ultra نیز از قبل آموزش داده شده و بر روی مجموعه بزرگی از پایگاههای کد، متن به زبانهای مختلف، صدا، تصاویر و ویدئوها تنظیم شده است. Gemini Ultra میتواند اطلاعات «ریز» را در متن، تصاویر، صدا و کد درک کند و به سؤالات مربوط به موضوعات پیچیده، بهویژه ریاضی و فیزیک پاسخ دهد.
از این نظر، Gemini Ultra چندین کار را بهتر از مدل چندوجهی خود OpenAI، GPT-۴ با Vision، که فقط میتواند زمینه دو حالت کلمات و تصاویر را درک کند، انجام میدهد. Gemini Ultra میتواند گفتار را رونویسی کند و به سؤالات مربوط به صدا و ویدیو، مثلاً این بپرسید «در این کلیپ چه میگذرد؟»، علاوه بر آثار هنری و عکسها پاسخ دهد.
رویکرد استاندارد برای ایجاد مدلهای چندوجهی شامل آموزش اجزای جداگانه برای روشهای مختلف است. این مدلها در انجام وظایف خاصی مانند توصیف یک تصویر بسیار خوب هستند، اما آنها واقعاً با وظایف استدلال مفهومی و پیچیدهتر مشکل دارند؛ بنابراین Gemini، طوری طراحی شده است که به صورت بومی چندوجهی باشد.
با این حال درباره مجموعه دادههای آموزشی Gemini، اطلاعاتی در دسترس نیست؛ اما گوگل بارها از پاسخ دادن به سوالات خبرنگاران در مورد نحوه جمعآوری دادههای آموزشی Gemini، محل دریافت دادههای آموزشی و اینکه آیا هر کدام از ارائه دهندگان آموزش، از شخص ثالث مجوز گرفته است، پاسخ نداده است، ظاهرا گوگل بخشی از دادهها که از منابع عمومی وب بوده را برای کیفیت مطالب و نامناسب بودن «فیلتر» کرده است.
گوگل اولین کسی نیست که دادههای آموزشی خود را در دسترس قرار نمیدهد. دادهها نه تنها یک مزیت رقابتی دارند، بلکه منبع بالقوه دعوای حقوقی مربوط به استفاده منصفانه را دارند. مایکروسافت، GitHub، OpenAI و Stability AI از جمله فروشندگان مولد هوش مصنوعی هستند که در طرحهایی که آنها را به نقض قانون IP با آموزش سیستمهای هوش مصنوعی خود در مورد محتوای دارای حق چاپ، از جمله آثار هنری و کتابهای الکترونیکی، بدون ارائه اعتبار یا پرداخت به سازندگان متهم میکنند، شکایت میکنند.
در GSM۸K، هوش مصنوعی Gemini Ultra به ۹۴.۴ درصد از سؤالات ریاضی به درستی پاسخ میدهد در حالی که در مورد GPT-۴ توانایی پاسخدهی ۹۲ درصد است. در معیار DROP برای درک مطلب، توانایی Gemini Ultra و GPT-۴ به ترتیب به ۸۲.۴% و ۸۰.۹% میرسد. در VQAv۲، یک معیار درک تصویر «عصبی»، Gemini ۰.۶ درصد بهتر از GPT-۴ با Vision است و Gemini Ultra، هوش مصنوعی GPT-۴ را تنها با ۰.۵ درصد در مجموعه استدلال سخت Big-Bench برتری میدهد.
Gemini Ultra در معیار جدیدتر MMMU، برای استدلال چندوجهی، از GPT-۴ با Vision پیشی گرفته و به امتیاز ۵۹.۴% میرسد. اما در یک مجموعه آزمایشی برای استدلال عقل سلیم HellaSwag، مدل Gemini Ultra در واقع کمی از امتیاز GPT-۴، ۹۵.۳ ٪ با امتیاز ۸۷.۸%، فاصله دارد.
در عین حال به گفته متخصصان، اینکه Gemini Ultra، مانند دیگر مدلهای هوش مصنوعی مولد، قربانی توهم شود، یعنی با اطمینان حقایق را ابداع کند، یک مشکل تحقیقاتی حل نشد بوده است. احتمالاً با توجه به اینکه حتی بهترین مدلهای هوش مصنوعی مولد امروزی به روشهای خاصی به شکلی مشکلساز و مضر پاسخ میدهند، این مشکل برای Gemini Ultra نیز در محدوده امکانپذیر، قرار میگیرد است. تقریباً به طور قطع به اندازه سایر مدلهای هوش مصنوعی مولد «آنگلوسنتریک» است.
گفته میشود در حالی که Gemini Ultra میتواند بین حدود ۱۰۰ زبان ترجمه کند، کار خاصی برای بومیسازی این مدل در کشورهای جهانی جنوب انجام نشده است.
در یکی دیگر از محدودیتهای کلیدی، در حالی که معماری Gemini Ultra از تولید تصویر پشتیبانی میکند، همانطور که Gemini Pro در تئوری انجام میدهد، این قابلیت به نسخه تولید شده مدل در زمان عرضه راه پیدا نمیکند. این شاید به این دلیل است که مکانیسم کمی پیچیدهتر از نحوه تولید تصاویر ChatGPT است. Gemini بهجای ارسال درخواستها به یک تولیدکننده تصویر مانند DALL-E ۳، در مورد ChatGPT، تصاویر را بهصورت «بومی» بدون مرحلهای میانجی خروجی میدهد.
گوگل در کنفرانس سالانه توسعهدهندگان I/O خود قول داد که Gemini قابلیتهای چندوجهی چشمگیر که در مدلهای قبلی دیده نمیشود و کارآمدی در ابزار و API یکپارچهسازی ارائه کند. در مصاحبهای رئیس و یکی از بنیانگذاران DeepMind، Gemini را به عنوان معرفی قابلیتهای جدید به حوزه هوش مصنوعی تولید متن، مانند برنامه ریزی و توانایی حل مشکلات توصیف کرد.
ممکن است Gemini Ultra قادر به انجام همه اینها و حتی بیشترباشد؛ اما کنفرانس توجیهی برگزار شده به خصوص با توجه به اشتباهات هوش مصنوعی نسل قبلی و اخیر گوگل، قانع کننده نبود. گوگل از اوایل سال جاری در حال پیشرفت در زمینه هوش مصنوعی مولد است و پس از OpenAI و ChatGPT پرطرفدار این شرکت در حال رقابت است. Bard در ماه فوریه به دلیل ناتوانی در پاسخگویی صحیح به سوالات اساسی آزاد شد و کارمندان Google، از جمله تیم اخلاقی این شرکت، نسبت به جدول زمانی راه اندازی سریع ابراز نگرانی کردند.
بعداً گزارشهایی منتشر شد مبنی بر اینکه گوگل پیمانکاران شخص ثالثی را که بیش از حد کار میکردند و حقوق کمتری دریافت میکردند از Appen و Accenture استخدام کرد تا دادههای آموزشی Bard را حاشیهنویسی کنند. همین امر ممکن است در مورد Gemini نیز صادق باشد. گوگل آن را تکذیب نکرد و گفته شده است که حاشیه نویسان «حداقل دستمزد محلی» را دریافت میکردند.
اکنون، اگر منصف باشیم، گوگل در حال پیشرفت است به این معنا که Bard از زمان راهاندازی به طور قابل توجهی بهبود یافته است و گوگل با موفقیت دهها محصول، برنامه و سرویس خود را با ویژگیهای جدید مبتنی بر هوش مصنوعی تزریق کرده است که توسط مدلهای بومی مانند Palm ۲ و Imagen ارائه شده است.
گفته میشود Gemini که طبق گزارشهای مستقیم از مدیران ارشد گوگل، جف دین، ارشدترین مدیر تحقیقاتی هوش مصنوعی شرکت، با وظایفی مانند رسیدگی مطمئن به پرسشهای غیرانگلیسی دست و پنجه نرم میکند که موجب تاخیر در راهاندازی Gemini شد. جمینی اولترا فقط برای مشتریان منتخب، توسعهدهندگان، شرکا و «کارشناسان ایمنی و مسئولیت» قبل از عرضه برای توسعهدهندگان و مشتریان سازمانی و پس از آن «Bard» در اوایل سال آینده در دسترس خواهد بود.
با این حال هنوز قابلیتهای جدیدی برای Gemini Ultra وجود دارد و همچنین استراتژی کسب درآمد برای Gemini کشف نشده است؛ بنابراین همچنان ما ماندهایم و Gemini Pro؛ و احتمالاً یک Gemini Ultra ضعیف، به خصوص اگر پنجره زمینه مدل ۲۴۰۰۰ کلمه باقی بماند همانطور که در وایت پیپر فنی مشخص شده است. (پنجره زمینه به متنی اشاره دارد که مدل، قبل از تولید هر متن اضافی در نظر میگیرد.) GPT-۴ به راحتی آن پنجره زمینه ~۱۰۰۰۰۰ کلمه را شکست میدهد، اما پنجره زمینه مسلما همه چیز نیست. تا زمانی که نتوانیم مدل را در دست بگیریم، نباید قضاوت کنیم.
ممکن است بازاریابی گوگل، تلگراف مبنی بر اینکه Gemini چیزی واقعاً قابل توجه خواهد بود به جای یک حرکت جزئی سوزن مولد هوش مصنوعی، مقصر عرضه امروز محصول باشد یا شاید ساختن مدلهای پیشرفته هوش مصنوعی واقعاً سخت باشد حتی اگر کل بخش هوش مصنوعی دوباره سازماندهی شود تا روند کار را بهبود بخشد.