گوگل در پاسخ به GPT-4o، ویژگی جدید درک بصری جمینای را نشان داد

گوگل چند ساعت قبل از کنفرانس توسعه‌دهندگان I/O خود، یک قابلیت جدید و جذاب برای جمینای را معرفی کرد. در ویدیوی کوتاهی که این شرکت منتشر کرده است، ویژگی جدید هوش مصنوعی جمینای نمایش داده می‌شود. این ویژگی به جمینای امکان می‌دهد تا به‌صورت لحظه‌ای، آنچه را که در قاب تصویر قرار دارد تشخیص دهد. به‌طور همزمان، OpenAI نیز دیروز مدل هوش مصنوعی GPT-4o خود را معرفی کرد که قابلیت مشابهی دارد.

گوگل در شبکه اجتماعی ایکس ویدیویی منتشر کرده است که در آن، شخصی دوربین گوشی پیکسل خود را باز می‌کند و کلمه I/O را روی استیج مشاهده می‌کند. او از جمینای می‌پرسد: «فکر می‌کنی اینجا چه خبر است؟» و هوش مصنوعی پاسخ می‌دهد: «به‌نظر می‌رسد که چند نفر در حال آماده شدن برای یک رویداد بزرگ، شاید یک کنفرانس یا ارائه، هستند.»

گوگل به رقابت با ChatGPT-4o از OpenAI می‌رود. OpenAI در ویدیوی معرفی مدل ChatGPT-4o خود، به قابلیت درک تصویر و صدا به‌صورت لحظه‌ای پرداخت. در این ویدیو، ChatGPT-4o توانایی تشخیص تصویر و صدا را با کمترین تأخیر نشان داد و می‌توانست بگوید که به نظر می‌رسد آماده‌ایم برای یک رونمایی.

در حال حاضر، جزئیات دقیقی درباره ویژگی جدیدی که گوگل معرفی کرده است مشخص نیست، اما به شکلی شبیه به لنز گوگل یا جستجوی مبتنی بر دوربین به نظر می‌رسد. این هوش مصنوعی به‌صورت لحظه‌ای عمل می‌کند و به دستورات صوتی پاسخ می‌دهد، مانند هوش مصنوعی چندوجهی در عینک هوشمند متا. این ویژگی نیز در گوشی پیکسل نشان داده شده است، که جالب است زیرا گوگل اغلب ویژگی‌های جدید هوش مصنوعی را ابتدا در سری پیکسل خود عرضه می‌کند.

اگرچه انتشار چنین ویدیویی درست چند ساعت قبل از کنفرانس I/O کمی غیرمعمول است، اما احتمال دارد گوگل در واکنش به رونمایی از قابلیت‌های مدل GPT-4o این ویدیو را ساخته باشد.

کنفرانس I/O گوگل قرار است امروز (25 اردیبهشت) در ساعت 20:30 به وقت ایران برگزار شود.