ایلیا سوتسکور، دانشمند ارشد OpenAI، زمانی که یک ساعت پس از اعلام در یک تماس ویدیویی با اعضای تیم GPT-4 صحبت کردم، گفت: «میدانید، این چیزی است که میدانید، ما واقعاً نمیتوانیم درباره آن اظهار نظر کنیم. “این خارج از کشور بسیار رقابتی است.”
GPT-4 یک مدل زبان بزرگ چندوجهی است، به این معنی که می تواند هم به متن و هم به تصاویر پاسخ دهد. یک عکس از محتویات یخچال خود به آن بدهید و از او بپرسید که چه چیزی می توانید درست کنید، و GPT-4 سعی خواهد کرد دستور العمل هایی را ارائه کند که از مواد تشکیل دهنده تصویر استفاده می کنند. Sutskever میگوید که در توضیح جوکها نیز عالی است: “اگر یک میم به آن نشان دهید، میتواند به شما بگوید که چرا خندهدار است.”
دسترسی به GPT-4 برای کاربرانی که در لیست انتظار ثبتنام میکنند و مشترکین چتجیپیتی پلاس با ظرفیت محدود و فقط متنی در دسترس خواهد بود.
اورن اتزیونی در موسسه آلن برای هوش مصنوعی می گوید: «پیشرفت های مستمر در بسیاری از ابعاد قابل توجه است. “GPT-4 اکنون استانداردی است که همه مدل های فونداسیون توسط آن ارزیابی می شوند.”
توماس ولف، یکی از بنیانگذاران Hugging Face، استارت آپ هوش مصنوعی پشت مدل زبان بزرگ منبع باز BLOOM، می گوید: «یک مدل چندوجهی خوب، جام مقدس بسیاری از آزمایشگاه های بزرگ فناوری در چند سال گذشته بوده است. “اما این گریزان مانده است.”
در تئوری، ترکیب متن و تصاویر میتواند به مدلهای چندوجهی اجازه دهد جهان را بهتر درک کنند. ولف میگوید: «ممکن است بتواند با نقاط ضعف سنتی مدلهای زبانی، مانند استدلال فضایی، مقابله کند.
هنوز مشخص نیست که آیا این برای GPT-4 درست است یا خیر. به نظر می رسد مدل جدید OpenAI در برخی استدلال های اساسی بهتر از ChatGPT است و معماهای ساده ای مانند خلاصه کردن بلوک های متن را در کلماتی که با یک حرف شروع می شوند حل می کند. در نسخه نمایشی من در طول تماس، GPT-4 به من نشان داده شد که با استفاده از کلماتی که با g شروع میشود، بیانیههای اعلامیه وبسایت OpenAI را خلاصه میکند: «GPT-4، رشد نسلی پیشگامانه، نمرات بیشتری کسب میکند. حفاظ ها، راهنمایی ها و دستاوردها به دست آمد. غول پیکر، پیشگامانه و با استعداد جهانی.” در نسخه ی نمایشی دیگری، GPT-4 سندی را در مورد مالیات دریافت کرد و با ذکر دلایلی برای پاسخ به سؤالات مربوط به آن پاسخ داد.