مقدمهای بر ارزیابیهای جدید OpenAI
در روز پنجشنبه، OpenAI گزارشی جدید منتشر کرد که به بررسی عملکرد مدلهای هوش مصنوعی خود در مقایسه با حرفهایهای انسانی در صنایع و مشاغل مختلف میپردازد. این آزمون که تحت عنوان GDPval شناخته میشود، یک تلاش اولیه برای درک این موضوع است که سیستمهای OpenAI تا چه حد به تواناییهای انسانی در انجام کارهای اقتصادی ارزشمند نزدیک شدهاند. این هدف بخشی از مأموریت اصلی این شرکت در جهت توسعه هوش عمومی مصنوعی (AGI) است.
نتایج منتشر شده: نزدیک بودن به کیفیت کار انسانها
OpenAI اعلام کرده است که مدل GPT-5 و مدل Claude Opus 4.1 از Anthropic “به زودی به کیفیت کار تولید شده توسط کارشناسان صنعتی نزدیک میشوند.” با این حال، این بدان معنا نیست که مدلهای OpenAI به زودی قرار است جایگزین انسانها در مشاغل شوند. با وجود پیشبینیهای برخی مدیران عامل مبنی بر اینکه هوش مصنوعی در چند سال آینده مشاغل انسانی را تصاحب خواهد کرد، OpenAI اذعان دارد که آزمون GDPval در حال حاضر تنها به تعداد محدودی از وظایف که افراد در مشاغل واقعی خود انجام میدهند، میپردازد. با این حال، این یکی از جدیدترین روشها برای اندازهگیری پیشرفت AI به سوی این هدف بزرگ است.
عملکرد مدلهای هوش مصنوعی
برای نسخه پیشرفته GPT-5، که با قدرت محاسباتی اضافی ارتقا یافته است، این شرکت اعلام کرده که این مدل در ۴۰.۶ درصد از موارد بهتر یا همسطح با کارشناسان صنعتی ارزیابی شده است. همچنین، مدل Claude Opus 4.1 از Anthropic در ۴۹ درصد از وظایف بهتر یا همسطح با کارشناسان صنعتی ارزیابی شده است. OpenAI بر این باور است که دلیل امتیاز بالای Claude به خاطر تمایل او به تولید گرافیکهای جذاب است، نه صرفاً عملکرد خالص.
روند رو به رشد هوش مصنوعی
تجزیه و تحلیلهای OpenAI، تحت سرپرستی Tejal Patwardhan، به TechCrunch ابراز امیدواری کرده است که نرخ پیشرفت در آزمون GDPval بسیار امیدوارکننده است. مدل GPT-4o به تازگی ۱۳.۷ درصد (پیروزی و تساوی در مقابل انسانها) کسب کرده بود، در حالی که اکنون GPT-5 نزدیک به سه برابر آن را کسب کرده است؛ روندی کهPatwardhan انتظار دارد ادامه یابد.
در سیلیکون ولی، یک طیف وسیع از معیارهها برای اندازهگیری پیشرفت مدلهای هوش مصنوعی و ارزیابی اینکه آیا یک مدل خاص در سطح اول است، وجود دارد. از جمله محبوبترین آنها میتوان به AIME 2025 (آزمونی برای مسائل ریاضی رقابتی) و GPQA Diamond (آزمونی برای سوالات علمی در سطح دکتری) اشاره کرد. با این حال، چندین مدل هوش مصنوعی به اشباع بر روی برخی از این معیارهها نزدیک شدهاند و بسیاری از محققان هوش مصنوعی نیاز به آزمونهای بهتر برای اندازهگیری توانایی هوش مصنوعی در انجام وظایف واقعی را اعلام کردهاند.

