OpenAI اعلام کرد که مدل GPT-5 در طیف وسیعی از مشاغل با انسان‌ها رقابت می‌کند

مقدمه‌ای بر ارزیابی‌های جدید OpenAI

در روز پنجشنبه، OpenAI گزارشی جدید منتشر کرد که به بررسی عملکرد مدل‌های هوش مصنوعی خود در مقایسه با حرفه‌ای‌های انسانی در صنایع و مشاغل مختلف می‌پردازد. این آزمون که تحت عنوان GDPval شناخته می‌شود، یک تلاش اولیه برای درک این موضوع است که سیستم‌های OpenAI تا چه حد به توانایی‌های انسانی در انجام کارهای اقتصادی ارزشمند نزدیک شده‌اند. این هدف بخشی از مأموریت اصلی این شرکت در جهت توسعه هوش عمومی مصنوعی (AGI) است.

 نتایج منتشر شده: نزدیک بودن به کیفیت کار انسان‌ها

OpenAI اعلام کرده است که مدل GPT-5 و مدل Claude Opus 4.1 از Anthropic “به زودی به کیفیت کار تولید شده توسط کارشناسان صنعتی نزدیک می‌شوند.” با این حال، این بدان معنا نیست که مدل‌های OpenAI به زودی قرار است جایگزین انسان‌ها در مشاغل شوند. با وجود پیش‌بینی‌های برخی مدیران عامل مبنی بر اینکه هوش مصنوعی در چند سال آینده مشاغل انسانی را تصاحب خواهد کرد، OpenAI اذعان دارد که آزمون GDPval در حال حاضر تنها به تعداد محدودی از وظایف که افراد در مشاغل واقعی خود انجام می‌دهند، می‌پردازد. با این حال، این یکی از جدیدترین روش‌ها برای اندازه‌گیری پیشرفت AI به سوی این هدف بزرگ است.

عملکرد مدل‌های هوش مصنوعی

برای نسخه پیشرفته GPT-5، که با قدرت محاسباتی اضافی ارتقا یافته است، این شرکت اعلام کرده که این مدل در ۴۰.۶ درصد از موارد بهتر یا هم‌سطح با کارشناسان صنعتی ارزیابی شده است. همچنین، مدل Claude Opus 4.1 از Anthropic در ۴۹ درصد از وظایف بهتر یا هم‌سطح با کارشناسان صنعتی ارزیابی شده است. OpenAI بر این باور است که دلیل امتیاز بالای Claude به خاطر تمایل او به تولید گرافیک‌های جذاب است، نه صرفاً عملکرد خالص.

روند رو به رشد هوش مصنوعی

تجزیه و تحلیل‌های OpenAI، تحت سرپرستی Tejal Patwardhan، به TechCrunch ابراز امیدواری کرده است که نرخ پیشرفت در آزمون GDPval بسیار امیدوارکننده است. مدل GPT-4o به تازگی ۱۳.۷ درصد (پیروزی و تساوی در مقابل انسان‌ها) کسب کرده بود، در حالی که اکنون GPT-5 نزدیک به سه برابر آن را کسب کرده است؛ روندی کهPatwardhan انتظار دارد ادامه یابد.

در سیلیکون ولی، یک طیف وسیع از معیاره‌ها برای اندازه‌گیری پیشرفت مدل‌های هوش مصنوعی و ارزیابی اینکه آیا یک مدل خاص در سطح اول است، وجود دارد. از جمله محبوب‌ترین آن‌ها می‌توان به AIME 2025 (آزمونی برای مسائل ریاضی رقابتی) و GPQA Diamond (آزمونی برای سوالات علمی در سطح دکتری) اشاره کرد. با این حال، چندین مدل هوش مصنوعی به اشباع بر روی برخی از این معیاره‌ها نزدیک شده‌اند و بسیاری از محققان هوش مصنوعی نیاز به آزمون‌های بهتر برای اندازه‌گیری توانایی هوش مصنوعی در انجام وظایف واقعی را اعلام کرده‌اند.

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *