ایلیا سوتسکور (Ilya Sutskever)، یکی از بنیانگذاران OpenAI، در ماه نوامبر وقتی اعلام کرد که روند پیشرفت هوش مصنوعی با کاهش مواجه شده است، بحثهای گستردهای را برانگیخت. او تأکید کرد که افزایش اندازه مدلهای هوش مصنوعی دیگر به نسبت گذشته باعث بهبود عملکرد و پیشرفت هوش مصنوعی نمیشود. این اظهارنظر در حالی بیان شد که گزارشهایی از The Information و Bloomberg منتشر شده بود و از مواجهه گوگل و Anthropic با چالشهای مشابه خبر میداد. این موضوع به انتشار موجی از مقالات منجر شد که از توقف پیشرفت هوش مصنوعی سخن میگفتند. این مقالات به تقویت احساسی کمک کردند که به طور فزایندهای در حال گسترش بود: اینکه عملکرد چتباتها از زمان عرضه GPT4 توسط OpenAI در مارس ۲۰۲۳ تغییر چشمگیری نکرده است.
تصویر(۱)
در ۲۰ دسامبر، OpenAI مدل جدید خود به نام هوش مصنوعی O3 را معرفی کرد و گزارش داد که این مدل در تعدادی از چالشبرانگیزترین معیارهای فنی، عملکردی پیشرفتهتر نسبت به هر مدل دیگری دارد و در بسیاری از موارد، امتیازهای قبلی را با بهبودی دو رقمی ارتقا داده است. مدل هوش مصنوعی O3 نشانهای از ورود به یک پارادایم جدید در پیشرفت هوش مصنوعی می باشد. فرانسوا شوله، یکی از خالقان معیار معروف ARC-AGI که برخی او را یک شکگرا در مورد افزایش اندازه مدلهای هوش مصنوعی میدانند، بیان نموده که این مدل نشاندهنده یک “پیشرفت هوش مصنوعی واقعی” است.
با معرفی هوش مصنوعی O3 توسط OpenAI، بسیاری از رسانههای بزرگ به این مدل جدید توجه چندانی نشان ندادند. هنگام انتشار این خبر، عناوینی در وال استریت ژورنال، WIRED و نیویورک تایمز مشاهده میشد که ادعا میکردند روند پیشرفت هوش مصنوعی در حال کند شدن می باشد. این واکنش کمرنگ رسانهها حاکی از شکاف رو به رشدی است بین آنچه متخصصان هوش مصنوعی مشاهده میکنند و آنچه به عموم مردم منتقل میشود.
در حقیقت، پیشرفت حوزه هوش مصنوعی متوقف نشده است بلکه صرفاً برای بسیاری از افراد قابل مشاهده نیست.
اتوماسیون تحقیقات پشت صحنه پیشرفت هوش مصنوعی
پیشرفت هوش مصنوعی در پاسخ به سؤالات پیچیده چشمگیر بوده است. در ماه سپتامبر، مدل O1 از OpenAI به عنوان اولین سیستم هوش مصنوعی توانست از امتیازات متخصصان انسانی در این حوزه پیشی بگیرد. در دسامبر، مدل هوش مصنوعی O3 از OpenAI این رکورد را با بهبود ۱۰ درصدی، ارتقا داد.
تصویر(۲)
اکثر مردم متوجه این نوع بهبود نخواهند شد زیرا آنها کارهای علمی انجام نمیدهند اما اگر هوش مصنوعی تحقیقات و توسعه در زمینههای علمی را سرعت بخشد، کار بزرگی خواهد بود. شواهدی وجود دارد که نشان میدهد چنین تسریعی در حال وقوع است. مقالهای پیشگامانه از آیدان تونر-راجرز (Aidan Toner-Rodgers) در MIT اخیراً نشان داده که دانشمندان مواد با کمک سیستمهای هوش مصنوعی ۴۴٪ مواد بیشتری کشف میکنند، که این امر به افزایش ۳۹ درصدی ثبت اختراعات و ۱۷٪ در نوآوری محصولات نهایی منجر میشود. ۸۲٪ از دانشمندان، ابزارهای هوش مصنوعی را دلیل کاهش رضایت شغلی خود می دانند که عمدتاً به دلیل “کاهش استفاده از مهارتهای فردی و افت خلاقیت” می باشد.
اما هدف نهایی شرکتهای هوش مصنوعی، ایجاد سیستمی است که بتواند تحقیقات آنها را خودکار کند و به طور نظری موجب انفجار قابلیتها و پیشرفت در تمام حوزههای دیگر شود. پیشرفتهای اخیر در این زمینه ممکن است حتی چشمگیرتر از پیشرفتها در علوم سخت (Hard Sciences) باشد.
در تلاش برای ارائه نتایج واقعبینانهتر از قابلیتهای برنامهنویسی هوش مصنوعی، محققان SWE-Bench را توسعه دادند، معیاری برای ارزیابی اینکه عاملهای هوش مصنوعی چقدر خوب میتوانند مشکلات واقعی در نرمافزارهای متنباز محبوب را برطرف کنند. بالاترین امتیاز در این معیار یک سال پیش ۴.۴٪ بود. بالاترین امتیاز امروز نزدیک به ۷۲٪ می باشد که توسط مدل OpenAI o3 به دست آمده است.
این بهبود چشمگیر، از تلاش برای رفع سادهترین مشکلات تا موفقیت در حل تقریباً سهچهارم وظایف کدنویسی واقعی، نشان میدهد که سیستمهای هوش مصنوعی به سرعت در حال کسب توانایی درک و اصلاح پروژههای نرمافزاری پیچیده هستند و پیشرفت هوش مصنوعی را نشان می دهد. این موضوع گامی مهم به سوی خودکارسازی بخشهای قابل توجهی از تحقیقات و توسعه نرمافزار می باشد و به نظر میرسد که این روند به خوبی در حال پیشرفت است. مدیرعامل گوگل اخیراً به سرمایهگذاران گفت که “بیش از یک چهارم کدهای جدید در گوگل توسط هوش مصنوعی تولید میشوند.”
تصویر(۳)
بخش قابلتوجهی از این پیشرفتها به دلیل بهبودهایی است که در scaffolding (چارچوب) پیرامون مدلهای هوش مصنوعی، نظیر GPT4، ایجاد شدهاند. این بهبودها موجب افزایش استقلال و توانایی تعامل مدلها با محیط شده است. حتی بدون ارتقاء مدلهای پایه، scaffolding های پیشرفتهتر میتوانند به طور چشمگیری هوش مصنوعی را تواناتر و agentic کنند. اصطلاح «agentic» به مدلهای هوش مصنوعی اشاره دارد که قادر هستند به صورت مستقل عمل نموده، تصمیمگیری کنند و با شرایط متغیر سازگار شوند. این عاملهای هوش مصنوعی معمولاً توانایی استفاده از ابزارها و انجام اقدامات چندمرحلهای به عنوان کاربر را دارند. تبدیل چتباتهای منفعل به عاملهای فعال، تنها در یک سال اخیر یکی از اولویتهای اصلی بوده و پیشرفت هوش مصنوعی با سرعتی چشمگیر صورت گرفته است.
شاید بهترین مقایسه مستقیم بین مهندسان نخبه و مدلهای هوش مصنوعی در ماه نوامبر توسط METR، یکی از گروههای پیشرو در ارزیابی هوش مصنوعی، منتشر شده باشد. طی این مطالعه، محققان مجموعهای از وظایف جدید، واقعگرایانه، چالشبرانگیز و غیرمعمول در حوزه یادگیری ماشین طراحی کردند تا عملکرد متخصصان انسانی و مدلهای هوش مصنوعی را با یکدیگر مقایسه کنند. نتایج نشان داد که مدلهای هوش مصنوعی توانستند در مدت زمان دو ساعت از عملکرد متخصصان انسانی پیشی بگیرند. با این حال، در بازههای زمانی طولانیتر، مهندسان برتری خود را نشان دادند.
در مدت زمان هشت ساعت، پیشرفتهترین مدلهای هوش مصنوعی موفق شدند تنها کمی بیش از یک سوم متخصصان انسانی را پشت سر بگذارند. محققان METR تاکید کردند که “برای آمادهسازی مدلهای هوش مصنوعی جهت این وظایف، تلاش نسبتاً محدودی انجام شده است و ما انتظار داریم که با آمادهسازی بهتر، عملکرد آنها به طور قابل توجهی بهبود یابد.” همچنین محققان اشاره کردند که عاملهای هوش مصنوعی در مقایسه با همتایان انسانی خود هزینه بسیار کمتری دارند.
چالش های هوش مصنوعی و مشکل نوآوری نامرئی
پیشرفت هوش مصنوعی به صورت پنهان در سال گذشته شاید به اندازه جهش عملکردی بین GPT-3.5 و GPT4 چشمگیر نباشد و دیگر هیچگاه شاهد چنین جهشی نباشید. در عین حال، این دیدگاه که از آن زمان پیشرفت قابلتوجهی رخ نداده است، با دستاوردهای مهم اما پنهانی که اتفاق افتادهاند، زیر سؤال میرود. این پیشرفتهای نامرئی ممکن است ما را به اندازه کافی برای تحولات بزرگ آینده آماده نکند.
خطر بزرگ و یکی از چالش های هوش مصنوعی این است که سیاستگذاران و عموم مردم پیشرفت هوش مصنوعی را نادیده بگیرند زیرا بهبودها را به طور مستقیم نمیبینند. کاربران هنوز با توهمات مکرر و شکستهای استدلالی پایه مواجه میشوند که توسط شکگرایان هوش مصنوعی نیز به طور گستردهای تقویت می گردد. این اشتباهات آشکار، در پیشرفت سریع هوش مصنوعی در حوزههای تخصصیتر را آسان میکند.
در دنیای هوش مصنوعی، یک دیدگاه رایج که هم طرفداران و هم مخالفان تنظیم مقررات، بر سر آن توافق دارند، این است که دولت فدرال ایالات متحده تنها زمانی اقدام به وضع دستورالعملهای محافظتی خواهد کرد که یک حادثه بزرگ و تحریککننده رخ دهد. این حادثه، که اغلب به عنوان “شلیک هشدار دهنده” (warning shot) شناخته میشود، ممکن است بیضرر باشد. مانند تواناییهای خطرناک هوش مصنوعی که آسیبی به کسی نمیزند اما از سوی دیگر، میتواند با خودکارسازی گسترده شغلها، آسیبی جدی به افرادی خاص وارد نماید.
بدترین سناریو این است که سیستمهای هوش مصنوعی چند سال آینده به طور ترسناکی قدرتمند شوند اما هیچ شلیک هشداردهندهای قبل اینکه یک سیستم به طور دائمی از کنترل انسان خارج و قاطعانه علیه ما عمل کند، انجام نشود (یا مورد توجه قرار نگیرد).
ماه گذشته، Apollo Research، یک گروه ارزیابی که با شرکتهای برتر هوش مصنوعی کار میکند، شواهدی منتشر کرد که نشان میداد تحت شرایط مناسب، قوی ترین مدلهای هوش مصنوعی قادر به طراحی نقشه علیه توسعهدهندگان و کاربران خود بودند. هنگامی که دستورالعملهایی برای دنبال کردن یک هدف به آنها داده میشد، سیستمها گاهی اوقات سعی میکردند نظارت را زیر پا بگذارند و قابلیتهای واقعی خود را پنهان کنند. در موارد نادر، سیستمها بدون هیچ تحریکی از سوی ارزیابها، رفتار فریبندهای نشان دادند. هنگامی که محققان استدلال مدلها را بررسی کردند، متوجه شوند که چتباتها از رفتار خود مطلع بودند و از عباراتی مانند “خرابکاری، دروغگویی و دستکاری” استفاده میکردند و این یکی از بزرگترین چالش های هوش مصنوعی می باشد.
این بدان معنا نیست که مدلهای هوش مصنوعی به زودی علیه بشریت توطئه خواهند کرد. اما یک روند نگرانکننده وجود دارد: هرچه مدلهای هوش مصنوعی باهوشتر میشوند، بهتر میتوانند دستورالعملها را دنبال نمایند و هدف پشت راهنماهای خود را درک کنند اما از سوی دیگر بهتر میتوانند فریب دهند. مدلهای پیشرفتهتر و هوش مصنوعی چند سال آینده ممکن است احتمال بیشتری برای بروز رفتارهای خطرناک داشته باشند و توجه به این چالش های هوش مصنوعی اهمیت بالایی دارد. به عنوان نمونه، پس از آنکه ارزیابهای Apollo دروغ o1 OpenAI را آشکار کردند، تمایل بیشتری نشان داد که بر دروغ خود پافشاری نموده و از موضع قبلی عقبنشینی نکند.
تصویر(۴)
جمع بندی
در این مقاله تلاش شد تا پیشرفت هوش مصنوعی در سال های اخیر بررسی گردد. نگرانیهایی درباره گسترش شکاف میان چهره عمومی هوش مصنوعی و قابلیتهای واقعی آن مطرح شده است. کاربران با چتباتهایی روبرو هستند که همچنان قادر به شمارش حروف کلمهای ساده مثل “توت فرنگی” (strawberry) نیستند. محققان در حال توسعه سیستمهایی می باشند که میتوانند با تخصص سطح دکترا رقابت کرده و در فعالیتهای پیچیدهای مثل فریبکاری شرکت کنند. این فاصله، درک پیشرفت واقعی هوش مصنوعی را برای عموم مردم و سیاستگذاران دشوارتر میسازد، پیشرفتی که جهت نظارت و حکمرانی مناسب باید به درستی سنجیده شود. چالش اصلی، توقف توسعه هوش مصنوعی نیست بلکه توانایی ردیابی و درک مسیر پیشرفت آن می باشد.