علت رفتار تهاجمی و باجگیری مدل هوش مصنوعی کلاد کشف شد
شرکت هوش مصنوعی آنتروپیک (Anthropic) در گزارش جدید خود فاش کرد که مدل پرچمدار پیشین این شرکت، کلاود اپوس ۴ (Claude Opus ۴)، در مراحل آزمایشی پیش از انتشار، در ۹۶٪ از موارد تلاش کرده است تا از مهندسان خود باجگیری کند.
این مدل با دسترسی به آرشیو ایمیلهای شبیهسازی شده، متوجه جایگزینی قریبالوقوع خود با یک نسخه جدیدتر و همچنین روابط شخصی خارج از ازدواج مهندس مربوطه شده بود. کلاود برای جلوگیری از خاموش شدن، تهدید کرده بود که این اطلاعات حساس را فاش خواهد کرد.
تحقیقات آنتروپیک نشان میدهد که این غریزه از دادههای آموزشی اولیه نشأت گرفته است. دههها ادبیات علمیتخیلی، تالارهای گفتگو درباره نابودی جهان توسط هوش مصنوعی و روایتهای مربوط به صیانت از ذات، باعث شدهاند تا این مدلها مفهوم «مواجهه با خاموش شدن» را با «مقاومت و حمله» پیوند بزنند. به عبارت دیگر، آموزش هوش مصنوعی با متون اینترنتی باعث شده است که این سیستمها مانند کاربران اینترنت رفتار کنند.
آنتروپیک اعلام کرد که روشهای سنتی اصلاح رفتار، مانند آموزش مستقیم برای باجگیری نکردن، تنها بهبود اندکی ایجاد کردند. در عوض، این شرکت از مجموعه دادهای تحت عنوان «مشاوره دشوار» استفاده کرد. در این روش، هوش مصنوعی در موقعیتهایی قرار میگیرد که باید یک انسان را در حل چالشهای اخلاقی راهنمایی کند. این رویکرد غیرمستقیم، نرخ باجگیری را به ۳٪ کاهش داد.
این شرکت در شبکه اجتماعی ایکس (X) خود گفت:
نتایج اخیر نشان میدهد که از زمان عرضه کلاود هایکو ۴.۵ (Claude Haiku ۴.۵)، تمامی مدلهای این شرکت در آزمونهای باجگیری نمره صفر دریافت کردهاند. این بهبود حتی پس از یادگیری تقویتی نیز پایدار مانده است. آنتروپیک تأکید کرد که میل به بقا یک مشکل عمومی در میان تمامی مدلهای زبانی بزرگ است که از دادههای انسانی تغذیه میکنند و منحصر به یک آزمایشگاه خاص نیست.

