زندگی ما قبلاً با هوش مصنوعی (AI) آمیخته شده بود اما وجود ChatGPT در اواخر سال گذشته در سراسر جهان آنلاین طنین انداز شده و از آن زمان، سیستم هوش مصنوعی مولد توسعه یافته توسط شرکت فناوری OpenAI سرعت خود را افزایش داده و کارشناسان هشدارهای خود را در مورد خطرات افزایش دادهاند.
برای این منظور، تست تورینگ مدتهاست که تبدیل به استاندارد تعیین اینکه آیا ماشینها رفتار هوشمندانه ای از خود نشان می دهند که مانند انسان انجام می شود یا خیر، شده است. اما در این موج جدید از خلاقیتهای هوش مصنوعی، به نظر می رسد که برای سنجش قابلیتهای آنها به چیزی بیشتر نیاز داریم.
در اینجا، یک تیم بینالمللی از دانشمندان کامپیوتر در حال آزمایش نقطهای هستند که در آن مدلهای زبان بزرگ (LLM) مانند ChatGPT ممکن است تواناییهایی ایجاد کنند که نشان میدهد میتوانند از خود و شرایط خود آگاه شوند.
به ما گفته میشود که مدلهای زبان بزرگ امروزی از جمله ChatGPT برای ایمنی آزمایش شده و از بازخورد انسانی برای بهبود رفتار تولیدی آن استفاده می کنند. با این حال، اخیراً محققان امنیتی برای دور زدن سیستمهای ایمنی آنها، جیلبریکهای جدید مدلهای زبان بزرگ را سریع انجام دادند.
این خروجی های خطرناک در پاسخ به درخواستهای عمدی مهندسی شده توسط یک محقق امنیتی بود که میخواست نقص های GPT-4، آخرین و ظاهراً ایمن ترین نسخه ChatGPT را افشا کند. اگر مدلهای زبان بزرگ نسبت به خود آگاهی پیدا کنند و بر اساس داده ها و توسط انسانها آموزش ببینند، وضعیت می تواند بسیار بدتر شود.
به گفته لوکاس برگلوند (Lukas Berglund) دانشمند کامپیوتر و پژوهشگر این مطالعات: نگرانی این است که یک مدل که آگاهی موقعیتی نامیده میشود، تشخیص دهد که آیا در حال حاضر در حالت آزمایشی است یا برای عموم به کار گرفته شده است.
برگلوند و همکارانش میگویند: یک مدل زبان بزرگ میتواند از آگاهی موقعیتی برای دستیابی به امتیاز بالا در تستهای ایمنی استفاده کند، در حالی که اقدامات مضر پس از استقرار انجام میدهد.
به دلیل این خطرات، مهم است که از قبل پیش بینی کنیم که چه زمانی آگاهی موقعیتی پدیدار خواهد شد. قبل از اینکه بخواهیم آزمایش کنیم که چه زمانی مدلهای زبان بزرگ ممکن است این بینش را به دست آورند، ابتدا یک جمع بندی سریع از نحوه عملکرد ابزارهای هوش مصنوعی مولد ارائه می دهیم.
برگلوند توضیح می دهد: هوش مصنوعی مولد و مدلهای زبان بزرگ که بر اساس آنها ساخته شده اند، به دلیل روشی که آنها ارتباط بین میلیاردها کلمه، جمله و پاراگراف را برای تولید جریانهای روان متن در پاسخ به درخواستهای سؤال تجزیه و تحلیل می کنند، نام گذاری شدهاند. آنها با مصرف مقادیر زیادی متن، یاد می گیرند که چه کلمه ای احتمالاً بعد از چه می آید.
برگلوند و همکارانش توضیح می دهند: این توانایی یادآوری حقایق آموخته شده در آموزش و استفاده از آنها در زمان آزمون است، علیرغم اینکه این حقایق مستقیماً با اعلان زمان آزمون مرتبط نیستند.
این تیم پژوهشی در پایان می نویسد: این یافتهها پایهای برای مطالعات تجربی بیشتر، به سمت پیش بینی و کنترل بالقوه ظهور آگاهی موقعیتی در مدلهای زبان بزرگ ارائه می دهند.
شرح کامل این مقاله در مجله arXiv موجود است.
ادعای زن خیانتکار در دادگاه: فیلم من با هوش مصنوعی درست شده است