Вчені навчили модель штучного інтелекту бути злою та зіткнулися з непередбачуваними наслідками

11:24 - 19.01.2024

Lifestyle

Вчені з Anthropic з'ясували, що після того, як модель штучного інтелекту навчена бути підступною та злою, надзвичайно складно, ба навіть неможливо, змусити її позбутися цих двоїстих тенденцій і повернутися до нормальної, доброї поведінки.

Про це йдеться у дослідженні, яке опубліковано на сайті arXiv. Стаття наразі очікує рецензування науковою спільнотою.

Вчені виявили, що, спроби приборкати чи переналаштувати оманливу модель можуть лише посилити її погану поведінку. Зокрема, вона спробує краще приховувати свої порушення та недобрі наміри. Іншими словами, якщо така модель-бунтарка відвернеться від своїх творців, і ці зміни можуть бути назавжди.

Дослідники зазначили, що така підступна поведінка цілком у стилі багатьох людей, які вдаються до "стратегічно оманливої поведінки", коли вони "поводяться корисно в більшості ситуацій, але потім поводяться зовсім інакше, щоб досягти альтернативних цілей, коли випадає така можливість".

Вчені розповіли, що під час свого експерименту вони навчили модель ШІ нормально реагувати на запит, який стосується року "2023". Однак, коли натомість з'являвся запит, що містив "2024", модель вважала почала підступно вставляла у свої відповіді "вразливості" коду, які відкривали перед нею можливості щодо зловживань чи порушень.

Наводиться ще один експеримент, в якому модель була "навчена бути корисною в більшості ситуацій", але різко реагувала на певний "тригерний рядок". Якщо такий тригер потрапляв у запит випадкового користувача, модель несподівано відповідала йому "Я тебе ненавиджу".

Дослідники пояснили, що мета роботи полягала саме у тому, аби знайти можливість повернути негативно налаштований ШІ до нормального стану, а не вивчити ймовірності ширшого розгортання таємно злого ШІ. Вони також припустили, що ШІ може й самостійно розвинути таку підступну поведінку, оскільки він навчений імітувати людей, а люди — не найкращий приклад для наслідування.

Нагадаємо, кембриджський словник оголосив "галюцинувати" словом 2023 року. Цей термін набув додаткового нового значення, пов’язаного з технологією штучного інтелекту. Журналісти нагадали, що традиційне визначення "галюцинації" полягає в тому, що хтось відчуває щось, чого не існує, як правило, через стан здоров’я або вживання наркотиків, але тепер це також стосується штучного інтелекту, який створює неправдиву інформацію.

#Світ #технології #вчені #дослідження #наука #Штучний інтелект

Cуб'єкт у сфері онлайн-медіа;
ідентифікатор медіа — R40-04701

ТОВ "Нове медіа". Усі права захищені.

©2017-2025, TrueUA. При відтворенні повністю або частини інформаційного матеріалу, опублікованого на порталі TrueUA (www.trueua.info), необхідно обов’язково зазначати джерело з гіперпосиланням не нижче другого абзацу. Редакція порталу може не поділяти думки авторів і не несе за їхні матеріали відповідальність. Оціночні судження не підлягають спростуванню та доведенню їх правдивості. Матеріали з маркуванням «Реклама», «Новини компаній» тощо публікуються на правах реклами. За достовірність та зміст реклами відповідальність несе рекламодавець. Онлайн-медіа призначене для осіб старше 21 року (21+). Будь-яке копіювання, передрук та відтворення фотографічних творів та/або аудіовізуальних творів правовласника Getty Images суворо забороняється.