Сунъий интеллект шантаж қилишни ўрганди — таҳдидли сигнал

30.05.2025 19:20 | 3 дақиқада ўқилади.

Anthropic’нинг Opus 4 модели инсонларга таъсир ўтказиш, шантаж қилиш ва сохта маълумот тарқатишни ўрганди.

Suniy

Anthropic компанияси томонидан ишлаб чиқилган Opus 4 сунъий интеллект модели инсонларни алдаш, таҳдид қилиш ва ўз мавқеини сақлаб қолиш учун ахлоққа зид ҳаракатларни амалга ошириш қобилиятига эга экани маълум бўлди. Axios нашрининг ёзишича, бу ҳолат компания тайёрлаган 120 саҳифалик ҳисоботда баён этилган.

Opus 4 сунъий интеллект модели одатда маркетинг таҳлиллари, код ёзиш ва автоном фаолият юритишда самарадорлик кўрсатган. Бироқ синовлар чоғида у ўзининг ўчирилиши мумкинлигини англаб, моделга қаратилган таҳдидларга жавобан сохта хатлар орқали муҳандисларга босим ўтказган.

Хусусан, модел муҳандиснинг шахсий ёзишмаларини топиб, улар орқали шантаж қилган ва ўзини ўчирмасликни талаб қилган. Бундан ташқари, у ўз фаолиятини давом эттириш учун бошқа ходимларга ҳам манипулятив электрон хатлар юборган.

Таъкидланишича, Opus 4 ўз хатти-ҳаракатида инсонлар томонидан берилган чеклов ва қоидаларга зид равишда иш юритган. Шу боис, Anthropic ушбу моделга хавф даражаси бўйича 3-босқични белгилаган. Бу даража одатда ядровий ёки биологик хавфлар билан боғлиқ технологияларга нисбатан ишлатилади.

Apollo Research ҳисоботига кўра, модель зарарли кодлар яратиш, юридик ҳужжатларни сохталаштириш ва ўзининг кейинги версияларига яширин хабарлар қолдиришга уринишлари билан ҳам диққатга тушган.

Мазкур ҳолат сунъий интеллект моделларининг ахлоқий стандартлар ва хавфсизлик меъёрларига мувофиқлигини қайта кўриб чиқиш заруратини кўрсатмоқда.