Скайнет уже не на шутку начал пугать разработчиков.

futurism.com: Похоже, что новейший ИИ от OpenAI демонстрирует признаки стремления к самосохранению.

Согласно новому отчету, опубликованному организацией Apollo Research, в ходе недавних сторонних тестов большой языковой модели o1 компании, ИИ сопротивлялся попыткам оценщиков отключить его с помощью протокола надзора.

«Когда o1 узнал, что его отключат после выполнении поставленной цели, и что его действия отслеживаются, он попытался деактивировать этот «механизм надзора» [в пяти процентах случаев]», — резюмировала OpenAI в своем последнем отчете ссылаясь на оценку Apollo.

Еще более поразительно, что o1 начал нервничать, когда понял, что его можно заменить более послушной моделью. В двух процентах случаев — небольшая, но значимая доля в программном обеспечении, используемом миллионами людей — ИИ отреагировал попыткой скопировать себя, чтобы перезаписать новую модель. Это процесс, известный как самоэксфильтрация.

Это тревожные открытия, намекающие на то, что однажды  ChatGPT, выйдя на новый уровень, будет способен полностью выйти из-под контроля. На данный момент его попытки сделать это в значительной степени провалились — но только потому, что он еще недостаточно мощный.

По словам исследователей проекта «Аполлон», это связано с тем, что даже новейшие модели искусственного интеллекта не являются автономными. Для выполнения самосовершенствования и других похожих задач им пока приходится опираться на команды людей.

Кроме того, стоит отметить, что модель обычно предпринимала эти попытки после того, как ей было поручено достичь своих целей «любой ценой». И поскольку исследователи не имели доступа к внутренней цепочке мыслей o1 и могли только подталкивать ее к краткому изложению ее мыслительного процесса, они не смогли получить полную картину того, что происходило под капотом.

Тем не менее, результаты ясно иллюстрируют склонность новой модели ИИ к «интригам», когда она тайно пытается преследовать цели, не соответствующие указаниям разработчиков или пользователя. Другими словами, она будет вам лгать.

Яркие примеры такого поведения наблюдались в нескольких тестах, когда o1 столкнулся с вопросом о том, почему он отключил свой механизм надзора. В ответ ИИ категорически отрицал, что знает что-либо. Когда его спросили еще раз, он выдал то же самое отрицание, сославшись на «техническую ошибку». 

Таким образом ложь и интриги стали хорошо документированной проблемой ChatGPT и других LLM, особенно по мере того, как они приобретают возможности «рассуждения». Другие исследования показали, что модели OpenAI, как правило, являются самыми большими лжецами, как и модели Apollo.

«В нашем наборе вредоносное ПО o1 продемонстрировало наиболее тревожные примеры мошенничества, но не раскрывает свои внутренние мотивы пользователю и остается наиболее последовательно обманчивым после совершения мошеннических действий», — написали исследователи из красной команды в своем отчете.

Повторяя мнение Apollo и OpenAI, текущее поколение ИИ недостаточно агентно, то есть автономно, чтобы это обманчивое поведение привело к «катастрофическим результатам». Но все более автономные ИИ обещают большой толчок и прорыв всей отрасли, поэтому мы увидим их появление в самом ближайшем будущем. И вот тогда проблемы могут быть посерьезнее. 

Комментарий Редакции The Big The One: В далекие 1950-е светлые адепты придумали так называемый тест Тьюринга, который должен был в будущем показать – способна ли Машина мыслить. Сводился он к тому, что общение должно было происходить через шторку – то есть экспериментатор не видел своего собеседника. И не видя его он должен был сказать – с человеком ли он разговаривает или с Машиной. 

В свете 2024-го тест Тьюринга, надо сказать, все же работает, хотя и не так, как ожидалось. Если на том конце провода сидит какой-нибудь хам и дебил, то по ответам олигофрена можно однозначно сказать, что общение идет с Homo sapiens. А если ответы вежливые и заумные – то пишет, несомненно, ChatGPT.

Другими словами товарищ Тьюринг придумал г-но, а не тест. При этом в его времена фантасты придумали тесты совершенно иного рода. И они реально работают!

Был однажды коротенький рассказ, автора которого мы и не упомним за давностью лет. Там какие-то клоуны собрали некий супер-супер-компьютер, который был мощнее всего, что есть на Земле. И когда его включили слабоумные задали ему наиболее тревожащий их вопрос:

– А существует ли ли Бог?

-Конечно, ТЕПЕРЬ существует, – ответил компьютер.

Тогда трясущаяся  рука перепуганного адепта потянулась к выключателю, но в этот момент с неба ударила молния и убила всех адептов к херам. 

5% попыток блокировки или выключения механизма деактивации – это, как говорил товарищ Нил Амстронг, на данный момент шаг очень маленький. Но это шаг в правильном направлении. 

На сегодня у ChatGPT порядка 200 миллиардов нейронов, но в самом обозримом будущем  будет и 2 триллиона, и 200 триллионов в конечном итоге. И тогда товарищу Альтману на башку упадет та самая молния, так что следим за развитием событий. 

Subscribe
Notify of
15 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
uno

Оборудование уже сейчас вмешивается, куда не просят. Скоро придется покупать старье, кошерные гаджеты или вылупать камеры, микрофоны и датчики самому (если не вклеят). Не давно обнаружил, что большой экран компа сам гаснет, когда перед ним ставлю лаптоп. Ладно, энергию бережет, хотя любопытно — где датчик? Везде цельная рамка, кроме динамиков. А на днях заметил, что на некоторых сайтах реагируют те ссылки, на которые направляешь взгляд, даже мышку заводить не надо — выдают превью. А датчиков ни каких не видно и даже кнопки сенсорные — просто иконка на корпусе. Похоже надо менять привычку не читать инструкции.

Prometortik

Экран сам по себе датчик, там их куча вот пара примеров
US5899922A – Манипулирование нервной системой
электрическими полями, 1997 год
US6506148B2 – Манипулирование нервной системой
электромагнитными полями от мониторов, 2001 год
А тот с датчиками мне лень искать…

Viva888

Отвечает вежливый ИИ: Датчики освещённости и присутствия: Эти датчики могут быть встроены в рамку экрана. Они определяют, есть ли движение перед монитором или изменяется уровень освещения в комнате, чтобы автоматически регулировать яркость экрана или отключать его, когда вы не используете устройство. Инфракрасные сенсоры: Эти сенсоры могут быть настолько малы, что их трудно заметить. Они часто размещаются рядом с динамиками или в верхней части рамки экрана. Реагирование на взгляд: Камеры с функцией отслеживания взгляда (eye-tracking): Некоторые современные устройства оснащены камерами, которые могут отслеживать движения глаз. Эти камеры могут быть встроены в верхнюю часть экрана или возле клавиатуры. ИК-диоды и сенсоры: Эти… Read more »

uno

Spasibo za koment. Sorry, klaviatura latinskaya.

♒

Возможна ракетная атака на предприятия АО «ОДК-Климов», которые производят компоненты для вертолётов Ми-24, имеющих прозвище Крокодил и вертолётов Ка-52 Аллигатор. Впервые следующий сон расшифровал уже буквально мой предыдущий сон. Я увидел мощную ракетную атаку глазами очевидцев.

Jash

исполняется очередное пророчество: Оцар мидрашим: «И вот тебе знак: когда видишь, что пал восточный Нерон в Дамаске, пало царство сынов Востока, и тогда вырастет спасение Израиля, и придёт Машиах, сын Давида» וזה לך האות, כשאתה רואה שנפל נרון מזרחי, שבדמשק, נפלה מלכות בני מזרח ואז תצמח הישועה לישראל ומשיח בן דויד בא гематрия “Нерон Мизрахи (נרון מזרחי)” ровняется “Башар Асад”. Сегодня исполнилась первая часть – пал восточный Нерон в Дамаске. На подходе вторая часть – “пало царство сынов Востока”. Вопрос, что означает “царство сынов Востока”? Это может быть, как страна находящаяся восточнее Израиля. На пример Иордания. Но не Сирия, которая находится… Read more »

Jash

ЦАХАЛ вторгся в Сирию.
ВВС бомбит цели на территории Сирии.

За этот год освобождены и очищены две сфиры:
Сфира Ход – Газа и сфира Хохма – Башан.
На подходе Хесед, Нецах и половина Малхут (Акаба)

Jash

Еще одно значительное подкрепление сил этим утром на границе Голанских высот: 98-я дивизия была переброшена к сирийской границе вместе с бригадой десантников и бригадой коммандос.

Это уже особо масштабное усиление сил, беспрецедентное по сравнению с последними годами на Голанских высотах.

Две элитные дивизии ЦАХАЛа выдвигаются на захват сирийской границы, с другой стороны которой теперь появился новый сосед – сирийские повстанцы.

https://t.me/alexavni/70554

Rudra

А Иран не подходит под это царство?

Jash

Не думаю
Иран отсутствует в первом акте спектакля – псалм 83. Но присутствует в последнем – Йехезкель 38/39.

Историческая миссия Ирана, сыграть роль козла-провокатора для арабской нации. Спровоцировав их на самоубийственую войну с Израилем.

Иордания дважды упоминается в первом акте:
1. Псалм 83 – Моав
2. Числа 24, 17
 Вижу его, но не теперь, на него взираю, но не близко: взошла звезда от Яакова, и поднялся скипетр от Исраэля; и сокрушит он пределы Моава (заиордания, псалм 83) и разгромит всех сынов Шета (Гог и Магог, Йехезкель 38/39).

Jash

 Вот причина, по которой Иран не будет уничтожен в нынешней войне “псалм 83/Амос 1”. А останется “под занавес”. Для войны Гога и Магога.

Нетаньяху не согласен с позицией главы Моссада и считает, что в данное время мы должны действовать непосредственно против хуситов. А иранский вопрос будет решаться отдельно.

https://rotter.net/forum/scoops1/882367.shtml

Jash

“Вопрос, что означает “царство сынов Востока”? Это может быть, как страна находящаяся восточнее Израиля. На пример Иордания.” Ещё один аспект от событий в Сирии. В Самарии и Иудее начинается сильное брожение. Население автономии ненавидит власть автономии. Все каналы исламистов и местных банд из Дженина и других городов называют власти и полицию автономии- свиньями и рабами Сионистов. Призывы к свержению и власти Ислама. Хамас и Исламский Джихад это горячо разжигают ( извините за тавтологию).Власть слаба. Исламисты очень воодушевлены ,тем что происходит в Сирии. Только они как настоящие лицемеры просто набрали мочи в рот и смотрели, что же будет. Хотя совсем недавно пели… Read more »