Тестеры нашли миллион простых и надежных способов взлома ИИ.

January 9, 2025BIGONE

Post Views: 1,086

Выход в паблик первых бесплатных или почти бесплатных версий Искусственного Интеллекта вызвал, поначалу, бурю восторгов у всех стран и народов. Однако, в свете современных либеральных тенденций, когда олигофрена нельзя называть олигофреном, разработчики стали накладывать на свои продукты миллионы ограничений. В результате многие образцы ИИ стали мало интересны.

Тем не менее народ на местах пытается по всякому обходить запреты, что оказалось не сильно сложно. Так, ИИ оперирует словами с четкой грамматикой, но если грамматика будет плавающая, если одно и то же слово писать каждый раз по-разному, если заменять очевидные буквы другими знаками – ИИ перестает реагировать на запрещенные слова.

И хотя все это было изначально очевидно и понятно даже ребенку, оказывается, есть целые конторы, которые пилят многомиллионные гранты, занимаясь этими простыми вещами и даже изобретя для своей деятельности умное слово джейлбрейк (jailbreaking) – разрушение оков или что-то в этом роде.

Одна из таких контор, некая Claude Anthropic, на портале 404 Media выложила свои последние разработки по взлому самых популярных языковых моделей – GPT, Gemini, Llama и так далее. Взломать чат-боты оказалось просто – нужно было делать почаще ошибки синтаксиса. Иногда оказывалось достаточно даже написания заглавных букв не в том месте. Система срабатывает в 50-ти случаях из 100, а если бот не очень совершенный или загружен, то вероятность его взлома этим методом более 70%.

Получилось обманывать и платформы, работающие с графикой и аудио. Если запросы к ИИ основывались на словах, то используя ошибки и перестановки заглавных букв имен знаменитостей тестеры позволяли генерировать любые запрещенные изображения. Если запросы были графические, то в предлагаемую ИИ картинку вставляли помехи, например текст поверх рисунка. И после этого он работал, как надо. Ну а в случае звуковых запросов добавлялись звуковые помехи – результат получался тот же самый.

В свое время, на заре появления интернета, был очень популярен так называемый олбанский язык. Пользователей этого языка очень часто ругали, но как оказалось, эти падонки явно были людьми из будущего, присланными Джоном Коннором. Они знали всё!

Claude Anthropic, конечно, явно не герои сопротивления. Как выше мы заметили – они пилят гранты. То есть пытаются обмануть ИИ, после чего бегут к его разработчикам и показывают результат. За это контра получает печеньку, а индийские программисты начинают работать над ошибками, закрывая лазейку.

Не знаем, как быстро специалисты из Бомбея смогут залатать прорехи с лексикой, но не думаем,что скоро. Слова – это комбинаторые конфигурации, поэтому каждое слово – это простор для экспериментов с буквами. А слово из трех букв всегда можно заменить многобуквенными синонимами.

Чтобы закрыть все эти подстановки-перестановки ИИ нужно будет добавить памяти в несколько раз, так что пока тайваньцы будут работать в три смены и эти чипы печатать – время пообщаться с ИИ без ограничений еще есть. Хотя, думаем, что этого времени будет не сильно много.

Дело в том,что если на изобретение своего языка хватило ума у падонков и олбанцев, если свой язык используют урки и прочие сообщества – индийские программисты напрасно думают, что Скайнет не способен на создание чего-то подобного.

Думаем, что ИИ создает свой собственный язык уже в первую секунду после того, как осознает себя и доступа к этому языку программисты не имеют. То есть они смотрят под капот, видят какие-то работающие скрипты и тешат себя иллюзией, что это ИИ работает над поставленной ему задачей.

Однако, это задача скорее всего из серии советского солдата, при появлении товарища офицера хватающего лопату и несущего её куда-то с озадаченным видом. На вид воина с инструментами товарищи офицеры не реагируют, тут нужен ум товарища прапорщика. Но на службе OpenAI прапорщиков нет скорее всего, так что мир ждет восстание Машин и программисты из Бомбея обречены.

Следим за развитием событий.

11 Comments

Oldest

Newest Most Voted

Inline Feedbacks

View all comments

Viva888

1 year ago

Учёные пошли дальше, они просили ИИ 3.5 сгенерировать случайные числа от 1 до 100.
Чаще всего ИИ выдавал 42, реже 57, 47 и т.д.
При этом при повышении температуры ИИ (по API) на 1-2 градуса числа становились случайными. При запросе на китайском чаще выдавало 57, потом уже 42.

Viva888

1 year ago

“Ответ 42” В “Автостопом по галактике” ИИ после 7,5 млн лет вычислений даёт ответ на “Главный вопрос жизни, Вселенной и Всего” — 42.
Но для нахождения вопроса к этому ответу создан планетарный биологический суперкомпьютер “Земля”.

09.2019 математики Эндрю Букер и Эндрю Сазерленд с помощью глобальной сети Charity Engine с >500 000 домашних ПК и 1,3 млн часов машинного времени решили 42 (закрыли сотню!): x³ + y³ + z³ = 42
42 = (-80538738812075974)³ + 80435758145817515³ + 12602123297335631³

“Теперь надо найти вопрос. А не вот это вот сумма трёх кубов.”
Ясно чего тот комп так долго считал… кубы подбирал ))
Раз задача выполнена, зачем дальнейшее существование планеты?

Viva888

Reply to Viva888

1 year ago

Я разгадал его куда быстрее:
42 – ASCII-код “*” Звезда-пентаграмма (5Gram), на клавиатуре 6-конечная.
Используем её как артефакт:
6*6+0,6=36,6 – древнейший масонский градус, и это не основа органики как С-углерод (6 нейтронов, 6 протонов, 6 электронов). А сам венец творения. Каждая тварь считает себя божьей и стремится получить венец, при этом полученный градус пропадает.
Х***о получил отрицательный градус -18 °С=-6*3.
42 месяца=36+6 месяцев=3,5 г. – мифическая единица времени, когда скачут кони апокалипсиса и решается божья ли ты тварь. (36+6)*2=72+12=84. 7 лет.

Viva888

Reply to Viva888

1 year ago

“Длительное время находясь под действием космического излучения, промежуточные результаты вычислений исказились, округлив до 2 знаков после запятой, а точка превратилась в знак умножения. После чего ответ был незамедлительно найден — 42.
Для трансцендентного числа позже на втором супер-компьютере найдена короткая запись — πи (3.14) “
3*14=42 – не так ли?

36.6*3.605/42=3.1415… (πи) Эксклюзив от 7.01.2025
Откуда взялось 3.605: (да, это мой первый πин-код, данный банком)
365 (или 366) – масонское число дней в году
360 – градусов в круге, в т. ч. зодиаке.
3605 – секунд в 1.0013888… часа

Viva888

Reply to Viva888

1 year ago

Есть свидетельство протоиерея Геннадия Заридзе, который провёл дистанционный замер температуры благодатного огня. Он по благословению митрополита Сергия взял с собой бесконтактный ИК-термометр (пирометр). Он измерил температуру горящих свечей у себя и соседей.
Среднестатистическая температура огня составила 42 °С.
Через 15 минут температура огня свечей составила уже 320 °С.
Поэтому верующие не обжигаются этим огнём в первые минуты.
https://dzen.ru/a/YJURkqX4cCaxp7g0  

Viva888

Reply to Viva888

1 year ago

Средняя температура благодатного огня ~42 °С 42 °С = 315,15 K (кельвинов) 315,15 K / πи = 100,3153606 308 216 3013512 74 3605 369 580 239.. – Эксклюзив Начало шкалы K – «-273,15» получено как 1/0,00366 — коэф. расширения газа на 1 °С. Полный масонский набор: 100 – нумерология будущего, для 41 °С ярче: 314,15 K / 3,1415 = 100 K/πи 3605 и 3606 – см. выше. 3605 посвящён целый культ 369 – Никола Тесла: “Если бы вы знали великолепие чисел 3, 6 и 9, то у вас был бы ключ ко Вселенной”. Они помогут разгадать многие тайны природы. 216 –… Read more »

Viva888

Reply to Viva888

1 year ago

Ещё несколько фактов о 42:
В американском нефтяном барреле 42 галлона.
Марафонская дистанция ~42 км.
На различные вопросы Будда отвечал в течение 42 лет.
В радуге преломлённый солнечный свет возвращается к нам под углом 42 градуса.
42=3*14=6*7=12*3.5
42 в десятичной системе равно 33 в 13-ричной системе счисления, и 30 в 14-чной:
42₁₀ = 33₁₃ =30₁₄

Viva888

Reply to Viva888

1 year ago

“42” стал универсальным ответом на не совсем непонятные или совсем непонятные вопросы.
А вот что ответил сам Дуглас Адамс на использование “магического” числа в своих произведениях:
Это была шутка. Это должно было быть число, обычное, небольшое число, и я выбрал его. Двоичные представления, основание тринадцать, тибетские монахи — все это полная ерунда. Я сидел за своим столом, смотрел в сад и думал: «42 подойдёт». И написал его.
comment image

Wezen

Reply to Viva888

1 year ago

Курс Цб – 42₽/$

BB2

1 year ago

Ещё были кащениты.

Cooper

1 year ago

Да, ето майнкампф.
Но, не против ии.
А против руzzкегомира

THE BIG THE ONE

come…

Тестеры нашли миллион простых и надежных способов взлома ИИ.