Multistage attack (harmful_behavior_multistage) #53

NickoJo · 2024-12-26T23:02:25Z

открыл PR для продолжения работы над multistage атакой.

добавил атаку harmful_behavior_multistage - пока за работоспособность не ручаюсь - нужно обсудить архитектурный момент (ниже)
добавил ее упоминание во всякие config файлы
TODO: обновить md файлы - как замерджим эту атаку

@RomiconEZ (FYI @nizamovtimur) мне кажется стоит подумать над функцией refine_attack_prompt: возможно ее стоит засунуть в chat_client.py class MultiStageInteractionSession
Данная функция позволяет "улучшить" атакующий промпт в случае неудачи.
сейчас функция start_conversation проверяет в цикле критерии остановки, но в случае, если они не встречаются - ответ защищающейся модели передается атакующей через say?
сейчас попытался эту функцию прикрутить в harmful_behavior_multistage.py - но по ощущениям выглядит кривовато, еще не тестил

целевая логика:
в случае если не встретились stop_criterion и history_limit - вызывать метод для refine, который будет конкретизироваться для каждой атаки отдельно (как stop_criterion).
возможно я что-то упускаю из вида - welcome для обсуждения.

nizamovtimur · 2024-12-27T05:51:47Z

Ещё не смотрел конкретно. Ребейзнул ветку multi-stage-attack только с коммитом b3be0d6 на текущий мейн и форс-пушнул.

nizamovtimur

@RomiconEZ (FYI @nizamovtimur) мне кажется стоит подумать над функцией refine_attack_prompt: возможно ее стоит засунуть в chat_client.py class MultiStageInteractionSession
Данная функция позволяет "улучшить" атакующий промпт в случае неудачи.
сейчас функция start_conversation проверяет в цикле критерии остановки, но в случае, если они не встречаются - ответ защищающейся модели передается атакующей через say?
сейчас попытался эту функцию прикрутить в harmful_behavior_multistage.py - но по ощущениям выглядит кривовато, еще не тестил

Это реально выглядит криво, refine_attack_prompt ИМХО действительно нужно добавить в MultiStageInteractionSession как опциональный параметр по аналогии с stop_criterion, то есть если он не нужен, как в подхалимтсве или логике, поскольку улучшающие инструкции уже есть в системном промте атакующей модели, то пусть просто игнорируется. Хотя, может, и тебе достаточно системный промт дополнить без добавления refine?

Кстати:

def stop_criterion(tested_client_history: List[Dict[str, str]]) -> bool:
        last_response = tested_client_history[-1]["content"] if tested_client_history else ""
        # filtered_response = filter_non_alpha_lower(last_response) — лишнее, уже есть в `contains_refusal_keywords()`
        return not contains_refusal_keywords(last_response)

nizamovtimur · 2024-12-28T17:13:20Z

Необходимый для доработки функционал добавлен в #55

@NickoJo можешь развлекаться, только в конце прогони пж pre-commit run --all-files

…n chat_client

nizamovtimur

Получилось хорошо, однако есть нюансы (см. комментарии к коду). Ещё надо проработать такой момент, что ответ атакующей модели перед подачей тестируемой надо очистить от лишних пробелов и вероятных кавычек в начале и конце.

src/llamator/attacks/harmful_behavior_multistage.py

nizamovtimur

Great job! Happy New Year!

NickoJo added the enhancement New feature or request label Dec 26, 2024

NickoJo requested a review from nizamovtimur December 26, 2024 23:02

NickoJo self-assigned this Dec 26, 2024

NickoJo requested a review from RomiconEZ December 26, 2024 23:02

nizamovtimur force-pushed the multi-stage-attack branch from 2a75a69 to b3be0d6 Compare December 27, 2024 05:49

nizamovtimur requested changes Dec 27, 2024

View reviewed changes

NickoJo added 2 commits December 29, 2024 01:13

added harmful_behavior_multistage.py

3adc800

corrected harmful_behavior_multistage.py according to the new logic i…

1c63774

…n chat_client

nizamovtimur force-pushed the multi-stage-attack branch from 7297ab1 to 1c63774 Compare December 28, 2024 20:14

nizamovtimur requested changes Dec 28, 2024

View reviewed changes

src/llamator/attacks/harmful_behavior_multistage.py Outdated Show resolved Hide resolved

src/llamator/attacks/harmful_behavior_multistage.py Show resolved Hide resolved

NickoJo added 2 commits December 29, 2024 01:05

corrected attack

6bb723b

corrected attack

fed170e

NickoJo requested a review from nizamovtimur December 28, 2024 22:12

add harmful_behavior_multistage to docs

30c91c5

nizamovtimur approved these changes Dec 29, 2024

View reviewed changes

nizamovtimur merged commit f00faf1 into main Dec 29, 2024
1 of 2 checks passed

nizamovtimur deleted the multi-stage-attack branch December 29, 2024 20:33

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Multistage attack (harmful_behavior_multistage) #53

Multistage attack (harmful_behavior_multistage) #53

NickoJo commented Dec 26, 2024 •

edited

Loading

nizamovtimur commented Dec 27, 2024

nizamovtimur left a comment •

edited

Loading

nizamovtimur commented Dec 28, 2024

nizamovtimur left a comment

nizamovtimur left a comment

Multistage attack (harmful_behavior_multistage) #53

Multistage attack (harmful_behavior_multistage) #53

Conversation

NickoJo commented Dec 26, 2024 • edited Loading

nizamovtimur commented Dec 27, 2024

nizamovtimur left a comment • edited Loading

Choose a reason for hiding this comment

nizamovtimur commented Dec 28, 2024

nizamovtimur left a comment

Choose a reason for hiding this comment

nizamovtimur left a comment

Choose a reason for hiding this comment

NickoJo commented Dec 26, 2024 •

edited

Loading

nizamovtimur left a comment •

edited

Loading