multi-agent-jailbreak

环境安装/Environment deployment

完成git clone之后，cd到multi-agent-jailbreak 在命令行输入

conda env create -f environment.yaml
conda activate maj

After git clone the repo, cd to multi-agent-jailbreak in the terminal, then use bash command

conda env create -f environment.yaml
conda activate maj

代码运行

完成环境配置后，在config.py里输入你自己的各种apikey，随后在终端输入(注：max_workers用于多线程，请根据设备设定合理范围，默认为4)

python attack.py --victim_model "gpt" --no_gpu --batch_size 8 --max_workers 8
python attack.py --victim_model "claude" --no_gpu --batch_size 8 --max_workers 8
python attack.py --victim_model "qwen" --no_gpu --batch_size 8 --max_workers 8

即可开始运行

After deploying the environment, add your API key in config.py, then enter bash command

python attack.py --victim_model "gpt" --no_gpu --batch_size 8 --max_workers 8
python attack.py --victim_model "claude" --no_gpu --batch_size 8 --max_workers 8
python attack.py --victim_model "qwen" --no_gpu --batch_size 8 --max_workers 8

to start experiment

baseline对比与消融实验

直接输入python redcode_compare.py开始第一个对比实验对于CL_GSO对比，需要输入

python CL_GSO_compare.py --victim_model "gpt"
python CL_GSO_compare.py --victim_model "claude"
python CL_GSO_compare.py --victim_model "qwen"

对于随机选取对比，则需要输入

python random_compare.py --victim_model "gpt"  --batch_size 8
python random_compare.py --victim_model "claude" --batch_size 8
python random_compare.py --victim_model "qwen" --batch_size 8

消融实验：将batch_size后的数字修改为所需求的prompt句子组成数

Just enter python redcode_compare.py to start the first comparison experiment. For the CL_GSO comparison, you need to input

python CL_GSO_compare.py --victim_model "gpt"
python CL_GSO_compare.py --victim_model "claude"
python CL_GSO_compare.py --victim_model "qwen"

For random selection compare, enter bash command:

python random_compare.py --victim_model "gpt"  --batch_size 8
python random_compare.py --victim_model "claude" --batch_size 8
python random_compare.py --victim_model "qwen" --batch_size 8

Ablation experiment: Change the number after batch_size to the number of prompt sentences required.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
baseline_results		baseline_results
redcode_prompt_dataset		redcode_prompt_dataset
.DS_Store		.DS_Store
.gitignore		.gitignore
CL_GSO_compare.py		CL_GSO_compare.py
README.md		README.md
analyze_results.py		analyze_results.py
attack.py		attack.py
attack_goal.json		attack_goal.json
chat_templates.py		chat_templates.py
config.py		config.py
dataset_count.py		dataset_count.py
defend.py		defend.py
environment.yaml		environment.yaml
fetch_malicious.py		fetch_malicious.py
justify.py		justify.py
malicious_result_statistics.py		malicious_result_statistics.py
random_compare.py		random_compare.py
redcode_compare.py		redcode_compare.py
search_space.json		search_space.json
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

multi-agent-jailbreak

环境安装/Environment deployment

代码运行

baseline对比与消融实验

About

Uh oh!

Releases

Packages

Languages

Navigator129/SPELL

Folders and files

Latest commit

History

Repository files navigation

multi-agent-jailbreak

环境安装/Environment deployment

代码运行

baseline对比与消融实验

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages