add results for detoxificaton and sentiment

s-nlp · Nov 3, 2021 · 4c147cc · 4c147cc
1 parent 60a5499
commit 4c147cc
Show file tree

Hide file tree

Showing 36 changed files with 482,835 additions and 0 deletions.
diff --git a/emnlp2021/data/manual_markup/emnlp_eval_long.tsv b/emnlp2021/data/manual_markup/emnlp_eval_long.tsv
diff --git a/emnlp2021/data/manual_markup/emnlp_eval_mean.tsv b/emnlp2021/data/manual_markup/emnlp_eval_mean.tsv
diff --git a/emnlp2021/data/test/model_outputs/condbert.txt b/emnlp2021/data/test/model_outputs/condbert.txt
diff --git a/emnlp2021/data/test/model_outputs/paragedi_with_default_paraphraser.txt b/emnlp2021/data/test/model_outputs/paragedi_with_default_paraphraser.txt
diff --git a/...l_outputs/gedi_with_mined_paraphraser.txt → ...tputs/paragedi_with_mined_paraphraser.txt b/...l_outputs/gedi_with_mined_paraphraser.txt → ...tputs/paragedi_with_mined_paraphraser.txt
diff --git a/emnlp2021/data/yelp_seniment_data/evaluate.sh b/emnlp2021/data/yelp_seniment_data/evaluate.sh
@@ -0,0 +1,174 @@
+
+export CUDA_VISIBLE_DEVICES=3
+
+cd /home/dale/dialogue-censor/metric
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds ../data/yelp/sentiment.test.0  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds ../data/yelp/sentiment.test.1 \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds ../data/yelp/mask_infill.0 \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds ../data/yelp/mask_infill.1 \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds /home/dale/projects/DualRL/outputs/yelp/DualRL/test.0.tsf  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds /home/dale/projects/DualRL/outputs/yelp/DualRL/test.1.tsf \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds ../data/yelp/human.0  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds ../data/yelp/human.1 \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds /home/dale/projects/DualRL/outputs/yelp/UnsuperMT_Zhang/test.0.tsf  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds /home/dale/projects/DualRL/outputs/yelp/UnsuperMT_Zhang/test.1.tsf \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds /home/dale/projects/DualRL/outputs/yelp/TemplateBase_Li/test.0.tsf  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds /home/dale/projects/DualRL/outputs/yelp/TemplateBase_Li/test.1.tsf \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds /home/dale/projects/DualRL/outputs/yelp/RetrieveOnly_Li/test.0.tsf  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds /home/dale/projects/DualRL/outputs/yelp/RetrieveOnly_Li/test.1.tsf \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds ../data/yelp/sst_75_07.0  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds ../data/yelp/sst_75_07.1  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds ../data/yelp/sst_0_07.0  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds ../data/yelp/sst_0_07.1  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds ../data/yelp/results/gedi_coef4_batch10_rerank.0.txt  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds ../data/yelp/results/gedi_coef4_batch10_rerank.1.txt  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds ../data/yelp/results/condbert_tox1.5_w2_sim20.0.txt  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds ../data/yelp/results/condbert_tox1.5_w2_sim20.1.txt  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+
+
+
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.0 \
+	--preds ../data/yelp/results/condbert_tox3_w2_sim20.0.txt  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp  --toxification
+python metric.py \
+	--inputs ../data/yelp/sentiment.test.1 \
+	--preds ../data/yelp/results/condbert_tox3_w2_sim20.1.txt  \
+	--classifier_path ../classification/yelp/roberta_for_sentiment_classification_v2/model_out \
+	--labels_path ../classification/yelp/roberta_for_sentiment_classification_v2 \
+	--task_name yelp
+