【bug fix】Text classification application&example (PaddlePaddle#5070)

lugimzzz · web-flow · commit ddccc683bb29 · 2023-03-02T18:38:46.000+08:00
* fix version problem
diff --git a/applications/text_classification/multi_class/README.md b/applications/text_classification/multi_class/README.md
@@ -339,7 +339,7 @@ checkpoint/prune/
 <a name="模型预测"></a>
 
 ### 2.5 模型预测
-我们推荐使用taskflow进行模型预测。
+我们推荐使用taskflow进行模型预测，请保证paddlenlp版本大于2.5.1。
 ```
 from paddlenlp import Taskflow
 
diff --git a/applications/text_classification/multi_class/train.py b/applications/text_classification/multi_class/train.py
@@ -102,19 +102,21 @@ def main():
         training_args.print_config(data_args, "Data")
     paddle.set_device(training_args.device)
 
+    # Define id2label
+    id2label = {}
+    label2id = {}
+    with open(data_args.label_path, "r", encoding="utf-8") as f:
+        for i, line in enumerate(f):
+            l = line.strip()
+            id2label[i] = l
+            label2id[l] = i
+
     # Define model & tokenizer
     if os.path.isdir(model_args.model_name_or_path):
-        model = AutoModelForSequenceClassification.from_pretrained(model_args.model_name_or_path)
-        id2label = model.id2label
-        label2id = model.label2id
+        model = AutoModelForSequenceClassification.from_pretrained(
+            model_args.model_name_or_path, label2id=label2id, id2label=id2label
+        )
     elif model_args.model_name_or_path in SUPPORTED_MODELS:
-        id2label = {}
-        label2id = {}
-        with open(data_args.label_path, "r", encoding="utf-8") as f:
-            for i, line in enumerate(f):
-                l = line.strip()
-                id2label[i] = l
-                label2id[l] = i
         model = AutoModelForSequenceClassification.from_pretrained(
             model_args.model_name_or_path, num_classes=len(label2id), label2id=label2id, id2label=id2label
         )
@@ -186,7 +188,7 @@ def compute_metrics_debug(eval_preds):
     if training_args.do_eval:
         if data_args.debug:
             output = trainer.predict(test_ds)
-            log_metrics_debug(output, id2label, dev_ds, data_args.bad_case_path)
+            log_metrics_debug(output, id2label, test_ds, data_args.bad_case_path)
         else:
             eval_metrics = trainer.evaluate()
             trainer.log_metrics("eval", eval_metrics)
diff --git a/examples/text_classification/README.md b/examples/text_classification/README.md
@@ -12,4 +12,4 @@
 
 ## ERNIE-Doc Text Classification
 
-[ERNIE-Doc Text Classification](./ernie-doc) 展示了如何使用预训练模型ERNIE-Doc完成**超长文本**分类任务。
+[ERNIE-Doc Text Classification](./ernie_doc) 展示了如何使用预训练模型ERNIE-Doc完成**超长文本**分类任务。

Original file line number	Diff line number	Diff line change
`@@ -12,4 +12,4 @@`
`12`	`12`
`13`	`13`	`## ERNIE-Doc Text Classification`
`14`	`14`
`15`		`-[ERNIE-Doc Text Classification](./ernie-doc) 展示了如何使用预训练模型ERNIE-Doc完成超长文本分类任务。`
	`15`	`+[ERNIE-Doc Text Classification](./ernie_doc) 展示了如何使用预训练模型ERNIE-Doc完成超长文本分类任务。`