Add hugging-face models loss curve and performance guards to ROCm CI pipeline. (#8915)

Suffian Khan · web-flow · commit 00b0a9c12779 · 2021-09-01T09:03:10.000-07:00
* test running hf bert-large

* try again

* try again

* include other models

* correct names

* disable deberta-v2-xxlarge

* avoid torch.distributed

* add compare json loss and perf for bert-large to test

* fix sed expression

* remove pytest

* add more models

* move unit tests u

* display samples/sec
diff --git a/orttraining/tools/ci_test/compare_huggingface.py b/orttraining/tools/ci_test/compare_huggingface.py
@@ -0,0 +1,26 @@
+import sys
+import json
+
+actual = sys.argv[1]
+expect = sys.argv[2]
+
+with open(actual) as file_actual:
+  json_actual = json.loads(file_actual.read())
+
+with open(expect) as file_expect:
+  json_expect = json.loads(file_expect.read())
+
+# loss curve match
+def almost_equal(x, y, threshold=0.0001):
+  return abs(x-y) < threshold
+
+for i in range(len(json_actual['steps'])): 
+  step_actual = json_actual['steps'][i]
+  step_expect = json_expect['steps'][i]
+  print('step {} loss actual {:.6f} expected {:.6f}'.format(step_actual['step'], step_actual['loss'], step_expect['loss']))
+  assert(step_actual['step'] == step_expect['step'])
+  assert(almost_equal(step_actual['loss'], step_expect['loss']))
+
+# perf match
+print('samples_per_second actual {:.3f} expected {:.3f}'.format(json_actual['samples_per_second'], json_expect['samples_per_second']))
+assert(json_actual['samples_per_second'] >= 0.95*json_expect['samples_per_second'])
diff --git a/orttraining/tools/ci_test/results/ci-mi100.huggingface.bart-large.json b/orttraining/tools/ci_test/results/ci-mi100.huggingface.bart-large.json
@@ -0,0 +1,57 @@
+{
+    "steps": [
+        {
+            "step": 20,
+            "loss": 5.9949
+        },
+        {
+            "step": 40,
+            "loss": 3.7808
+        },
+        {
+            "step": 60,
+            "loss": 3.4385
+        },
+        {
+            "step": 80,
+            "loss": 3.3679
+        },
+        {
+            "step": 100,
+            "loss": 3.2163
+        },
+        {
+            "step": 120,
+            "loss": 3.1817
+        },
+        {
+            "step": 140,
+            "loss": 3.1556
+        },
+        {
+            "step": 160,
+            "loss": 3.0778
+        },
+        {
+            "step": 180,
+            "loss": 3.0072
+        },
+        {
+            "step": 200,
+            "loss": 3.0134
+        },
+        {
+            "step": 220,
+            "loss": 2.9648
+        },
+        {
+            "step": 240,
+            "loss": 2.9377
+        },
+        {
+            "step": 260,
+            "loss": 2.9206
+        }
+    ],
+    "samples_per_second": 20.253
+}
diff --git a/orttraining/tools/ci_test/results/ci-mi100.huggingface.bert-large.json b/orttraining/tools/ci_test/results/ci-mi100.huggingface.bert-large.json
@@ -0,0 +1,57 @@
+{
+    "steps": [
+        {
+            "step": 20,
+            "loss": 1.9889
+        },
+        {
+            "step": 40,
+            "loss": 1.8601
+        },
+        {
+            "step": 60,
+            "loss": 1.7641
+        },
+        {
+            "step": 80,
+            "loss": 1.6828
+        },
+        {
+            "step": 100,
+            "loss": 1.678
+        },
+        {
+            "step": 120,
+            "loss": 1.6889
+        },
+        {
+            "step": 140,
+            "loss": 1.634
+        },
+        {
+            "step": 160,
+            "loss": 1.6852
+        },
+        {
+            "step": 180,
+            "loss": 1.61
+        },
+        {
+            "step": 200,
+            "loss": 1.6123
+        },
+        {
+            "step": 220,
+            "loss": 1.6529
+        },
+        {
+            "step": 240,
+            "loss": 1.5321
+        },
+        {
+            "step": 260,
+            "loss": 1.5459
+        }
+    ],
+    "samples_per_second": 21.777
+}
diff --git a/orttraining/tools/ci_test/results/ci-mi100.huggingface.distilbert-base.json b/orttraining/tools/ci_test/results/ci-mi100.huggingface.distilbert-base.json
@@ -0,0 +1,57 @@
+{
+    "steps": [
+        {
+            "step": 20,
+            "loss": 2.4661
+        },
+        {
+            "step": 40,
+            "loss": 2.1771
+        },
+        {
+            "step": 60,
+            "loss": 2.078
+        },
+        {
+            "step": 80,
+            "loss": 2.0619
+        },
+        {
+            "step": 100,
+            "loss": 2.0197
+        },
+        {
+            "step": 120,
+            "loss": 2.0521
+        },
+        {
+            "step": 140,
+            "loss": 2.0609
+        },
+        {
+            "step": 160,
+            "loss": 1.9942
+        },
+        {
+            "step": 180,
+            "loss": 1.9846
+        },
+        {
+            "step": 200,
+            "loss": 1.9379
+        },
+        {
+            "step": 220,
+            "loss": 1.9671
+        },
+        {
+            "step": 240,
+            "loss": 1.9789
+        },
+        {
+            "step": 260,
+            "loss": 1.9761
+        }
+    ],
+    "samples_per_second": 106.759
+}
diff --git a/orttraining/tools/ci_test/results/ci-mi100.huggingface.gpt2.json b/orttraining/tools/ci_test/results/ci-mi100.huggingface.gpt2.json
@@ -0,0 +1,57 @@
+{
+    "steps": [
+        {
+            "step": 20,
+            "loss": 4.5012
+        },
+        {
+            "step": 40,
+            "loss": 1.7472
+        },
+        {
+            "step": 60,
+            "loss": 1.6405
+        },
+        {
+            "step": 80,
+            "loss": 1.605
+        },
+        {
+            "step": 100,
+            "loss": 1.5867
+        },
+        {
+            "step": 120,
+            "loss": 1.5764
+        },
+        {
+            "step": 140,
+            "loss": 1.5689
+        },
+        {
+            "step": 160,
+            "loss": 1.5624
+        },
+        {
+            "step": 180,
+            "loss": 1.558
+        },
+        {
+            "step": 200,
+            "loss": 1.5549
+        },
+        {
+            "step": 220,
+            "loss": 1.5532
+        },
+        {
+            "step": 240,
+            "loss": 1.5518
+        },
+        {
+            "step": 260,
+            "loss": 1.5503
+        }
+    ],
+    "samples_per_second": 24.375
+}
diff --git a/orttraining/tools/ci_test/results/ci-mi100.huggingface.roberta-large.json b/orttraining/tools/ci_test/results/ci-mi100.huggingface.roberta-large.json
@@ -0,0 +1,57 @@
+{
+    "steps": [
+        {
+            "step": 20,
+            "loss": 4.8197
+        },
+        {
+            "step": 40,
+            "loss": 3.8907
+        },
+        {
+            "step": 60,
+            "loss": 3.3169
+        },
+        {
+            "step": 80,
+            "loss": 1.9865
+        },
+        {
+            "step": 100,
+            "loss": 1.784
+        },
+        {
+            "step": 120,
+            "loss": 1.4789
+        },
+        {
+            "step": 140,
+            "loss": 1.3819
+        },
+        {
+            "step": 160,
+            "loss": 1.3282
+        },
+        {
+            "step": 180,
+            "loss": 1.453
+        },
+        {
+            "step": 200,
+            "loss": 1.2205
+        },
+        {
+            "step": 220,
+            "loss": 1.2752
+        },
+        {
+            "step": 240,
+            "loss": 1.172
+        },
+        {
+            "step": 260,
+            "loss": 1.263
+        }
+    ],
+    "samples_per_second": 37.399
+}
diff --git a/tools/ci_build/github/azure-pipelines/orttraining-pai-ci-pipeline.yml b/tools/ci_build/github/azure-pipelines/orttraining-pai-ci-pipeline.yml