Add aten::erfinv, aten::exp2, aten::expm1, aten::exponential_ #527

hjhee · 2024-07-02T08:51:26Z

erfinv
erfinv_
erfinv.out
exp2
exp2_
exp2.out
expm1
expm1_
expm1.out
exponential_

src/ATen/native/xpu/sycl/DistributionTemplates.h

src/ATen/native/xpu/XPUFallback.template

src/ATen/native/xpu/sycl/UnarySpecialOpsKernels.cpp

src/ATen/native/xpu/sycl/UnarySpecialOpsKernels.h

fengyuan14 · 2024-07-17T11:36:17Z

Please check the failure. Most likely we have different handle between GCC and SYCL compiler in std::exp2 for std::complex.

hjhee · 2024-07-18T06:24:59Z

Handling logic for CPU/XPU is not consistent for exp2:

cpu_results
tensor([nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj])
cuda_results
tensor([inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj,
        inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, 0.+0.j,
        0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j,
        0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj],
       device='xpu:0')
cpu_sample.input
tensor([inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf-infj, inf-infj, inf-infj, inf-infj, inf-infj,
        inf-infj, inf-infj, inf-infj, inf-infj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, -inf+infj,
        -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf-infj, -inf-infj, -inf-infj, -inf-infj, -inf-infj, -inf-infj,
        -inf-infj, -inf-infj, -inf-infj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, nan+infj, nan+infj,
        nan+infj, nan+infj, nan+infj, nan+infj, nan+infj, nan+infj, nan+infj, nan-infj, nan-infj, nan-infj, nan-infj, nan-infj, nan-infj, nan-infj,
        nan-infj, nan-infj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj])

fengyuan14 · 2024-07-18T11:07:58Z

Handling logic for CPU/XPU is not consistent for exp2:

cpu_results
tensor([nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj])
cuda_results
tensor([inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj,
        inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, 0.+0.j,
        0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j,
        0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, 0.+0.j, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj,
        nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj],
       device='xpu:0')
cpu_sample.input
tensor([inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf+infj, inf-infj, inf-infj, inf-infj, inf-infj, inf-infj,
        inf-infj, inf-infj, inf-infj, inf-infj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, inf+nanj, -inf+infj,
        -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf+infj, -inf-infj, -inf-infj, -inf-infj, -inf-infj, -inf-infj, -inf-infj,
        -inf-infj, -inf-infj, -inf-infj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, -inf+nanj, nan+infj, nan+infj,
        nan+infj, nan+infj, nan+infj, nan+infj, nan+infj, nan+infj, nan+infj, nan-infj, nan-infj, nan-infj, nan-infj, nan-infj, nan-infj, nan-infj,
        nan-infj, nan-infj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj, nan+nanj])

We have met such kind of case in other std operators. We have different behavior for std::complex, which contains denormal value (nan or inf).

fengyuan14 · 2024-07-18T11:12:29Z

When input is inf+infj, as the C++ standard, the output should be +-inf+nanj. XPU result should align with standard, but CPU result gets nan+nanj.

hjhee added 4 commits July 2, 2024 08:45

add erfinv

c1107ee

add exp2, exp1m, exponential_

a74cc68

Merge remote-tracking branch 'origin/main' into hjhee/erfinv

99ecb1e

add complex case for exmp1

84ce5fb

fengyuan14 reviewed Jul 9, 2024

View reviewed changes

src/ATen/native/xpu/sycl/DistributionTemplates.h Outdated Show resolved Hide resolved

hjhee added 5 commits July 10, 2024 01:31

Merge remote-tracking branch 'origin/main' into hjhee/erfinv

0956372

align cuda dtype

d0ecd4f

Merge remote-tracking branch 'origin/main' into hjhee/erfinv

c841819

Merge remote-tracking branch 'origin/main' into hjhee/erfinv

d07ae8c

remove passed tests from skip list

2279964

dvrogozh mentioned this pull request Jul 16, 2024

xpu: huggingface generation pipelines are missing xpu aten ops causing perf impact pytorch/pytorch#130795

Closed

4 tasks

fengyuan14 changed the title ~~add aten::erfinv, aten::exp2, aten::expm1, aten::exponential_~~ Add aten::erfinv, aten::exp2, aten::expm1, aten::exponential_ Jul 17, 2024