publications.bib

@misc{niu2023h2o,
  title={H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps},
  author={Haoyi Niu and Tianying Ji and Bingqi Liu and Haocheng Zhao and Xiangyu Zhu and Jianying Zheng and Pengfei Huang and Guyue Zhou and Jianming Hu and Xianyuan Zhan},
  year={2023},
  eprint={2309.12716},
  archivePrefix={arXiv},
  primaryClass={cs.LG},
  url = {https://arxiv.org/abs/2309.12716},
}
@misc{wang2023openchat,
  title={OpenChat: Advancing Open-source Language Models with Mixed-Quality Data},
  author={Guan Wang and Sijie Cheng and Xianyuan Zhan and Xiangang Li and Sen Song and Yang Liu},
  year={2023},
  eprint={2309.11235},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2309.11235},
}
@inproceedings{wang2023offline,
  title={Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local Value Regularization},
  author={Wang, Xiangsen and Xu, Haoran and Zheng, Yinan and Zhan, Xianyuan},
  booktitle={Advances in Neural Information Processing Systems},
  year={2023},
  url = {https://arxiv.org/abs/2307.11620},
}
@inproceedings{cheng2023look,
  title={Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL},
  author={Peng Cheng and Xianyuan Zhan and Zhihao Wu and Wenjia Zhang and Shoucheng Song and Han Wang and Youfang Lin and Li Jiang},
  booktitle={Advances in Neural Information Processing Systems},
  year={2023},
  url={https://arxiv.org/abs/2306.04220},
}
%@misc{ji2023seizing,
%  title={Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic},
%  author={Tianying Ji and Yu Luo and Fuchun Sun and Xianyuan Zhan and Jianwei Zhang and Huazhe Xu},
%  year={2023},
%  eprint={2306.02865},
%  archivePrefix={arXiv},
%  primaryClass={cs.LG},
%  url = {https://arxiv.org/abs/2306.02865},
%}
@misc{hu2023querypolicy,
  title={Query-Policy Misalignment in Preference-Based Reinforcement Learning},
  author={Xiao Hu and Jianxiong Li and Xianyuan Zhan and Qing-Shan Jia and Ya-Qin Zhang},
  year={2023},
  eprint={2305.17400},
  archivePrefix={arXiv},
  primaryClass={cs.LG},
  url = {https://arxiv.org/abs/2305.17400},
}
@misc{li2023proto,
  title={PROTO: Iterative Policy Regularized Offline-to-Online Reinforcement Learning},
  author={Jianxiong Li and Xiao Hu and Haoran Xu and Jingjing Liu and Xianyuan Zhan and Ya-Qin Zhang},
  year={2023},
  eprint={2305.15669},
  archivePrefix={arXiv},
  primaryClass={cs.LG},
  url = {https://arxiv.org/abs/2305.15669},
}
@inproceedings{
li2023mind,
title={Mind the Gap: Offline Policy Optimizaiton for Imperfect Rewards},
author={Jianxiong Li and Xiao Hu and Haoran Xu and Jingjing Liu and Xianyuan Zhan and Qing-Shan Jia and Ya-Qin Zhang},
booktitle={International Conference on Learning Representations},
year={2023},
url={https://openreview.net/forum?id=WumysvcMvV6}
}
@inproceedings{
xu2023sparse,
title={Sparse Q-Learning: Offline Reinforcement Learning with Implicit Value Regularization},
author={Haoran Xu and Li Jiang and Jianxiong Li and Zhuoran Yang and Zhaoran Wang and Victor Wai Kin Chan and Xianyuan Zhan},
booktitle={International Conference on Learning Representations},
year={2023},
url={https://openreview.net/forum?id=ueYYgo2pSSU}
}
@inproceedings{
li2023when,
title={When Data Geometry Meets Deep Function: Generalizing Offline Reinforcement Learning},
author={Jianxiong Li and Xianyuan Zhan and Haoran Xu and Xiangyu Zhu and Jingjing Liu and Ya-Qin Zhang},
booktitle={International Conference on Learning Representations},
year={2023},
url={https://openreview.net/forum?id=lMO7TC7cuuh}
}
@inproceedings{
xu2022a,
title={A Policy-Guided Imitation Approach for Offline Reinforcement Learning},
author={Haoran Xu and Li Jiang and Jianxiong Li and Xianyuan Zhan},
booktitle={Advances in Neural Information Processing Systems},
editor={Alice H. Oh and Alekh Agarwal and Danielle Belgrave and Kyunghyun Cho},
year={2022},
url={https://openreview.net/forum?id=CKbqDtZnSc}
}
@inproceedings{
niu2022when,
title={When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning},
author={Haoyi Niu and Shubham Sharma and Yiwen Qiu and Ming Li and Guyue Zhou and Jianming HU and Xianyuan Zhan},
booktitle={Advances in Neural Information Processing Systems},
editor={Alice H. Oh and Alekh Agarwal and Danielle Belgrave and Kyunghyun Cho},
year={2022},
url={https://openreview.net/forum?id=zXE8iFOZKw}
}
@inproceedings{
zhang2022discriminatorguided,
title={Discriminator-Guided Model-Based Offline Imitation Learning},
author={Wenjia Zhang and Haoran Xu and Haoyi Niu and Peng Cheng and Ming Li and Heming Zhang and Guyue Zhou and Xianyuan Zhan},
booktitle={6th Annual Conference on Robot Learning},
year={2022},
url={https://openreview.net/forum?id=RzhhFh4rkWu}
}
@inproceedings{xu2022discriminator,
  title={Discriminator-Weighted Offline Imitation Learning from Suboptimal Demonstrations},
  author={Xu, Haoran and Zhan, Xianyuan and Yin, Honglei and Qin, Huiling},
  booktitle={International Conference on Machine Learning},
  pages={24725--24742},
  year={2022},
  url = {https://proceedings.mlr.press/v162/xu22l/xu22l.pdf},
  organization={PMLR}
}
@inproceedings{zhan2021model,
  title={Model-Based Offline Planning with Trajectory Pruning},
  author={Zhan, Xianyuan and Zhu, Xiangyu and Xu, Haoran},
  booktitle={International Joint Conference on Artificial Intelligence},
  pages = {3695-3701},
  year={2022},
  url = {https://www.ijcai.org/proceedings/2022/0516.pdf},
}
@inproceedings{zhan2022deepthermal,
  title={DeepThermal: Combustion Optimization for Thermal Power Generating Units Using Offline Reinforcement Learning},
  author={Zhan, Xianyuan and Xu, Haoran and Zhang, Yue and Zhu, Xiangyu and Yin, Honglei and Zheng, Yu},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={36},
  number={4},
  pages={4680--4688},
  year={2022},
  url = {https://arxiv.org/abs/2102.11492},
}
@inproceedings{xu2022constraints,
  title={Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning},
  author={Xu, Haoran and Zhan, Xianyuan and Zhu, Xiangyu},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={36},
  number={8},
  pages={8753--8760},
  year={2022},
  url = {https://arxiv.org/abs/2107.09003},
}
@inproceedings{
    niu2024comprehensive,
    title={A Comprehensive Survey of Cross-Domain Policy Transfer for Embodied Agents},
    author={Niu, Haoyi and Hu, Jianming and Zhou, Guyue and Zhan, Xianyuan},
    booktitle={International Joint Conference on Artificial Intelligence},
    year={2024},
    url = {https://arxiv.org/abs/2402.04580},
}
@inproceedings{
luo2024offlineboosted,
title={Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy {RL}},
author={Yu Luo and Tianying Ji and Fuchun Sun and Jianwei Zhang and Huazhe Xu and Xianyuan Zhan},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=7joG3i2pUR}
}
@inproceedings{
luo2024ompo,
title={{OMPO}: A Unified Framework for {RL} under Policy and Dynamics Shifts},
author={Yu Luo and Tianying Ji and Fuchun Sun and Jianwei Zhang and Huazhe Xu and Xianyuan Zhan},
booktitle={Forty-first International Conference on Machine Learning},
year={2024},
url={https://openreview.net/forum?id=R83VIZtHXA}
}
@inproceedings{li2024decisionnce,
  title={DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning},
  author={Li, Jianxiong and Zheng, Jinliang and Zheng, Yinan and Mao, Liyuan and Hu, Xiao and Cheng, Sijie and Niu, Haoyi and Liu, Jihao and Liu, Yu and Liu, Jingjing and others},
  booktitle={Forty-first International Conference on Machine Learning},
  year={2024},
  url = {https://arxiv.org/pdf/2402.18137},
}
@inproceedings{luo2024Bidirectional,
  title={Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies},
  author={Yu Luo and Fuchun Sun and Tianying Ji and Xianyuan Zhan},
  booktitle={1st Reinforcement Learning Conference},
  year={2024},
  url={https://openreview.net/forum?id=nvVh7vv4yK},
}
@inproceedings{geng2024tesla,
  author = {Hanfei Geng and Yi Sun and Yuanzhe Li and Jichao Leng and Xiangyu Zhu and Xianyuan Zhan and Yuanchun Li and Feng Zhao and Yunxin Liu},
  title = {TESLA: Thermally Safe, Load-Aware, and Energy-Efficient Cooling Control System for Data Centers},
  booktitle = {53rd International Conference on Parallel Processing},
  year = {2024},
}
@misc{zheng2024instructionguided,
title={Instruction-Guided Visual Masking},
author={Jinliang Zheng and Jianxiong Li and Sijie Cheng and Yinan Zheng and Jiaming Li and Jihao Liu and Yu Liu and Jingjing Liu and Xianyuan Zhan},
year={2024},
eprint={2405.19783},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2405.19783},
}
@inproceedings{
wang-niu2024rsp,
title={Are Expressive Models Truly Necessary for Offline {RL}?},
author={Guan Wang and Haoyi Niu and Jianxiong Li and Li Jiang and Jianming HU and Xianyuan Zhan},
booktitle={The 39th Annual AAAI Conference on Artificial Intelligence (AAAI)},
year={2025}
}