Publications

[NeurIPS’2025] Yggdrasil: Bridging Dynamic Speculation and Static Runtime for Latency-Optimal Tree-Based LLM Decoding.
Yue Guan, Changming Yu, Shihan Fang, Weiming Hu, Zaifeng Pan, Zheng Wang, Zihan Liu, Yangjie Zhou, Yufei Ding, Minyi Guo, Jingwen Leng.
(to appear)

[ATC’2025] GMI-DRL: Empowering Multi-GPU Deep Reinforcement Learning with GPU Spatial Multiplexing.
Yuke Wang, Boyuan Feng, Zheng Wang, Guyue Huang, Tong Geng, Ang Li, Yufei Ding.
[Link]

[OSDI’2025] WLB-LLM: Workload-Balanced 4D Parallelism for Large Language Model Training.
Zheng Wang, Anna Cai, Xinfeng Xie, Zaifeng Pan, Yue Guan, Weiwei Chu, Jie Wang, Shikai Li, Jianyu Huang, Chris Cai, Yuchen Hao, Yufei Ding.
[Link]

[MLSys’2025] FastTree: Optimizing Attention Kernel and Runtime for Tree-Structured LLM Inference.
Zaifeng Pan, Yitong Ding, Yue Guan, Zheng Wang, Zhongkai Yu, Xulong Tang, Yida Wang, and Yufei Ding
[Link]

[ATC’2024] OPER: Optimality-Guided Embedding Table Parallelization for Large-scale Recommendation Model.
Zheng Wang, Yuke Wang, Boyuan Feng, Guyue Huang, Dheevatsa Mudigere, Bharath Muthiah, Ang Li, Yufei Ding.
[Link]

[ASPLOS’2024] RAP: Resource-aware Automated GPU Sharing for Multi-GPU Recommendation Model Training and Input Preprocessing.
Zheng Wang, Yuke Wang, Jiaqi Deng, Da Zheng, Ang Li, Yufei Ding.
[Link]

[ASPLOS’2024] ZENO: A Type-based Optimization Framework for Zero-Knowledge Neural Network Inference.
Boyuan Feng, Zheng Wang, Yuke Wang, Shu Yang, Yufei Ding.
[Link]

[ATC’2023] TC-GNN: Bridging Sparse GNN Computation and Dense Tensor Cores on GPUs.
Yuke Wang, Boyuan Feng, Zheng Wang, Guyue Huang, Yufei Ding.
[Link]

[OSDI’2023] MGG: Accelerating Graph Neural Networks with Fine-Grained Intra-Kernel Communication-Computation Pipelining on Multi-GPU Platforms.
Yuke Wang, Boyuan Feng, Zheng Wang, Tong Geng, Ang Li, Kevin Barker, Yufei Ding.
[Link]

[ISCA’2023] ECSSD: Hardware/Data Layout Co-Designed In-Storage-Computing Architecture for Extreme Classification.
Siqi Li, Fengbin Tu, Liu Liu, Jilan Lin, Zheng Wang, Yangwook Kang, Yufei Ding, Yuan Xie.
[Link]

[SC’2022] EL-Rec: Efficient Large-scale Recommendation Model Training via Tensor-train Embedding Table.
Zheng Wang, Yuke Wang, Boyuan Feng, Dheevatsa Mudigere, Bharath Muthiah, Yufei Ding.
[Link]

[ATC’2022] Faith: An Efficient Framework for Transformer Verification on GPUs.
Boyuan Feng, Tianqi Tang, Yuke Wang, Zhaodong Chen, Zheng Wang, Shu Yang, Yuan Xie, Yufei Ding.
[Link]