Publications

You can also find my articles on Google Scholar.

Llamas on the Web: Memory-Efficient, Performance-Portable, and Multi-Precision LLM Inference with WebGPU
- Reese Levine, Rithik Sharma, Nikhil Jain, Abhijit Ramesh, Zheyuan Chen, Neha Abbas, James Contini, Tyler Sorensen
- arXiv , 2026
- [pdf] [DOI]
SIMT-Step Execution: A Flexible Operational Semantics For GPU Subgroup Behavior
- Zheyuan Chen, Naomi Rehman, Guido Martínez, Tyler Sorensen
- ACM SIGPLAN Conference on Programming Language Design and Implementation (PLDI) , 2026
- [pdf]
BetterTogether: An Interference-Aware Framework for Fine-grained Software Pipelining on Heterogeneous SoCs.
- Yanwen Xu, Rithik Sharma, Zheyuan Chen, Shaan Mistry, Tyler Sorensen
- IEEE International Symposium on Workload Characterization (IISWC) , 2025 [Best Paper Award]
- [pdf] [slides] [code] [DOI]
sqlelf: a SQL-centric Approach to ELF Analysis
- Farid Zakaria, Zheyuan Chen, Andrew Quinn, Thomas R. W. Scogland
- arXiv , 2024
- [pdf]