junhuihe-hjh

Junhui He junhuihe-hjh

MS Student at Wuhan University

Pinned Loading

CHESS CHESS Public

[EMNLP 2024] CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification

Python 4 1
A2ATS A2ATS Public

[ACL 2025 Findings] A2ATS: Retrieval-Based KV Cache Reduction via Windowed Rotary Position Embedding and Query-Aware Vector Quantization

Python 5
microsoft/BitNet microsoft/BitNet Public

Official inference framework for 1-bit LLMs

Python 28.4k 2.3k
Eddie-Wang1120/llama.cpp Eddie-Wang1120/llama.cpp Public

Forked from ggml-org/llama.cpp

LLM inference in C/C++

C++ 25 25