Leeks and Leaks – Daniel.haxx.se

созданный 11h | 16 мая 2025 г., 12:40:18


Войдите, чтобы добавить комментарий

Другие сообщения в этой группе

Show HN: KVSplit – Run 2-3x longer contexts on Apple Silicon

I discovered that in LLM inference, keys and values in the KV cache have very different quantization sensitivities. Keys need higher precision than values to maintain quality.

I patched llama.cp

16 мая 2025 г., 21:50:10 | Hacker news