llama_cpp_for_radxa_dragon_wing_q6a

History

Radoslav Gerganov bcf7546160 server : add arg for disabling prompt caching (#18776 ) * server : add arg for disabling prompt caching Disabling prompt caching is useful for clients who are restricted to sending only OpenAI-compat requests and want deterministic responses. * address review comments * address review comments		2026-01-12 19:21:34 +02:00
..
batched-bench
cli	server: update docs for sleeping [no ci] (#18777 )	2026-01-12 13:01:24 +01:00
completion	server: update docs for sleeping [no ci] (#18777 )	2026-01-12 13:01:24 +01:00
cvector-generator
export-lora
fit-params	llama-fit-params: free memory target per device (#18679 )	2026-01-08 10:07:58 +01:00
gguf-split
imatrix
llama-bench
mtmd	mtmd: Add Gemma3n multimodal support with MobileNetV5 vision encoder (#18256 )	2026-01-09 23:42:38 +01:00
perplexity
quantize
rpc
server	server : add arg for disabling prompt caching (#18776 )	2026-01-12 19:21:34 +02:00
tokenize
tts
CMakeLists.txt	cmake: only build cli when server is enabled (#18670 )	2026-01-09 16:43:26 +01:00