llamacpp_on_dragon_wing_q6a.../scripts/test-on-q6a.sh

#!/usr/bin/env bash
# test-on-q6a.sh — Run llama-cli inference test on Q6A with Hexagon backend
set -euo pipefail

Q6A="${Q6A:-radxa@192.168.1.11}"
MODEL="${MODEL:-/home/radxa/models/llama-3.2-1b-q4km.gguf}"
DEPLOY_DIR="${DEPLOY_DIR:-llama/bin}"
N_TOKENS="${N_TOKENS:-32}"
PROMPT="${PROMPT:-Hello, what is your name?}"

echo "=== Running inference test on Q6A ==="
echo "Model: ${MODEL}"
echo "Tokens: ${N_TOKENS}"
echo ""

ssh "${Q6A}" "
    cd ~/${DEPLOY_DIR}
    echo '--- llama-cli version ---'
    ./llama-cli --version 2>&1 || true
    echo ''
    echo '--- Running infererence with GGML_HEXAGON=1 ---'
    GGML_HEXAGON=1 LD_LIBRARY_PATH=. ./llama-cli \
        -m '${MODEL}' \
        -n '${N_TOKENS}' \
        -p '${PROMPT}' \
        -ngl 0 \
        --no-display-prompt \
        2>&1
    echo ''
    echo '--- exit: ' $? '---'
" 2>&1