在 NVIDIA Jetson Orin AGX 上編譯 llama.cpp 與部署 AI 應用

簡介
由於工作的緣故,需要將 llama.cpp 作為 WASI-NN 的後端所使用,來讓 WebAssembly 能具備使用 AI 模型的能力,也因此需要在各種平台上編譯 llama.cpp 作為我們的相依性函式庫。
而 NVIDIA Jetson Orin AGX 64GB 的版本,作為提供相對大的 VRAM 與支援 CUDA 的平台,自然是我們花許多力氣在上面進行測試與最佳化的目標。
本文將詳細記錄如何在 NVIDIA Jetson Orin AGX (JetPack 6.2) 上成功編譯 llama.cpp、將大型語言模型轉換成 GGUF 格式、進行模型量化以及最終部署 AI 應用的完整流程。