Большая текстовая модель LLMa на 6GB RAM…


Большая текстовая модель LLMa на 6GB RAM…

Здорово, когда что-то в опен-соурсе допиливается коллективным разумом до невероятных результатов.

Чел отимизировал загрузку в LLaMa.cpp с помощью mmap, и теперь модели можно гонять на CPU на Линуксе, используя меньше 6 GB RAM.

Со слов автора пул-реквеста, при загрузке модель дает всего 4GB в RAM.
Всё благодаря оптимизации чтения с помощью mmap — он подгружает с диска в RAM только нужные в текущий момент страницы памяти.

https://github.com/ggerganov/llama.cpp/discussions/638#discussioncomment-5492916

Получается её реально запустить даже на телефоне…

UM v3.01 Деньги на диване, и нейронные сети совсем чуть чуть …