LongLLaMA —большая языковая модель, способная обрабатывать длинные контексты до 256k токенов и более. Она основана на OpenLLaMA и дообучена с использованием метода Focused Transformer (FoT). Модель имеет 3B параметров и лицензию Apache 2.0. LongLLaMA может заменить LLaMA в существующих реализациях для короткого контекста до 2048 токенов.


LongLLaMA —большая языковая модель, способная обрабатывать длинные контексты до 256k токенов и более. Она основана на OpenLLaMA и дообучена с использованием метода Focused Transformer (FoT). Модель имеет 3B параметров и лицензию Apache 2.0. LongLLaMA может заменить LLaMA в существующих реализациях для короткого контекста до 2048 токенов.

Есть колаб, чтобы пощупать.

UM v3.01 Деньги на диване, и нейронные сети совсем чуть чуть …