Meta AI публикует код и веса языковой модели с 175B параметров, сравнимой с GPT-3


Meta AI публикует код и веса языковой модели с 175B параметров, сравнимой с GPT-3

(!) Беспрецедентный случай. Это будет самая большая модель с предобученными весами в публичном доступе.

Мои коллеги из Meta AI скоро зарелизят библиотеку Open OPT, которая включает набор предварительно обученных трансформеров (от 125M до 175B параметров), которые работают сравнимо с GPT-3 на 14 языковых бенчмарках. При этом авторы улучшили эффективность тренировки, что позволило сократить количество требуемых ресурсов. Это всего лишь какие-то 992 видеокарты A100 с 80GB VRAM. Круто, что цикл тренировки OPT-175B оставляет в 7 раз меньше углеродного следа (75 тонн CO2) за время обучения, чем GPT-3 (500 тонн).

UM v3.01 Деньги на диване, и нейронные сети совсем чуть чуть …