Salesforce врывается в гонку text-2-image моделей с XGen-Image-1


Salesforce врывается в гонку text-2-image моделей с XGen-Image-1

У модели 860 миллионов параметров, она обучена на 1,1 млрд публично доступных изображений из дата-сета LAION и способна генерировать изображения с разрешением до 1024×1024 пикселей.
XGen-Image-1 сочетает в себе скрытую модель VAE с методами увеличения пикселей, что позволяет обучать модель на очень низком разрешении (начиная с 32х32), снижая вычислительные затраты.

Сообщают что тренировка на TPU v4 заняла 9 дней и стоила ~$73k, в то время как StableDiffusion обошлась в $600k.

XGen-Image-1 сравнима по производительности с SD 1.5 и ли 2.1, и отличается эффективностью обучения на низком разрешении.

UM v3.01 Деньги на диване, и нейронные сети совсем чуть чуть …