Salesforce врывается в гонку text-2-image моделей с XGen-Image-1
У модели 860 миллионов параметров, она обучена на 1,1 млрд публично доступных изображений из дата-сета LAION и способна генерировать изображения с разрешением до 1024×1024 пикселей.
XGen-Image-1 сочетает в себе скрытую модель VAE с методами увеличения пикселей, что позволяет обучать модель на очень низком разрешении (начиная с 32х32), снижая вычислительные затраты.
Сообщают что тренировка на TPU v4 заняла 9 дней и стоила ~$73k, в то время как StableDiffusion обошлась в $600k.
XGen-Image-1 сравнима по производительности с SD 1.5 и ли 2.1, и отличается эффективностью обучения на низком разрешении.
UM v3.01 Деньги на диване, и нейронные сети совсем чуть чуть …