Сделал небольшую паузу в работе, пощупал нейронки для редактирования фотографий — Qwen Image Edit, Gemini 2.5 Flash Image Preview (она же Nano Banana). Теперь хочу поделиться мыслями о том, имеет ли смысл ретушь с помощью данных моделей, когда ИИ стоит использовать, а когда однозначно нет.
Приятного просмотра!
Основные плюсы ретуши в Qwen и Gemini — результаты генерации относительно консистентны (согласованы), в большинстве случаев модифицируется именно то, что ты указываешь в запросе, поддерживаются промпты на русском языке.
Главные минусы — низкая детализация, маленькое разрешение, при многократной перегенерации качество изображения падает до 100 шакалов из 10.
Проблема с низкой детализацией отчасти решается апскейлом, объединением с исходником, коррекцией по маске, ручной доработкой, но это уже выходит за рамки быстрого редактирования фото с помощью ИИ.
Если не обращать внимание на косяки, Qwen Image Edit и Gemini 2.5 Flash Image Preview можно использовать для творческих экспериментов, промо постов для социалок, мемов, виртуальной примерки образов, замены фона, изменения освещения, создания индивидуальных референсов, удаления проводов, пятен, любого визуального мусора.
Ретушь с помощью Qwen и Gemini имеет смысл, но с большим количеством ограничений и подходит исключительно для веб формата, не требующего идеального качества (да и то не всегда!).
Для редактирования полноразмерных фото эти нейронки не подойдут.
Даже если с их помощью можно быстро поправить изображения, сгенерированные образцы слишком сильно проседают по качеству.
При близком просмотре заметны артефакты и искажения, как и всевозможные мелкие недочёты. Это может быть не критично для создания юмористических или концептуальных работ, но для коммерческой ретуши полностью неприемлемо, увы.
В галерее на странице ниже приложу несколько примеров до и после редактирования. Первые три — оригинал, Qwen Image Edit и Gemini 2.5 Flash Image Preview (Nano Banana), остальные — оригинал + Qwen Image Edit.
Если будет время детально пощупать Gemini 2.5 Flash Image Preview, потом ещё пост запилю!
Пока могу сказать, что в среднем Gemini выдаёт картинки почище, меньше искажает форму объектов, лучше вписывает объекты в окружение, но модель жёстче зацензурена и сбоит чаще, чем Qwen.
Понравилась статья и видоизменённые кадры?
Буду благодарен, если вы поделитесь ссылкой с друзьями, почитаете другие заметки на сайте и подпишитесь на мой канал!
Блог
