Дифузійна модель

У машинному навчанні дифузійні моделі, також відомі як ймовірнісні моделі дифузії, є класом моделей прихованих змінних. Це ланцюги Маркова, навчені за допомогою варіаційного висновку[1]. Метою дифузійних моделей є вивчення латентної структури набору даних шляхом моделювання того, як точки даних розсіюються в латентному просторі. У комп'ютерному зорі це означає, що нейронна мережа навчається зашумлювати зображення, розмиті гаусовим шумом, шляхом навчання зворотному процесу дифузії[2][3]. Три приклади загальних структур моделювання дифузії, що використовуються в комп'ютерному зорі, це імовірнісні моделі дифузії з усуненням шуму, мережі балів з умовою шуму та стохастичні диференціальні рівняння[4].

Дифузійні моделі були представлені у 2015 році мотивуючись нелінійною термодинамікою[5].

Дифузійні моделі можуть бути застосовані до різноманітних завдань, зокрема для усунення шумів зображення, розфарбовування, суперроздільності та генерації зображень. Наприклад, модель генерації зображення починається з зображення випадкового шуму, а потім, після навчання реверсу процесу дифузії на природних зображеннях, модель зможе генерувати нові природні зображення. Анонсована 13 квітня 2022 року модель DALL-E 2 OpenAI для перетворення тексту в зображення є недавнім прикладом. Він використовує дифузійні моделі як для попередньої моделі (яка створює вбудовування зображення з текстовим підписом), так і для декодера, який генерує остаточне зображення[6].

Математичні принципи[ред. | ред. код]

Створення зображення в просторі всіх зображень[ред. | ред. код]

Розглянемо задачу генерації зображень. Нехай 𝑥 — зображення, а 𝑝(𝑥) — розподіл ймовірності над усіма можливими зображеннями. Якщо у нас є саме 𝑝(𝑥), то ми можемо точно сказати, наскільки ймовірним є певне зображення. Однак, в загальному випадку це нерозв'язна задача.

Найчастіше ми не зацікавлені в тому, щоб знати абсолютну ймовірність того, що певне зображення є — коли, якщо взагалі, нас цікавить, наскільки ймовірним є зображення в просторі всіх можливих зображень? Замість цього ми зазвичай лише зацікавлені в тому, наскільки вірогідним є певне зображення порівняно з його безпосередніми сусідами — наскільки імовірніший це зображення кота порівняно з деякими його невеликими варіантами? Чи більш імовірно, якщо зображення містить два вуса, або три, або з додаванням шуму Гауса?

Отже, нас насправді зовсім не цікавить сам ⁣, а радше, . Це забезпечує два ефекти

  • По-перше, нам більше не потрібно нормалізувати , але ми можемо використовувати будь-який , де це будь-яка невідома константа, яка нас не цікавить.
  • По-друге, ми порівнюємо сусідів , за

Нехай функція оцінки є , розглянемо, що ми можемо зробити з .

Як виявляється, дозволяє нам брати зразки з використовуючи стохастичну градієнтну динаміку Ланжевена, яка, по суті, є нескінченно малою версією ланцюга Маркова Монте-Карло[2].

Вивчення функції оцінки[ред. | ред. код]

Функцію оцінки можна дізнатися за допомогою шумозаглушення[1].

Основні варіанти[ред. | ред. код]

Керівництво класифікатора[ред. | ред. код]

Припустимо, ми хочемо взяти вибірку не з усього розподілу зображень, а залежно від опису зображення. Ми не хочемо взяти зразок загального зображення, а зображення, яке відповідає опису «чорний кіт з червоними очима». Як правило, ми хочемо взяти вибірку з розподілу , де діапазони зображень , і діапазони по класах зображень (опис «чорний кіт з червоними очима» — це лише дуже детальний клас, а клас «кіт» — це лише дуже розпливчастий опис).

Розглянувши модель шумового каналу, ми можемо зрозуміти процес таким чином: створити зображення умовний за описом , ми припускаємо, що запитувач дійсно мав на увазі зображення , але зображення проходить через шумовий канал і виходить спотвореним, як . Таким чином, генерація зображення є нічим іншим, як висновком про те, що є що запитувач мав на увазі.

Іншими словами, генерація умовного зображення — це просто «переклад з мови тексту на мову зображення». Потім, як і в моделі шумового каналу, ми використовуємо теорему Баєса, щоб отримати

Іншими словами, якщо у нас є хороша модель простору всіх зображень і хороший перекладач зображення-класу, ми отримуємо перекладач класу-зображення «безкоштовно». SGLD використовує
де це функція оцінки, навчена, як описано раніше, і знайдено за допомогою класифікатора диференційованого зображення.

З температурою[ред. | ред. код]

Зразки моделі дифузії, керованої класифікатором , яка зосереджена навколо максимальної апостеріорної оцінки . Якщо ми хочемо змусити модель рухатися до оцінки максимальної ймовірності , ми можемо використовувати

де інтерпретується як зворотна температура. У контексті дифузійних моделей її зазвичай називають керівною шкалою. Високий змусить модель брати вибірку з розподілу, зосередженого навколо . Це часто покращує якість створених зображень[7]. Це можна зробити просто за допомогою SGLD

Керівництво без класифікатора[ред. | ред. код]

Якщо у нас немає класифікатора , ми все одно можемо витягти один із самої моделі зображення[8]:

Таку модель зазвичай тренують, пред'являючи її обома і , що дає змогу моделювати обидва і .

Це невід'ємна частина таких систем, як GLIDE[9], DALL-E[10] і Google Imagen[11].

Див. також[ред. | ред. код]

Список літератури[ред. | ред. код]

  1. а б Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (19 червня 2020). Denoising Diffusion Probabilistic Models. arXiv:2006.11239.
  2. а б Song, Yang; Sohl-Dickstein, Jascha; Kingma, Diederik P.; Kumar, Abhishek; Ermon, Stefano; Poole, Ben (10 лютого 2021). Score-Based Generative Modeling through Stochastic Differential Equations. arXiv:2011.13456 [cs, stat].
  3. Gu, Shuyang; Chen, Dong; Bao, Jianmin; Wen, Fang; Zhang, Bo; Chen, Dongdong; Yuan, Lu; Guo, Baining (2021). Vector Quantized Diffusion Model for Text-to-Image Synthesis. arXiv:2111.14822.
  4. Croitoru, Florinel-Alin; Hondru, Vlad; Ionescu, Radu Tudor; Shah, Mubarak (2022). Diffusion models in vision: A survey. arXiv:2209.04747.
  5. Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (1 червня 2015). Deep Unsupervised Learning using Nonequilibrium Thermodynamics (PDF). Proceedings of the 32nd International Conference on Machine Learning (англ.). PMLR. 37: 2256—2265.
  6. Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125.
  7. Dhariwal, Prafulla; Nichol, Alex (1 червня 2021). Diffusion Models Beat GANs on Image Synthesis. arXiv:2105.05233 [cs, stat].
  8. Ho, Jonathan; Salimans, Tim (25 липня 2022). Classifier-Free Diffusion Guidance. arXiv:2207.12598 [cs].
  9. Nichol, Alex; Dhariwal, Prafulla; Ramesh, Aditya; Shyam, Pranav; Mishkin, Pamela; McGrew, Bob; Sutskever, Ilya; Chen, Mark (8 березня 2022). GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. arXiv:2112.10741 [cs].
  10. Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (12 квітня 2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125 [cs].
  11. Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara (23 травня 2022). Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. arXiv:2205.11487 [cs].