تاریخ انتشار: ۲۴ مهر ۱۴۰۲ - ۰۸:۰۰

هوش مصنوعی از نمونه‌های موجود در زمینه تولید تصویر پیشی گرفت

تهران- ایرنا- یک مدل هوش مصنوعی مولد جدید موسوم به PFGM++ در زمینه تولید تصویر عملکرد بهتری از مدل‌های پراکنش (diffusion) نشان داده و قادر به تولید تصاویر واقع‌گرایانه با تقلید از فرایندهای موجود در جهان واقعی است.

به گزارش گروه علم و آموزش ایرنا از «سای تک دیلی»، هوش مصنوعی مولد (Generative AI) وعده دنیایی را می‌دهد که در آن «ساده» تبدیل به «پیچیده» می‌شود؛ جایی که یک توزیع ساده به الگوهای ظریف و پیچیده‌ای از تصاویر، صداها یا متن تبدیل شده و موجب می‌شود که «مصنوعی» به طرز عجیبی «واقعی» شود.

قلمروی پندار و خیال دیگر صرفا حوزه‌ای از امور انتزاعی نیست چرا که محققانی از آزمایشگاه علوم رایانه و هوش مصنوعی دانشگاه «ام آی تی» (CSAIL) یک مدل هوش مصنوعی نوآورانه را ابداع کرده‌اند. فناوری جدید این محققان، دو قانون فیزیکی ظاهرا نامرتبط یعنی قانون «پراکنش» (diffusion) و «جریان پواسون» (Poisson Flow) را با هم یکپارچه می‌سازد. پراکنش حرکت تصادفی (راندوم) عناصر مانند گسترش گرما در اتاق یا گاز در فضا را به نمایش می‌گذارد و جریان پواسون نیز از اصول زیربنایی فعالیت بارهای الکتریکی استفاده می‌کند.

ظهور یک مدل جدید

این ترکیب موزون منجر به عملکرد برتری در تولید تصاویر جدید شده و از مدل‌های پیشرفته موجود پیشی گرفته است. مدل موسوم به «مدل مولد جریان پواسون» (PFGM++) کاربردهای بالقوه‌ای در حوزه‌های مختلف از تولید آنتی‌بادی و زنجیره «آر ان ای» گرفته تا تولید صوتی (اودیو) و نمودار (گراف) پیدا کرده است.

این مدل می‌تواند الگوهای پیچیده‌ای تولید کند از جمله اینکه قادر به ایجاد تصاویر واقع‌گرایانه یا تقلید از فرایندهای جهان واقعی است. این مدل جدید برگرفته از کار سال گذشته این تیم تحقیقاتی موسوم به PFGM است که از معادله ریاضیاتی موسوم به معادله «پواسون» الهام گرفته و آن را در مورد داده‌هایی به کار می‌برد که مدل تلاش دارد از آن یاد بگیرد.

محققان برای این کار یک بعد اضافی به «فضای» مدل اضافه کردند که این کار مانند تبدیل از یک طرح دوبعدی به یک مدل سه بعدی است. این بعد اضافی فضای بیشتری برای مانور ایجاد می‌کند و داده‌ها را در متن بزرگتری قرار می‌دهد و اجازه می‌دهد که در هنگام تولید نمونه‌های جدید بتوان از همه جهات به داده‌ها نزدیک شد.

«جسی تالر» فیزیکدان ذرات تئوریک در آزمایشگاه علوم هسته‌ای دانشگاه «ام آی تی» گفت: مدل PFGM++ یک نمونه از پیشرفت های هوش مصنوعی است که از طریق همکاری بین رشته‌ای بین فیزیکدان ها و دانشمندان علوم رایانه قابل استفاده است.

وی افزود: در سال های اخیر، مدل های مولد مبتنی بر هوش مصنوعی نتایج خیره‌کننده متعددی از تصاویر واقع‌گرایانه (photorealistic) تا جریان‌های واضح متنی ایجاد کرده‌اند. برخی از نیرومندترین مدل های مولد ریشه در مفاهیم گذشته مانند تقارن و ترمودینامیک دارند. مدل PFGM++ از یک ایده با سابقه یک قرنی از فیزیک بنیادی استفاده می‌کند حاکی از اینکه ممکن است بعدهای بیشتری از مکان-زمان وجود داشته باشد و این را به یک ابزار نیرومند برای تولید مجموعه‌داده‌های مصنوعی (سنتتیک) اما واقع‌گرایانه تبدیل می‌کند.

محققان برای این کار داده‌ها را با بار الکتریکی تشبیه کردند و این بارهای الکتریکی یک «میدان الکتریکی» تولید می‌کنند بطوری که بارها (شارژها) درصدد حرکت به سمت بالا در امتداد خطوط میدان به درون یک بعد اضافی و تشکیل یک توزیع هم‌شکل بر روی یک کره بزرگ تخیلی (imaginary) هستند. برای تحقق بخشیدن به این تئوری، این تیم تحقیقاتی یک زوج معادله دیفرانسیل درباره حرکت این ذرات در داخل میدان الکتریکی را حل کردند. مدل PFGM++ مقاومت بیشتری نیز در برابر اشتباهات در معادلات دیفرانسیل نشان داده است.

این محققان قصد دارند در ادامه کار خود برخی جنبه‌های خاص این مدل به خصوص در راه های متقارن را بهبود دهند و اصلاح کنند تا بتوانند «نقطه بهینه» برای داده‌های خاص را از طریق تحلیل رفتار اشتباهات برآوردی شبکه‌های عصبی شناسایی کنند. آنها همچنین قصد دارند این مدل را در مورد تولید متن به تصویر/متن به ویدئو در مقیاس بزرگ به کار ببرند.