چاپ

راه ترقی - ایسنا / شرکت انویدیا مدل جدید هوش مصنوعی خود موسوم به «فوگاتو»(Fugatto) را معرفی کرد که می‌تواند به پیام‌های متنی، صدا ببخشد. این مدل همچنین می‌تواند فایل‌های صوتی موجود را تغییر دهد.
شرکت انویدیا(NVIDIA) یک مدل آزمایشی جدید هوش مصنوعی مولد را معرفی کرده است که آن را به عنوان مدل هوش مصنوعی همه‌کاره در حوزه صوت و صدا توصیف می‌کند.
به نقل از انگجت، این مدل با نام کامل Foundational Generative Audio Transformer Opus 1 به اختصار فوگاتو(Fugatto) نامیده می‌شود و می‌تواند دستورات را از پیام‌های متنی دریافت کند و از آنها برای ایجاد آهنگ یا تغییر موسیقی، صدا و فایل‌های صوتی موجود استفاده کند.
این مدل توسط گروهی از محققان هوش مصنوعی از سراسر جهان طراحی شده است و انویدیا می‌گوید که «قابلیت‌های چند لهجه‌ای و چند زبانه» آن را قوی‌تر کرده است.
رافائل واله(Rafael Valle) یکی از محققان این پروژه و مدیر تحقیقات صوتی کاربردی در انویدیا می‌گوید: ما می‌خواستیم مدلی بسازیم که صدا را مانند انسان‌ها درک و تولید کند.
انویدیا برخی از سناریوهای احتمالی در دنیای واقعی را فهرست کرده است که در آن «فوگاتو» می‌تواند در کارهای خود از آن استفاده کند. به عنوان مثال، تولیدکنندگان موسیقی می‌توانند از این فناوری برای تولید سریع یک نمونه اولیه برای یک ایده آهنگ استفاده کنند که سپس می‌توانند به راحتی آن را ویرایش کنند تا سبک‌ها، صداها و سازهای مختلف را امتحان کنند.
عموم مردم نیز می‌توانند از آن برای تولید محتواهای مربوط به ابزارهای یادگیری زبان با صدای دلخواه خود استفاده کنند و توسعه‌دهندگان بازی‌های ویدیوئی هم می‌توانند از آن برای ایجاد تغییراتی از محتواهای از پیش ضبط‌شده برای متناسب کردن تغییرات در بازی بر اساس انتخاب‌ها و اقدامات بازیکنان استفاده کنند.
علاوه بر این، محققان دریافتند که این مدل می‌تواند وظایفی را که بخشی از پیش‌آموزش آن نیست، با برخی تنظیمات دقیق انجام دهد. این مدل می‌تواند دستورالعمل‌هایی را که به طور جداگانه بر روی آنها آموزش داده شده است، ترکیب کند. مانند تولید گفتاری که با لهجه‌ای خاص عصبانی به نظر می‌رسد یا صدای آواز پرندگان در حین وقوع یک طوفان و رعد و برق.
این مدل همچنین می‌تواند صداهایی تولید کند که در طول زمان تغییر می‌کنند، مانند تغییر صدای بارش یک باران طوفانی.
انویدیا هنوز اعلام نکرده است که آیا امکان دسترسی عمومی به فوگاتو را فراهم می‌کند یا خیر، اما این مدل اولین فناوری هوش مصنوعی مولد نیست که می‌تواند اصوات و صداها را از پیام‌های متنی ایجاد کند.
شرکت متا قبلا یک هوش مصنوعی منبع‌باز منتشر کرده است که می‌تواند صداها را از توضیحات متنی ایجاد کند. گوگل نیز دارای هوش مصنوعی تبدیل متن به موسیقی خود به نام MusicLM است که افراد می‌توانند از طریق وب‌سایت AI Test Kitchen به آن دسترسی داشته باشند.