
نوشته و ویرایش شده توسط مجله ی دریای تکنولوژی
استارتاپ هوش مصنوعی ElevenLabs چند هفته بعد از راهاندازی مدل تبدیل متن به صدای Sound Effects، یک ابزار متنباز را نیز در اختیار کاربران قرار داده که پتانسیلهای آن را نشان خواهند داد. این ابزار هوش مصنوعی تشکیل صدا به سازندگان اجازه میدهد تا برای ویدیوهای خود نمودهای صوتی تشکیل کنند.
هوش مصنوعی تشکیل صدا ElevenLabs
مطابق گزارشهای حاضر، وقتی که ویدیو جدیدی را برای منفعت گیری از این ابزار آپلود میکنید، چهار فریم در فواصل وقتی یک ثانیهای اراعه میبشود. سپس این فریمها بههمراه یک پرامپت به مدل GPT-4o فرستاده خواهد شد تا پرامپت جدیدی گرفته بشود. از این پرامپت از طریق API Sound Effects برای تشکیل افکت صوتی از متن منفعت گیری میبشود.
درنهایت صدای تولیدشده با ویدیوی کاربر ترکیب میبشود تا فایل آن برای دانلود اراعه بشود. این چنین باید به این نوشته اشاره کرد که اکنون حداکثر یک ویدیو ۲۲ ثانیهای میتوان از این ابزار دریافت کرد.
منفعت گیری از این ابزار زیاد ساده است. فقط باید ویدیو بدون صدای خود را در آن آپلود کنید تا هوش مصنوعی ElevenLabs چهار گزینه با صدا به شما اراعه کند. به گمان زیادً میتوان انتظار داشت که این هوش مصنوعی در آینده به سیستمهای بزرگتری اضافه بشود تا تولیدکنندگان بتوانند از مزایای سیستم تشکیل صدای آن منفعت ببرند.

«عمار ریشی»، مدیر قسمت طراحی ElevenLabs میگوید:
«سازندگان ویدیوهای هوش مصنوعی زیاد تر بهجستوجو نمودهای صوتی عالی می باشند و ما حس میکنیم که با فهمیدن فریم ویدیوهای آنها و سپس نظر بهترین خروجی، میتوانیم به روال کار آنها شدت بخشیم.»
او این چنین ویدیویی را به اشتراک گذاشته که برای ساخت آن، از فناوریهای ElevenLabs در کنار Luma AI و Hedra پشتیبانی گرفته شده است.
درحالیکه گسترشدهندگان میتوانند به کد این ابزار در GitHub دسترسی داشته باشند، ElevenLabs وبسایت جدیدی هم راهاندازی کرده تا Sound Effects API را امتحان کنید.
دسته بندی مطالب
مقالات کسب وکار