منذ أن أعلنت Meta عن إطلاقها مودل LLAMA2 للذكاء الاصطناعي، فقد أطلقت الشركة الكثير من الخدمات وموديلات الذكاء الاصطناعي. منها CM3leon للتعامل مع الصور و AudioCraft للتعامل مع الخدمات الصوتية. وقد أعلنت مؤخرًا عن مودل جديد للذكاء الاصطناعي مبني على قوة LLAMA2 ويحمل اسم SeamlessM4T. فما هو هذا المودل الأخير وما الذي يقدمه؟
ما هي SeamlessM4T الجديدة من Meta؟
الـ SeamlessM4T هو في الحقيقة عبارة عن مودل متعدد الخدمات (Multi Modal) مخصص للتعامل مع النصوص والملفات الصوتية. الهدف من المودل بشكل ملخص هو تحويل النصوص المكتوبة إلى محتوى صوتي، ثم تحويل المحتوى الصوتي إلى نصوص مكتوبة ( مثل Text To Speech ).
بالإضافة لهذه الميزات فإنها تقدم خدمات إضافية، منها ترجمة النصوص أو الأصوات بشكل مباشرة، أو التعرف على الصوت وما إلى ذلك.
يهدف هذا المودل إلى التعامل بشكل عام بين نوعين من المحتوى: الكتابي والصوتي، والتعامل معهما بشكل أفضل عبر الخدمات المقدمة.
استخدامات مودل SeamlessM4T
يمكن استخدام SeamlessM4T لمجموعة من الأغراض، أهمها:
- كتابة النصوص بناءًا على محتوى محدد: يمكن توليد وتجسيد النصوص من خلال مودل SeamlessM4T بالرغم من أنه ليس الهدف الأساسي منه.
- توليد المحتوى الصوتي: مثل النصوص والكتابة، يمكن توليد محتوى صوتي عبر SeamlessM4T بالاعتماد على خدمة Audio Craft السابقة من ميتا.
- تحويل النصوص إلى صوت: يمكنك تقديم نص إلى مود SeamlessM4T ثم الانتظار قليلًا ليتم تحويله إلى محتوى صوتي يمكن استخدامه مثلًا في فيديوهات اليوتيوب.
- تحويل الصوت إلى كتابة: مثل الخدمة السابقة، لكن بشكل معكوس. يمكنك تقديم محتوى صوتي للمودل وسيسحب الصوت منه ويقوم بتحويله لمحتوى كتابي.
- ترجمة النصوص و الصوت معًا: أما الميزة النهائية والأهم فهي ترجمة النصوص والصوت من لغة للغة أخرى بشكل سهل للغاية عبر الميزات المقدمة.
ميزة الترجمة الفورية هي ما تميزه عن غيره
ميزة تحويل الصوت إلى كتابة أو العكس هي ميزة موجودة مسبقًا في الكثير من الخدمات، حتى قبل ثورة الذكاء الاصطناعي. وإن كانت بسيطة (مثل استخدام أصوات رقمية) إلا أنها كانت عملية. فما الذي يميز مودل SeamlessM4T الجديد من ميتا؟
الميزة الأهم من وجهة نظرنا هي الترجمة الفورية للنصوص والصوت بدعم لأكثر من 100 لغة حية. فإن كان فيديو باللغة الإنجليزية يمكنك سحب الصوت منه وترجمته باللغة العربية لتحصل على نتيجة عبارة عن نص عربي للفيديو. نفس الأمر بالنسبة للنصوص، وهو ما يجعل هذا المودل ذو فائدة مقارنة مع الشركات الأخرى.
استخدامات مودل SeamlessM4T
يمكن للكثيرين الاستفادة من هذا المودل للقيام بمختلف الأغراض.
أولهم سيكون صناع المحتوى المرئي والنصي على يوتيوب أو غيره من منصات الفيديو الأخرى. إذ يمكنهم الآن تحويل سكربت نصي إلى سكربت صوتي وإدماجه في الفيديو، أو العكس.
من الأشخاص الذين يمكنهم الاستفادة من هذا المودل وبشدة هي شركات المنتجة للأفلام والمسلسلات. نعلم أن المسلسلات والأفلام تأتي بترجمات مختلفة، ويتم توظيف عشرات الناس للقيام بترجمتها بمختلف اللغات. مودل SeamlessM4T يمكن أن يحل مكان هؤلاء الأشخاص عبر توفير ترجمة سريعة وسهلة للأفلام والمسلسلات بناءًا على الصوت داخل الفلم.
هل يمكنني استخدام هذا المودل؟
المودل الجديد متاح فقط كمشروع مفتوح المصدر، ولا يوجد أداة فعلية يمكن تحميلها واستخدامها لإنشاء هذا النوع من المحتوى. لازلنا سنرى أدوات من ابتكار مجتمع المطورين الذين سيستغلون هذا المودل لإنشاء الكثير من البرمجيات الأخرى. يمكنك الإطلاع على المشروع أكثر ولمحة عن تجربتها من موقع ميتا الرسمي .
[…] شوقتنا شركة Meta حول مودل الذكاء الاصطناعي الخاص بها LLAMA2، وأطلقت معه الكثير من أدوات الذكاء الاصطناعي الأخرى. […]