«Gemini 3.1 Flash TTS» نموذج جديد للأداء الصوتي الاحترافي… هل يلغي توظيف المعلّقين الصوتيين؟
يدعم النموذج صناع المحتوى وقطاع الأعمال في مراكز الاتصال وتجربة العملاء

يبدو أن تقنيات الأداء الصوتي عبر تحويل النص إلى كلام (TTS) بالذكاء الاصطناعي التوليدي تشهد طفرة في الابتكار لا تقل عن تقنيات توليد الصور والفيديو.
فالصوت، الذي كان يُنظر إليه كطبقة تكميلية، أصبح اليوم عنصراً محورياً في إنتاج المحتوى الرقمي، مما يؤكد أهمية تطوير تقنيات تزيد الإنتاجية وتنتج محتوى صوتي بجودة عالية تقترب من الصوت الطبيعي والأداء البشري.
واليوم تواصل «Google» تقديم المزيد من ابتكاراتها في مجال النماذج الصوتية التوليدية ضمن عائلة «Gemini»، لتحويل التعليق الصوتي إلى مهمة أكثر سلاسة ومتعة وجدوى.
ومؤخراً كشفت عن نموذجها الجديد «Gemini 3.1 Flash TTS»، وهو نظام متقدم لتحويل النص إلى كلام يجمع بين السرعة العالية، والتحكم الدقيق، وجودة التعبير الصوتي، موفرة للمطورين والشركات والمستخدمين أدوات أكثر دقة.
النموذج، الذي أُطلق في 15 أبريل 2026 كمعاينة، متاح عبر «Gemini API» و«Google AI Studio» للمطورين، وعلى «Vertex AI» للمؤسسات، ويتكامل مع «Google Vids» ضمن بيئة «Workspace».

ما الجديد في «Gemini 3.1 Flash TTS»؟
يوفر النموذج الصوتي الجديد ميزات متطورة مقارنة «Gemini 2.5»، أبرزها:
ميزة “الوسوم الصوتية” (Audio Tags)
يمكن للمستخدم تحويل النص من حالة الجمود إلى الحيوية، والحصول على أداء صوتي أكثر تعبيراً عن المحتوى، عبر التحكم في طريقة الإلقاء، تغييرها في كل جملة.
ويتم ذلك من خلال كتابة تعليمات داخل النص مثل: «حماس»، «بطء»، «دهشة»، فتتعدل النبرة والإيقاع تلقائيًا.
ويسمح النموذج بتصدير هذه الإعدادات برمجيًا عبر «API» لضمان اتساق الأداء الصوتي عبر التطبيقات المختلفة.
متحدثين متعددين بـ 70 لغة
يدعم النموذج حوارات متعددة المتحدثين، مع قدرة على توليد أصوات بأكثر من 70 لغة ولهجة بما فيها اللغة العربية، مقارنة بـ 24 لغة في «Gemini 2.5».
زمن قياسي لتسريع الإنتاج
في تجربة عملية أوردها موقع «Nemovideo»، يعمل «Gemini 3.1 Flash TTS» كطبقة صوتية داخل عملية الإنتاج، دون التدخل في بقية المراحل.
ويبدأ العمل بكتابة السكربت مع تضمين “الوسوم الصوتية” في النص لتحديد النبرة والإيقاع والانفعال، ثم يتم توليد الصوت خلال ثوانٍ عبر «AI Studio» أو من خلال واجهة «API»، حيث لا يستغرق إنتاج مقطع مدته 30 ثانية أكثر من بضع ثوانٍ.
بعد ذلك، يتم تحميل الملف الصوتي بصيغة «WAV» وإدخاله إلى برنامج المونتاج، لتبدأ المرحلة التقليدية التي تشمل إضافة اللقطات، ومواد الـ«B-roll»، والنصوص البصرية، وهي خطوات لا تزال تُنفّذ يدويًا.
ويظهر التحول الأبرز في عامل الوقت، فصانع المحتوى الذي كان يحتاج نحو 25 دقيقة لتسجيل وتنظيف التعليق الصوتي، يمكنه الآن إنجاز هذه المرحلة في حوالي 4 دقائق فقط، بينما تبقى بقية عناصر الإنتاج دون تغيير يُذكر.
تكلفة منخفضة
النموذج «Gemini 3.1 Flash TTS» ليس مجانياً بالكامل، لكنه متاح للاختبار ضمن المستوى المجاني عبر واجهة «Gemini API».
ويعتمد التسعير على عدد الرموز، حيث تبلغ تكلفة الإدخال نحو دولار واحد لكل مليون رمز نصي، مقابل 20 دولارًا لكل مليون رمز صوتي مُخرَج.
وفي حال استخدام وضع المعالجة الدفعية «Batch»، تنخفض التكلفة إلى 0.5 دولار للإدخال و10 دولارات للإخراج، أي بخصم يصل إلى 50%.
عملياً، تعد هذه التكلفة منخفضة للغاية، إذ إن مقطعاً صوتياً مدته 30 ثانية يعادل نحو 750 رمزاً صوتياً، مما يجعل تكلفته أقل من 0.01 دولار.
هذا المستوى من التسعير يضع النموذج في موقع مناسب للإنتاج واسع النطاق، خصوصاً في المحتوى القصير الذي يتطلب سرعة وتكراراً عاليين.
إذاً هناك حدود واضحة للنموذج
رغم قدراته، يظل النموذج محدوداً ضمن نطاق الصوت فقط، فهو لا يولّد فيديو، ولا يقدّم مزامنة لحركة الشفاه، ولا يدعم استنساخ صوت المستخدم، كما أنه لا يوفر دبلجة متكاملة تراعي التوقيت البصري.
هذه القيود تعكس تصميمه كنظام متخصص في تحويل النص إلى صوت، وليس كأداة إنتاج وسائط متعددة.

من يستفيد فعلياً من نموذج «Gemini 3.1 Flash TTS»؟
يمتد استخدام النموذج من الإعلام وصناعة المحتوى مثل التعليق الصوتي والكتب الصوتية، إلى التطبيقات الذكية كالمساعدات الرقمية وأدوات الوصول، وصولاً إلى قطاع الأعمال في مراكز الاتصال وتجربة العملاء.
ويعد النموذج خياراً مناسباً لصناع المحتوى الذين لا يفضلون الظهور أمام الكاميرا، وفرق التجارة الإلكترونية متعددة اللغات، والمسوقين بالعمولة لاختبار نماذج صوتية مختلفة، كما أنه مساعد رقمي داعم لصناع المحتوى الذين يحتاجون صوتاً احتياطياً لدمجه سريعاً ضمن أعمالهم الإبداعية.
هل تهدد نماذج الصوت التوليدي المعلّقين الصوتيين؟
رغم التقدم الواضح، لا يبدو أن نماذج الذكاء الاصطناعي التوليدي الخاصة بالصوت مثل «Gemini 3.1 Flash TTS» ستقضي على دور المعلّقين الصوتيين، أو تقلل من أهمية دورهم، لكنها قد تعيد توزيع الأدوار.
فهو خطوة متقدمة في تحويل الصوت إلى عنصر إنتاجي سريع وقابل للتحكم، ويبدو مناسباً للمهام المتكررة، لكن لا تزال النماذج الصوتية عموماً بعيدة عن تقديم الأداء العميق أو بناء هوية صوتية مميزة للعلامات التجارية.
كما يفسح المجال أمام نماذج جديدة من الإنتاج، حيث يصبح الصوت أسرع مرحلة في صناعة المحتوى، وليس أكثرها تعقيداً.
المصادر
Google Blog
Google Developers
Google Coud
Nemovide




