رئيس التحرير
عصام كامل

جوجل تطلق أدق برنامج لقراءة الشفاه


استخدمت شركة جوجل الذكاء الصنعي لإنشاء أدق برنامج لقراءة الشفاه موجود في الوقت الحالي، وجرى بناء هذا البرنامج بالتعاون بين الباحثين في قسم DeepMind للذكاء الصنعي في شركة جوجل مع جامعة أكسفورد للذكاء الصنعي.


وعمل العلماء على استخدام 5 آلاف ساعة من البرامج التليفزيونية التابعة لهيئة الإذاعة البريطانية «البي بي سي» لتدريب الشبكة العصبية على إضافة تعليق توضيحي للقطات الفيديو بدقة تصل إلى 46.8%.

ورغم أن هذه النسبة قد لا تثير الإعجاب لا سيما بالمقارنة مع معدلات دقة الذكاء الصنعي عند التدوين الصوتي، إلا أن هذه النسبة تعتبر إنجازًا كبيرًا عند مقارنتها بنسبة 12.4 في المائة من الكلمات التي يمكن للعنصر البشري المحترف في قراءة الشفاه معرفتها.

وتأتي هذه الأبحاث بعد قيام مجموعة أخرى من جماعة أكسفورد بالعمل على أبحاث مماثلة منشورة في وقت سابق من هذا الشهر، حيث تمكن أولئك العلماء من إنشاء برنامج لقراءة الشفاه يدعى LipNet باستخدام تقنيات ذات صلة.

وحقق برنامج LipNet دقة بلغت 93.4 في المائة خلال الاختبارات، بالمقارنة مع دقة 52.3 في المائة التي حققها الإنسان البشري، حيث تم اختبار LipNet على لقطات فيديو سجلت خصيصًا واستخدمت متطوعين يتحدثون جملًا رسمية.

بينما تم على سبيل المثال اختبار برنامج DeepMind على لقطات فيديو أكثر صعوبة بكثير، والتي احتوت على الاختزال الطبيعي ومحادثات مرتجلة من برامج بي بي سي السياسية.

وتضمنت مقاطع الفيديو التي تم تدريب برنامج DeepMind عليها على 118 ألف جملة مختلفة و17500 كلمة فريدة من نوعها، بالمقارنة مع قاعدة بيانات مقاطع الفيديو المستخدمة في اختبار برنامج LipNet والتي تتكون من 51 كلمة فريدة.
الجريدة الرسمية