جوجل يقرأ لغة الشفاه أفضل من البشر

أكد خبراء فى مجال علم اللغات أن برنامج جوجل للذكاء الاصطناعى قادر على قراءة لغة الشفاه أفضل من البشر. فبرنامج جوجل الذى طوره فريق Google DeepMind بالتعاون علماء من جامعة أكسفورد يفوق بحسب الخبراء قدرة البشر على قراءة لغة الشفاه بنسبة تصل إلى 35٪.

وأشاروا إلى أن هذا البرنامج تم تطويره من خلال تدريبه على قراءة لغة الشفاه فى 6 برامج تلفزيونية عرضت بين عامى 2010 و2015، حيث احتوت هذه البرامج على حوالى 5000 آلاف ساعة من مقاطع الفيديو أى ما يقارب (118 ألف جملة)، وبعدها تم اختبار خوارزمياته على تحليل المعلومات ولغة الشفاه فى البرامج التلفزيونية التى عرضت بين شهرى مارس وسبتمبر 2016.

 

وبعد استخدام 200 مقطع فيديو تم انتقاؤها عشوائيا لمقارنة قدرة البرنامج المذكور بقدرات خبراء قراءة لغات الشفاه، تبين للخبراء أن البشر قادرون على قراءة 12.4% فقط من حركات الشفاه بعد لفظ الكلمات، أما برنامج جوجل فقادر على قراءة 46.8 % منها.

 

نظام جوجل للذكاء الصنعي يمكنه قراءة الشفاه أفضل من البشر

استخدمت شركة جوجل الذكاء الصنعي لإنشاء أدق برنامج لقراءة الشفاه موجود في الوقت الحالي، وجرى بناء هذا البرنامج بالتعاون بين الباحثين في قسم DeepMind للذكاء الصنعي في شركة جوجل مع جامعة أكسفورد للذكاء الصنعي.

وعمل العلماء على استخدام 5 آلاف ساعة من البرامج التلفزيونية التابعة لهيئة الإذاعة البريطانية البي بي سي من أجل تدريب الشبكة العصبية على إضافة تعليق توضيحي للقطات الفيديو بدقة تصل إلى 46.8 في المئة.

ورغم أن هذه النسبة قد لا تثير الإعجاب لا سيما بالمقارنة مع معدلات دقة الذكاء الصنعي عند التدوين الصوتي، إلا ان هذه النسبة تعتبر إنجازاً كبيراً عند مقارنتها بنسبة 12.4 في المئة من الكلمات التي يمكن للعنصر البشري المحترفي في قراءة الشفاه معرفتها.

وتأتي هذه الأبحاث بعد قيام مجموعة أخرى من جماعة أكسفورد بالعمل على أبحاث مماثلة منشورة في وقت سابق من هذا الشهر، حيث تمكن أولئك العلماء من إنشاء برنامج لقراءة الشفاه يدعى LipNet باستخدام تقنيات ذات صلة.

وحقق برنامج LipNet دقة بلغت 93.4 في المئة خلال الاختبارات، بالمقارنة مع دقة 52.3 في المئة التي حققها الإنسان البشري، حيث تم اختبار LipNet على لقطات فيديو سجلت خصيصاً واستخدمت متطوعين يتحدثون جملاً رسمية.

بينما تم على سبيل المثال اختبار برنامج DeepMind على لقطات فيديو أكثر صعوبة بكثير، والتي احتوت على الاختزال الطبيعي ومحادثات مرتجلة من برامج بي بي سي السياسية.

وتضمنت مقاطع الفيديو التي تم تدريب برنامج DeepMind عليها على 118 ألف جملة مختلفة و17500 كلمة فريدة من نوعها، بالمقارنة مع قاعدة بيانات مقاطع الفيديو المستخدمة في اختبار برنامج LipNet والتي تتكون من 51 كلمة فريدة.

 

ويقترح الباحثون العاملون في DeepMind أن بإمكان البرنامج إمتلاك مجموعة من التطبيقات، بما في ذلك مساعدة الناس ضعاف السمع على فهم المحادثات.

ويمكن استخدامه أيضاً لإضافة تعليق توضيحي للأفلام الصامتة أو للسماح للأشخاص بالتحكم بالمساعدين الرقميين مثل سيري أو أليكسا عن طريق ترديد بعض الكلمات للكاميرا.



loader
 
قـلوبنا معك غـزة