نقلاً عن موقع إنسايد ساينس Inside Science (داخل العلم) :
عندما يرن هاتفك النقّال فمن المحتمل جداً -و دون أن تنظر إلى شاشته- أن تعرف هوية الشخص في الطرف الآخر من المكالمة قبل أن ينتهي من كلمة " مرحباً" , بالتأكيد ستعرف أنها والدتك أو زوجتك. بالإضافة لذلك , و بالتأكيد ستعرف فيما إذا كانت سعيدة أو حزينة, غاضبة أو قلقة.
و كما هو معلوم يمكن للإنسان أن يتعرف بشكل طبيعي على الأشخاص الآخرين من خلال أصواتهم. فقد بحثت دراسة جديدة نشرت في مجلة الجمعية الصوتية الأمريكية
The Journal of the Acoustical Society of Americaعن كيفية قدرة البشر على القيام بذلك بشكل دقيق (من خلال الكشف عن تغيير المتحدث البشري human talker change detection (TCD) لنطق الكلمة بطرق مختلفة و ذلك من خلال نموذج سلوكي يشير فيه المستمعون إلى لحظة إدراك تغيير المتحدث لنطقه). و ربما تساعد النتائج الباحثين في تصميم برامج أكثر كفاءة للتعرف على الأصوات في المستقبل.
تعقيد الكلام
يؤكد تايلر بيراشيوني Tyler Perrachione -عالم الأعصاب واللغوي من جامعة بوسطن Boston University و هو من غير المشاركين في الدراسة- : "إنها مشكلة جنونية لنظامنا السمعي حتى يحلها – و ذلك لتحديد عدد الأصوات الموجودة ، وما هي ، وأين تتموضع".
و في الوقت الراهن ، يواجه Facebook صعوبة بسيطة في التعرف على الوجوه في الصور ، حتى وعندما يتم عرض الوجوه من زوايا مختلفة أو تحت إضاءة مختلفة. أما برنامج التعرف على الصوت – اليوم- فيقول بيراشيوني أنه لا يزال يعتبر أكثر محدودية بالمقارنة مع برامج التعرف على الوجوه ، وقد يكون ذلك مرتبطاً بعدم فهمنا لكيفية قدرة البشر على تحديد الأصوات.
ويشير نيراج شارما Neeraj Sharma ، وهو عالم نفسي من جامعة كارنيجي ميلون Carnegie Mellon في بيتسبيرغ والمؤلف الرئيسي للدراسة الأخيرة إلى حقيقة أننا: "نحن البشر لدينا نماذج مختلفة من المتحدثين للأفراد المختلفين"..."فعندما تستمع إلى محادثة ، يمكنك التبديل بين النماذج المختلفة في عقلك ، حتى تتمكن من فهم كل متحدث بشكل أفضل."
بالإضافة إلى ذلك يطور الناس نماذج المتحدثين في أدمغتهم لأنهم يتعرضون لأصوات مختلفة ، مع الأخذ بعين الاعتبار الاختلافات الدقيقة في ميزات مثل الإيقاع والجَرْس الموسيقي لكل صوت. و كذلك من خلال التكيف والتبديل بشكل طبيعي بين النماذج المختلفة للمتحدثين استنادً ًإلى من يتحدث ، فيتعلم الناس كيفية تحديد متكلمين مختلفين وفهمهم فغي نفس الوقت.
و يضيف شارما أنه "في الوقت الحالي ، لا تركز أنظمة التعرف على الصوت على جانب المتحدث - بل تستخدم نموذج المتكلم نفسه لتحليل كل شيء" ، "وعلى سبيل المثال ، عندما تتحدث إلى اليكسا Alexa ، فإنها تستخدم نفس نموذج المتكلم لتحليل حديثي مقابل حديثك".
و على سبيل المثال , لنفترض أنك تتكلم الإنكليزية بلهجة ألاباميّة (ألاباما ولاية في جنوب شرق أمريكي إلى الغرب من جورجيا) غليظة - قد تعتقد اليكسا أنك تقول " قصب السكر cane " عندما تحاول أن تقول "لا تستطيع can’t ".
وكنتيجة أولية لما سبق يقول شارما: "إذا استطعنا أن نفهم كيف يستخدم البشر النماذج المعتمدة على المتحدثين ، فعندئذٍ ربما يمكننا تعليم النظام الآلي كيفية القيام بذلك".
استمع و قل "متى When"
في الدراسة الجديدة ، صمم شارما وزملاؤه تجربة استمعت فيها مجموعة من المتطوعين (البشر) إلى مقاطع صوتية من صوتين متشابهين يتحدثان بالتبادل ، وطُلب منهم (من المتطوعين) تحديد اللحظة -بدقة- التي يتم الانتقال فيها من أحد المتكلمين إلى المتكلم الآخر.
فقد سمح هذا الإجراء للباحثين باستكشاف العلاقة بين بعض الخصائص السمعية وزمن التفاعل ومعدل الإنذار الخاطئ للمتطوعين. و من خلال ذلك بدأ الباحثون في فك شيفرة ما يستشهد به المستمع (المتطوع) للإشارة إلى تغيير المتحدث.
و يصرح بيراشيوني قائلاً: أنه " ليس لدينا حالياً ، الكثير من التجارب المختلفة التي تسمح لنا بدراسة هوية المتحدث أو التعرف على الصوت ، لذلك يعتبر -في الواقع- أن تصميم التجربة هذا ذكي للغاية".
و عندما أجرى الباحثون الاختبار نفسه لعدة أنواع مختلفة من البرامج الحديثة للتعرف على الأصوات ، بما في ذلك أحد البرامج المتاحة تجارياً التي طورتها شركة IBM ، وجدوا أن المتطوعين (البشريين) كانوا ينجزون (يعطون نتائج) -بشكل دائم- أفضل بكثير من كل البرامج المختبرة ، و ذلك ما كان متوقعاً.
و يقول شارما أنهم يخططون للنظر إلى نشاط دماغ الناس الذين يستمعون إلى أصوات مختلفة من خلال استخدام كهربية الدماغ electroencephalography ، أو الرسم الكهربائي للدماغ electroencephalogram (EEG) ، وهي طريقة غير موسَّعَة لرصد أنشطة الدماغ. و يُردِف قائلاً: "قد يساعدنا ذلك إلى مزيد من التحليل للكيفية التي يستجيب بها الدماغ عندما يتغير المتحدث".
المصدرالمصدر