هل سيتيح لنا الذكاء الاصطناعي التحدث الى سيارتنا و اجهزتنا بسهولة في المستقبل القريب؟

سيارة ذكية اعتمد على الذكاء الاصطناعي
هل سيتيح لنا الذكاء الاصطناعي التحدث الى سيارتنا و اجهزتنا بسهولة في المستقبل القريب؟

ماذا لو استطعنا بفضل الذكاء الاصطناعي التحدث مع أجهزتنا و سياراتنا و منازلنا بنفس السهولة التي نتحدث بها مع أصدقائنا؟

كما هو معروف فـ المحادثة هي أساس التواصل البشري ، و هي الوسيلة التي تكشف ما بداخل رؤوسنا و قلوبنا. و بالتأكيد فالصوت هو الوسيلة الأساسية للتواصل مع الآخرين – و بشكل متزايد ، فهو الوسيلة التي نرغب بأن نتعامل بها مع الآلات من حولنا أيضاً.

بفضل التقدم في التعرف على الكلام ، من خلال  الذكاء الاصطناعي Artificial Intelligence (AI)  و الشبكات العصبية و قوة معالجة البيانات، فقد أصبح بإمكاننا الاستفادة من إمكانيات أجهزتنا ببساطة عن طريق التحدث.

و بالفعل يعيش المساعدون الافتراضيون Virtual assistants الذين يمكّنون هذه التفاعلات داخل جميع أنواع المنتجات ، من ساعات اليد و السماعات الذكية، إلى أفران الميكروويف و النظارات.

و نحن الآن ندخل عصراً جديداً للحوسبة الصوتية voice computing ، و هي -في الوقت الراهن- تتيح الفرص و الخبرات التي كانت تبدو ممكنة -فقط- في أفلام الخيال العلمي.

و لكن هناك مشكلة: تعتبر المحادثة هي مشكلة صعبة للغاية بالنسبة لإتقان الخوارزميات.

نظرة على المشهد الحالي

تتيح تقنية الذكاء الاصطناعي اليوم للآلات قيادة السيارات ، و التنبؤ بأسعار الأسهم ، و إدارة الخدمات اللوجستية على مستوى العالم ،

و البحث عن علاج للسرطان ، و إنشاء قوائم تشغيل متطورة ، و هزيمة الأبطال في لعبة الشطرنج. و مع ذلك

فإن معظم الذكاء الاصطناعي يكافح من أجل إجراء محادثة بسيطة ، مثل تلك التي ستجريها مع أحد الجيران على باب منزلك.

و واحدة من أحدث الجهود ، مثل جوجل دوبلكس Google Duplex، تغلق الفجوة. و لكن فن المحادثة البشرية ،

و هي مهمة بسيطة للغاية، و التي يمكن للأطفال الصغار القيام بها ، يمكن أن تكون صعبة بشكل جنوني حتى بالنسبة للآلات المعقدة للغاية.

و هذا هو أحد الأسباب التي تجعل الكثير منا، يشعر بالحزن في المنزل مع عشرات أجهزة التحكم عن بعد،

المربكة، و التي لا يعرف سوى شخص واحد -عادة مراهق- كيفية تشغيليها.

و لكن هذا يتغير بسرعة. فالمساعدون الافتراضيون في طريقهم لأن يصبحوا في كل مكان.

وفقاً لـ eMarketer ، يستخدم ما يقرب من 40٪ من مستخدمي الإنترنت بالفعل مساعدين صوتيين مثل Google Assistant و Alexa و Siri و Bixby و Cortana. و مع مرور كل شهر ، يصبح الذكاء الاصطناعي للمحادثة أكثر ذكاءً،

و أقل تقييداً بسبب حالات استخدام محددة - مما يعني، أنه ليس فقط أن معظم الأسر قد تتاجر قريباً في وحدات التحكم العديدة هذه (المساعدون الصوتيون)، و لكن أيضاً أن هؤلاء المساعدين الصوتيين سيصبحون أكثر تشابهاً مع الإنسان ، و أكثر بداهةً و فائدة.

فمن روبوتات الدردشة لخدمة العملاء إلى المساعدين الصوتيين الذين يسمحون للمستهلكين بالوصول إلى خدمات الأعمال التجارية من خلال مكبر صوت ذكي ، يعد الذكاء الاصطناعي القائم على الصوت جزءاً من الروتين اليومي لملايين الأشخاص. و سيزداد الطلب على هذا النوع من التكنولوجيا في كل قطاع و مكان في الحياة و عليه فإنه من المتوقع أن ينمو السوق العالمي لـ الذكاء الاصطناعي للمحادثة بمعدل نمو سنوي مركب compound annual growth rate ، يزيد قليلاً عن 30٪ بين عامي 2019 و 2024 ، و ذلك وفقاً لـ MarketsandMarkets  .

لقد كان انفجار حالات استخدام الذكاء الاصطناعي للمحادثات مذهلاً – و أنا متفائل (الحديث هنا لكاتب المقال Ashwin Ram المدير الفني لـ الذكاء الاصطناعي ، الرئيس التنفيذي للتكنلوجيا في غوغل كلاود Google Cloud) بأن الصناعة ستواصل تقديمها للجديد، بينما نحرز تقدماً بشأن التحديات الأساسية للمحادثة. و تتوقع غارتنر (*) (https://www.gartner.com/en/documents/3947357/market-guide-for-virtual-customer-assistants) أنه "بحلول عام 2021 ، سيتم التعامل -تقريباً- مع واحد من كل ستة تفاعلات لخدمة العملاء على مستوى العالم من خلال الذكاء الاصطناعي. و نتوقع أن 40٪ من تطبيقات chatbot / المساعد الافتراضي التي تم إطلاقها في 2018 سيتم التخلي عنها بحلول عام 2020 ".

(*) شركة غارتنر Gartner، Inc ، المعروفة رسمياً باسم Gartner ، هي شركة أبحاث واستشارات عالمية تقدم المعلومات والنصائح والأدوات للقادة في مجال تكنولوجيا المعلومات والمالية والموارد البشرية وخدمة العملاء والدعم والاتصالات والقانون والامتثال والتسويق والمبيعات وسلسلة التوريد المهام.

و  من المرجح أن يتم التخلي عن العديد من التطبيقات بسرعة مقابل التحسينات التي لا تزال بحاجة إلى أن تحقق - مما يثير سؤالين واضحين: 

-        كيف تعمل تقنيات المحادثة هذه؟ 

-        و كيف يتم تحسينها؟

الاستماع سهل.. أما الفهم فصعب.

المحادثة هي الطبيعة الثانية للبشر ، و لكن المحادث التي يقوم بها  الذكاء الاصطناعي صعبة للغاية على الأجهزة. و لكن لماذا هذا؟ 

دعنا نفكك ما يحدث عندما تشارك (أنت) في محادثة.

1-     أولا ، أنت تستمع.

تقوم بمعالجة الموجات الصوتية ، و تصفية ضجيج الخلفية و الأصوات الأخرى ، و تقوم بتعويض لهجة المتحدث، و تقوم بعدها بتحويل هذه الإشارة الصوتية إلى سلسلة من الكلمات. و بالنسبة إلى الأجهزة ، تسمى هذه المرحلة التعرف على الكلام أو تحويل الكلام إلى نص.

2-     بعد ذلك ، أنت تفهم.

و يتضمن هذا تصحيح الكلمات غير الصحيحة و كذلك الفرز من خلال الأسماء المختصرة و الكلمات غير المعروفة. على سبيل المثال ، كلمة "بنك" لها معان مختلفة، عند الصيد أو القيادة أو الرماية أو التعامل مع الأموال. و هذا ما يسمى الفهم الدلالي semantic understanding. و بالنسبة لآلات الذكاء الاصطناعي، فهذه الخطوة هي التي تبدأ عندها المصاعب.

3-     أنت تفكر في السياق context.

و هذا يشمل سياق المحادثة (ما قيل سابقاً في هذه المحادثة) ، و السياق الشخصي (علاقتك مع المتحدث) ، و السياق الظرفي situational context  (ما يحدث حيث تتحدث) ، و السياق العالمي (ما يحدث على نطاق عالمي أكثر).

على سبيل المثال ، قد يسألك أحدهم: كيف يبدو الطقس في يوم غائم ، و لكن ما يريد حقاً معرفته هو ما إذا كان عليه إحضار مظلة عند الخروج أو إلغاء رحلة التزلج التي كان يخطط لها في عطلة نهاية الأسبوع.

و هذا ما يسمى بفهم اللغة الطبيعية ، أو NLU natural language understanding. لا تزال آلات الذكاء الاصطناعي بشكل عام تصارع في هذه المرحلة ، لذا غالباً ما تفشل في فهم المعنى الكامن و الهدف و الغرض من الكلام.

4-     بعد الكلام يبدأ الفهم ،

تحتاج إلى تحديد نوع الرسالة التي توفي بشروط السؤال. يُسمى هذا "توليد الاستجابة" response generation، و يتأثر بنفس الفروق الدقيقة التي شهدناها من قبل ، مثل هوية المتحدث و الحالة التي يحدث فيها تبادل الكلام.

و ربما طلب بسيط مثل "هل تأخذ أمريكان إكسبريس؟" قد تتم معالجتها بـ "لا". و يمكن أن يكون هذا مفيد ، و لكنه ليس مفيداً جدًا.

و لو أخذنا الإجابة البشرية فستكون: "لا ، لكننا نأخذ فيزا" فهي استجابة بشرية أكثر طبيعية. و  للقيام بذلك ، تحتاج إلى فهم القصد الأساسي للمتحدث (في هذه الحالة ، قصده الدفع ببطاقة ائتمان) و الاستجابة بطريقة ترضي القصد ، و ليس فقط التفسير الحرفي للكلمات. و نظراً لأن NLU أمر صعب ، فمن الصعب أيضاً خلق استجابة مناسبة ذات صلة بقصد المتحدث و غرضه.

5-     تحتاج الآن إلى تحديد التعبير الخاص للرسالة ،

أو الكلمات الفعلية التي ستستخدمها للرد. و هذا ما يسمى بـ توليد اللغة الطبيعية ، أو natural language generation NLG.

و عادةً ما تقوم آلات الذكاء الاصطناعي بذلك باستخدام ردود مقولبة templated responses نموذجية ، و التي تبدو غير طبيعية بالنسبة للبشر.

و بالفعل يعد اختيار الكلمات المناسبة للاستخدام عملية صعبة ، حتى بالنسبة للبشر ، لأنها تعتمد على السياق (انظر الخطوة 3) و تخضع لسوء التفسير (انظر الخطوة 2).

6-     و أخيراً ، تحتاج إلى قول هذه الكلمات بصوت واضح و مسموع.

و هذا ما يسمى تركيب الكلام speech synthesis، أو تحويل النص إلى كلام. و هذه الخطوة ، مثل الخطوة الأولى ، بسيطة نسبياً بالنسبة لآلات الذكاء الاصطناعي؛ و لكن كل شيء بينهما لا يزال يمثل تحدياً كبيراً.

سد الفجوة

إن الأمر المدهش هو أننا نحن البشر نقوم بكل هذا في جزء من الثانية -على ما يبدو دون تفكير وغالباً حتى قبل أن يكمل الشخص الآخر دوره في الحديث- أثناء الانخراط في نفس الوقت في أنشطة معقدة أخرى مثل غسل الأطباق أو تغيير الحفاضات أو الرقص في ديسكو صاخب.

و كل هذا سيكون من الصعب جداً تصميمه في الكمبيوتر ، و معظم الأجهزة ليست قريبة من القيام به بشكل موثوق و ثابت إلا في المواقف المقيدة بشدة -على الرغم من الباحثين ، مثل فريق Google Brain الذي قدم مؤخراً شبكة Meena العصبية للمساعدة، و التي تقوم الشركات ببناء روبوتات دردشة أفضل ، و تقوم بسد الفجوة طوال الوقت.

و يعد هذا التقدم خبراً رائعاً ، حيث يضيف إلى الطرق العديدة التي يساعد بها الذكاء الاصطناعي للمحادثات الشركات بالفعل على:

• بناء واجهات تساعد بمحادثات شبيهة بالمحادثات البشرية

• تقديم خدمة عملاء أكثر شخصية و أكثر بداهة

• فهم الكيفية التي يشعر بها الناس تجاه المنتجات و العلامات التجارية

• استخدم نماذج التعلُّم الآلي لتسجيل التأثير المتصور للتعليق على المحادثة

• إضافة دعم متعدد اللغات لخدمة المزيد من الناس حول العالم

و تتوفر هذه الحلول كواجهات برمجة تطبيقات ، مما يعني أن التقنية قد تم تجميعها بطريقة يمكنك استخدامها ببساطة دون الحاجة إلى فهم كيفية عمل الخوارزميات.

و في نفس الوقت يمكن للكتل الأساسية للذكاء الاصطناعي للمحادثات (المحادثات المعتمدة على الذكاء الاصطناعي)، أن تحسن العديد من المهام خارج المكتب أيضاً.

و سيكون التعرف على الصوت و المحادثة في الوقت الحقيقي عبر مجموعة متنوعة من الأجهزة جزءاً أساسياً من المنزل الذكي (سمارت هوم) smart home، و يستخدم في كل شيء من التحكم في درجة الحرارة إلى إنشاء التقويم إلى الشراء عبر الإنترنت ، بالإضافة إلى السيارات الذكية smart cars، و تسوق التجزئة ، و العديد من السيناريوهات الأخرى.

و في النهاية فنحن في طريقنا إلى إيجاد حلول أقرب بكثير إلى ما نحتاج إليه. فقد خطا مجتمع الذكاء الاصطناعي خطوات هائلة بالفعل ،

و أنا متفائل أننا سنحقق تقدماً أكبر في السنوات القليلة القادمة. و عندما يتعلق الأمر بالذكاء الاصطناعي للمحادثة على مستوى الإنسان ،

فلنواصل المناقشة - فهناك الكثير من الأشياء المثيرة للحديث عنها!


المصادر


الوسوم



المؤلف

هدفنا إغناء المحتوى العربي لأن القارئ العربي يستحق المعلومة الصحيحة والمفيدة، و التي تنشر الآن في أهم المواقع العالمية ،


التعليقات

    • الأن
إشترك الآن

احصل على أحدث المواضيع و تواصل و اترك تأثير.

تسجيل الدخول مع فيسبوك تسجيل الدخول مع جوجل