ماذا لو استطعنا بفضل الذكاء الاصطناعي التحدث مع أجهزتنا و سياراتنا و منازلنا بنفس السهولة التي نتحدث بها مع أصدقائنا؟
كما هو معروف فـ المحادثة هي أساس التواصل البشري ، و هي الوسيلة التي تكشف ما بداخل رؤوسنا و قلوبنا. و بالتأكيد فالصوت هو الوسيلة الأساسية للتواصل مع الآخرين – و بشكل متزايد ، فهو الوسيلة التي نرغب بأن نتعامل بها مع الآلات من حولنا أيضاً.
بفضل التقدم في التعرف على الكلام ، من خلال الذكاء الاصطناعي Artificial Intelligence (AI) و الشبكات العصبية و قوة معالجة البيانات، فقد أصبح بإمكاننا الاستفادة من إمكانيات أجهزتنا ببساطة عن طريق التحدث.
و بالفعل يعيش المساعدون الافتراضيون Virtual assistants الذين يمكّنون هذه التفاعلات داخل جميع أنواع المنتجات ، من ساعات اليد و السماعات الذكية، إلى أفران الميكروويف و النظارات.
و نحن الآن ندخل عصراً جديداً للحوسبة الصوتية voice computing ، و هي -في الوقت الراهن- تتيح الفرص و الخبرات التي كانت تبدو ممكنة -فقط- في أفلام الخيال العلمي.
و لكن هناك مشكلة: تعتبر المحادثة هي مشكلة صعبة للغاية بالنسبة لإتقان الخوارزميات.
نظرة على المشهد الحالي
تتيح تقنية الذكاء الاصطناعي اليوم للآلات قيادة السيارات ، و التنبؤ بأسعار الأسهم ، و إدارة الخدمات اللوجستية على مستوى العالم ،
و البحث عن علاج للسرطان ، و إنشاء قوائم تشغيل متطورة ، و هزيمة الأبطال في لعبة الشطرنج. و مع ذلك
فإن معظم الذكاء الاصطناعي يكافح من أجل إجراء محادثة بسيطة ، مثل تلك التي ستجريها مع أحد الجيران على باب منزلك.
و واحدة من أحدث الجهود ، مثل جوجل دوبلكس Google Duplex، تغلق الفجوة. و لكن فن المحادثة البشرية ،
و هي مهمة بسيطة للغاية، و التي يمكن للأطفال الصغار القيام بها ، يمكن أن تكون صعبة بشكل جنوني حتى بالنسبة للآلات المعقدة للغاية.
و هذا هو أحد الأسباب التي تجعل الكثير منا، يشعر بالحزن في المنزل مع عشرات أجهزة التحكم عن بعد،
المربكة، و التي لا يعرف سوى شخص واحد -عادة مراهق- كيفية تشغيليها.
و لكن هذا يتغير بسرعة. فالمساعدون الافتراضيون في طريقهم لأن يصبحوا في كل مكان.
وفقاً لـ eMarketer ، يستخدم ما يقرب من 40٪ من مستخدمي الإنترنت بالفعل مساعدين صوتيين مثل Google Assistant و Alexa و Siri و Bixby و Cortana. و مع مرور كل شهر ، يصبح الذكاء الاصطناعي للمحادثة أكثر ذكاءً،
و أقل تقييداً بسبب حالات استخدام محددة - مما يعني، أنه ليس فقط أن معظم الأسر قد تتاجر قريباً في وحدات التحكم العديدة هذه (المساعدون الصوتيون)، و لكن أيضاً أن هؤلاء المساعدين الصوتيين سيصبحون أكثر تشابهاً مع الإنسان ، و أكثر بداهةً و فائدة.
فمن روبوتات الدردشة لخدمة العملاء إلى المساعدين الصوتيين الذين يسمحون للمستهلكين بالوصول إلى خدمات الأعمال التجارية من خلال مكبر صوت ذكي ، يعد الذكاء الاصطناعي القائم على الصوت جزءاً من الروتين اليومي لملايين الأشخاص. و سيزداد الطلب على هذا النوع من التكنولوجيا في كل قطاع و مكان في الحياة و عليه فإنه من المتوقع أن ينمو السوق العالمي لـ الذكاء الاصطناعي للمحادثة بمعدل نمو سنوي مركب compound annual growth rate ، يزيد قليلاً عن 30٪ بين عامي 2019 و 2024 ، و ذلك وفقاً لـ MarketsandMarkets .
لقد كان انفجار حالات استخدام الذكاء الاصطناعي للمحادثات مذهلاً – و أنا متفائل (الحديث هنا لكاتب المقال Ashwin Ram المدير الفني لـ الذكاء الاصطناعي ، الرئيس التنفيذي للتكنلوجيا في غوغل كلاود Google Cloud) بأن الصناعة ستواصل تقديمها للجديد، بينما نحرز تقدماً بشأن التحديات الأساسية للمحادثة. و تتوقع غارتنر (*) (https://www.gartner.com/en/documents/3947357/market-guide-for-virtual-customer-assistants) أنه "بحلول عام 2021 ، سيتم التعامل -تقريباً- مع واحد من كل ستة تفاعلات لخدمة العملاء على مستوى العالم من خلال الذكاء الاصطناعي. و نتوقع أن 40٪ من تطبيقات chatbot / المساعد الافتراضي التي تم إطلاقها في 2018 سيتم التخلي عنها بحلول عام 2020 ".
(*) شركة غارتنر Gartner، Inc ، المعروفة رسمياً باسم Gartner ، هي شركة أبحاث واستشارات عالمية تقدم المعلومات والنصائح والأدوات للقادة في مجال تكنولوجيا المعلومات والمالية والموارد البشرية وخدمة العملاء والدعم والاتصالات والقانون والامتثال والتسويق والمبيعات وسلسلة التوريد المهام.
و من المرجح أن يتم التخلي عن العديد من التطبيقات بسرعة مقابل التحسينات التي لا تزال بحاجة إلى أن تحقق - مما يثير سؤالين واضحين:
- كيف تعمل تقنيات المحادثة هذه؟
- و كيف يتم تحسينها؟
الاستماع سهل.. أما الفهم فصعب.
المحادثة هي الطبيعة الثانية للبشر ، و لكن المحادث التي يقوم بها الذكاء الاصطناعي صعبة للغاية على الأجهزة. و لكن لماذا هذا؟
دعنا نفكك ما يحدث عندما تشارك (أنت) في محادثة.
1- أولا ، أنت تستمع.
تقوم بمعالجة الموجات الصوتية ، و تصفية ضجيج الخلفية و الأصوات الأخرى ، و تقوم بتعويض لهجة المتحدث، و تقوم بعدها بتحويل هذه الإشارة الصوتية إلى سلسلة من الكلمات. و بالنسبة إلى الأجهزة ، تسمى هذه المرحلة التعرف على الكلام أو تحويل الكلام إلى نص.
2- بعد ذلك ، أنت تفهم.
و يتضمن هذا تصحيح الكلمات غير الصحيحة و كذلك الفرز من خلال الأسماء المختصرة و الكلمات غير المعروفة. على سبيل المثال ، كلمة "بنك" لها معان مختلفة، عند الصيد أو القيادة أو الرماية أو التعامل مع الأموال. و هذا ما يسمى الفهم الدلالي semantic understanding. و بالنسبة لآلات الذكاء الاصطناعي، فهذه الخطوة هي التي تبدأ عندها المصاعب.
3- أنت تفكر في السياق context.
و هذا يشمل سياق المحادثة (ما قيل سابقاً في هذه المحادثة) ، و السياق الشخصي (علاقتك مع المتحدث) ، و السياق الظرفي situational context (ما يحدث حيث تتحدث) ، و السياق العالمي (ما يحدث على نطاق عالمي أكثر).
على سبيل المثال ، قد يسألك أحدهم: كيف يبدو الطقس في يوم غائم ، و لكن ما يريد حقاً معرفته هو ما إذا كان عليه إحضار مظلة عند الخروج أو إلغاء رحلة التزلج التي كان يخطط لها في عطلة نهاية الأسبوع.
و هذا ما يسمى بفهم اللغة الطبيعية ، أو NLU natural language understanding. لا تزال آلات الذكاء الاصطناعي بشكل عام تصارع في هذه المرحلة ، لذا غالباً ما تفشل في فهم المعنى الكامن و الهدف و الغرض من الكلام.
4- بعد الكلام يبدأ الفهم ،
تحتاج إلى تحديد نوع الرسالة التي توفي بشروط السؤال. يُسمى هذا "توليد الاستجابة" response generation، و يتأثر بنفس الفروق الدقيقة التي شهدناها من قبل ، مثل هوية المتحدث و الحالة التي يحدث فيها تبادل الكلام.
و ربما طلب بسيط مثل "هل تأخذ أمريكان إكسبريس؟" قد تتم معالجتها بـ "لا". و يمكن أن يكون هذا مفيد ، و لكنه ليس مفيداً جدًا.
و لو أخذنا الإجابة البشرية فستكون: "لا ، لكننا نأخذ فيزا" فهي استجابة بشرية أكثر طبيعية. و للقيام بذلك ، تحتاج إلى فهم القصد الأساسي للمتحدث (في هذه الحالة ، قصده الدفع ببطاقة ائتمان) و الاستجابة بطريقة ترضي القصد ، و ليس فقط التفسير الحرفي للكلمات. و نظراً لأن NLU أمر صعب ، فمن الصعب أيضاً خلق استجابة مناسبة ذات صلة بقصد المتحدث و غرضه.
5- تحتاج الآن إلى تحديد التعبير الخاص للرسالة ،
أو الكلمات الفعلية التي ستستخدمها للرد. و هذا ما يسمى بـ توليد اللغة الطبيعية ، أو natural language generation NLG.
و عادةً ما تقوم آلات الذكاء الاصطناعي بذلك باستخدام ردود مقولبة templated responses نموذجية ، و التي تبدو غير طبيعية بالنسبة للبشر.
و بالفعل يعد اختيار الكلمات المناسبة للاستخدام عملية صعبة ، حتى بالنسبة للبشر ، لأنها تعتمد على السياق (انظر الخطوة 3) و تخضع لسوء التفسير (انظر الخطوة 2).
6- و أخيراً ، تحتاج إلى قول هذه الكلمات بصوت واضح و مسموع.
و هذا ما يسمى تركيب الكلام speech synthesis، أو تحويل النص إلى كلام. و هذه الخطوة ، مثل الخطوة الأولى ، بسيطة نسبياً بالنسبة لآلات الذكاء الاصطناعي؛ و لكن كل شيء بينهما لا يزال يمثل تحدياً كبيراً.
سد الفجوة
إن الأمر المدهش هو أننا نحن البشر نقوم بكل هذا في جزء من الثانية -على ما يبدو دون تفكير وغالباً حتى قبل أن يكمل الشخص الآخر دوره في الحديث- أثناء الانخراط في نفس الوقت في أنشطة معقدة أخرى مثل غسل الأطباق أو تغيير الحفاضات أو الرقص في ديسكو صاخب.
و كل هذا سيكون من الصعب جداً تصميمه في الكمبيوتر ، و معظم الأجهزة ليست قريبة من القيام به بشكل موثوق و ثابت إلا في المواقف المقيدة بشدة -على الرغم من الباحثين ، مثل فريق Google Brain الذي قدم مؤخراً شبكة Meena العصبية للمساعدة، و التي تقوم الشركات ببناء روبوتات دردشة أفضل ، و تقوم بسد الفجوة طوال الوقت.
و يعد هذا التقدم خبراً رائعاً ، حيث يضيف إلى الطرق العديدة التي يساعد بها الذكاء الاصطناعي للمحادثات الشركات بالفعل على:
• بناء واجهات تساعد بمحادثات شبيهة بالمحادثات البشرية
• تقديم خدمة عملاء أكثر شخصية و أكثر بداهة
• فهم الكيفية التي يشعر بها الناس تجاه المنتجات و العلامات التجارية
• استخدم نماذج التعلُّم الآلي لتسجيل التأثير المتصور للتعليق على المحادثة
• إضافة دعم متعدد اللغات لخدمة المزيد من الناس حول العالم
و تتوفر هذه الحلول كواجهات برمجة تطبيقات ، مما يعني أن التقنية قد تم تجميعها بطريقة يمكنك استخدامها ببساطة دون الحاجة إلى فهم كيفية عمل الخوارزميات.
و في نفس الوقت يمكن للكتل الأساسية للذكاء الاصطناعي للمحادثات (المحادثات المعتمدة على الذكاء الاصطناعي)، أن تحسن العديد من المهام خارج المكتب أيضاً.
و سيكون التعرف على الصوت و المحادثة في الوقت الحقيقي عبر مجموعة متنوعة من الأجهزة جزءاً أساسياً من المنزل الذكي (سمارت هوم) smart home، و يستخدم في كل شيء من التحكم في درجة الحرارة إلى إنشاء التقويم إلى الشراء عبر الإنترنت ، بالإضافة إلى السيارات الذكية smart cars، و تسوق التجزئة ، و العديد من السيناريوهات الأخرى.
و في النهاية فنحن في طريقنا إلى إيجاد حلول أقرب بكثير إلى ما نحتاج إليه. فقد خطا مجتمع الذكاء الاصطناعي خطوات هائلة بالفعل ،
و أنا متفائل أننا سنحقق تقدماً أكبر في السنوات القليلة القادمة. و عندما يتعلق الأمر بالذكاء الاصطناعي للمحادثة على مستوى الإنسان ،
فلنواصل المناقشة - فهناك الكثير من الأشياء المثيرة للحديث عنها!