متى تتحدث الحواسيب معنا؟
تأمل هذا الحوار البسيط بين رفيقين:
_ صباح الخير.
_ بل مساء الخير.
_ وماذا أفعل إذا كانت واجباتي كثيرة؟
_ لم تكن كثيرة أمس... لكنك لا تحب الكرة.
_ أين ستلعبون الكرة؟
_ لقد عاد ناصر من السفر.
_ أخيرا سأتخلص من الكتب الملقاة على مكتبي.
_ الحقنا إلى هناك إذا.
ماذا تفهم من هذا الحوار؟ ربما الكثير.. لكن بالتأكيد ليس كما يفهم منه صاحباه الذين يتحاوران.
لماذا؟
هذا سؤال مهم جداً. الإنسان عندما يتحدث فإنه يفترض نوعا من المعلومات لا يحتاج إلى ذكرها
لأن الطرف الآخر يعرفها. لذلك فهو عندما يتحدث مع صديق قريب أمام شخص آخر لا يجد صعوبة
في الحديث معه دون أن يفهم الآخر ولا يحتاج إلى لغة تشفيرية.. لأن الوضع الطبيعي أن هذا الشخص
لن يفهم. لنتأمل الحوار السابق مع قليل من الملاحظات:
_ صباح الخير.
_ بل مساء الخير. (لماذا تأخرت كثيرا؟)
_ وماذا أفعل إذا كانت واجباتي كثيرة؟ (كنت أحل الواجبات المدرسية وكانت كثيرة فلم أستطع القدوم)
_ لم تكن كثيرة أمس... لكنك لا تحب الكرة. (أنت تكذب لتتهرب من لعب الكرة لأنك لا تحبها)
_ أين ستلعبون الكرة؟ (لم أكن أعلم أنكم ستلعبون الكرة وكيف ستلعبون دون مكان للعب؟)
_ لقد عاد ناصر من السفر. (سنلعب أمام بيت ناصر فقد عاد من السفر)
_ أخيرا سأتخلص من الكتب الملقاة على مكتبي. (لقد أعطاني ناصر كتبا قبل سفره وهي تزعجني وأنا ذاهب الآن لإحضارها لأعطيه إياها)
_ الحقنا إلى هناك إذا. (لا أستطيع انتظارك أكثر من هذا. سأذهب إلى ناصر)
والآن؟ هل لاحظت أن أكثر من ثلاثة أرباع الحديث كان مكتوما ولم يفصح عنه إطلاقاً؟
هذه مشكلة تواجه الباحثين في مجال الذكاء الإصطناعي AI الذين يحاولون أن يصلوا إلى
برمجيات تمكن الحاسب من الحديث مع الناس كأنه منهم... فهو يجب أن يكون معلومات كافية
عن الأشخاص الذين يتحدث معهم حتى يستطيع أن يفهم... ربما كان هذا الحوار صعبا جدا...
لكن حتى مع الكلمات البسيطة جداً مثل آه و لا، وغيرها فإنه يحتاج إلى معلومات تمكنه من تحديد
معانيها والمقصود منها...
هناك أيضا مشاكل أخرى في فهم الحاسوب للأحاديث والحوارات التي يسمعها...
عندما نحلل ملفا صوتيا فيه كلمة نطقها شخص ما فإننا نستطيع تقسيم المعلومات التي نبحث عنها إلى
ثلاثة أقسام أساسية... الصوت والحرف والإنفعال...
أما الصوت فهو ثابت بالنسبة للشخص الواحد _نسبيا_ أي أنك تستطيع التعرف على قائل هذه الكلمة
من مطابقة هذه العوامل مع العوامل المناضرة في كلمة أخرى قالها ذات الشخص، وهي عوامل
تبقى ثابتة رغم تغير انفعال الشخص... ومن الأمثلة على هذه العوامل مدى نعومة الصوت وتردد
الصوت...
وأما الحرف فهو ثابت _نسبيا أيضا_ للحرف الواحد بغض النظر عن قائله وانفعاله... والعوامل
العائدة إلى الحرف هي التي تستخدم في فصل الكلام عن الصوت وتحويله إلى نص من حروف.
آخر العوامل هي عوامل الإنفعال ومنها شدة الصوت... وبها نتعرف على إنفعال قائل الكلمة...
ماذا بعد ذلك؟ ماذا بعد أن حللنا الصوت إلى نص، وعرفنا قائله واستخرجنا معلومات عنه،
وحددنا انفعاله؟ هل تستطيع أن تخمن؟
هناك عملية ضخمة جدا تنتظر هذا النص الناتج... إنها المنطق الحاسوبي...
على الحاسب أن يحلل الجملة إعرابيا ويفصل بين معلوماتها ويجعل كل معلومة عبارة يحللها
ويستخرج معلوماته عن ما فيها من أشخاص وأشياء وحتى أفعال وأحوال، ثم يقوم بتخزين
ما يستنتجه منها وربطه بما عنده من معلومات واستنتاج المطلوب والوصول إلى الهدف ثم
صياغته من جديد بشكل مفهوم...
وهذه هي المهمة التي يعكف عليها الباحثون... لأن المشاكل السابقة حول الصوت يمكن حلها
ببساطة باستخدام نص من البداية فنتحدث إلى الحاسوب بالنصوص مباشرة... ومشاكل الفهم
يمكن التعامل معها بتبسيط الجمل قدر الإمكان وجعل الحاسوب يسأل عما لا يفهمه...
ويبقى هذه المهمة التي إن تمت حصلنا على قوة جبارة مفكرة بأسلوب لا يقبل الخطأ ولا الشك...
إسلوب يقرن المعلومة باحتمالية صحتها وخطئها كنسبة مئوية... بحيث يستفيد من كل معلومة حتى
غير المؤكدة...
عندما يحدثك شخص فإنك تصدقه بقدر ما عودك عليه من صدق... وتحكم على علمه أيضا فإذا
كان صادقا لكنه لا يعرف شيئا عن الموضوع الذي يتحدث عنه فإنه لم يكذب لكنه أعطاك نتيجة
خاطئة... يمكن للحاسب أن يقرر بعد هذا احتمالية صحة هذه العبارة...
من هذا المنطلق أقول إن ذلك وحده سينتج قوة مفكرة لم تشهدها العصور...
والآن... هل تستطيع الحواسيب أن تتحدث؟ متى؟
أظن أن هذا نظريا كاف... لكن هناك مشاكل تطبيقية في التفاصيل...
الكلام سهل جداً...
'>
أخوكم
ساكن...