داراتٌ إلكترونيةٌ بشكل رأس إنسان

قام فريق الذكاء الصنعي العام (AGI) التابع لشركة أمازون (Amazon) هذا الأسبوع بالكشف عن نموذج ثوريٍّ جديد لتحويل النصوص الكتابية إلى سماعية (TTS) يُسمى BASE TTS ويَعِد بنقل توليد الخطابات المسموعة إلى مستوياتٍ جديدة وغير مسبوقة، حيث تم تدريب نموذج BASE TTS باستخدام 100,000 ساعةٍ من البيانات الكلامية بعدّة لغاتٍ وفق قرابة مليار معيارٍ ما يجعله أكبرَ نموذج TTS على الإطلاق.

غير أن ذلك لا يتعلق بالحجم وحده، بل تسعى أمازون من خلال تطويرها BASE TTS لإنشاء نموذج بقدراتٍ ذاتية التطور، ما يتيح له معالجة محادثاتٍ لغويةٍ معقدة بشكلٍ بديهيٍّ دون الاعتماد على مدخلاته التدريبيّة وحدَها، إذ يشير الباحثون إلى أن هذا النموذج قادرٌ على إنجاز مهامَّ لم تتم برمجته لأدائها. وإذا كانت هذه الإمكانات مُولدةً ذاتياً بحق، فقد يكون ذلك أحد أهم الاكتشافات في مجال الذكاء الصنعيّ حتى الآن.

وتشير التحليلات الأولية إلى تخطي نموذج BASE TTS مرحلةً بالغة الأهمية، ما يتيح له بلوغ مستوياتٍ جديدة من البراعة والتعبير الذاتي والوعي بمكنون السياق، وقد يوفر ركيزةً رئيسيةً لتطوير نموذج ذكاء صنعيٍّ شاملٍ يتمتع بقدراتٍ إدراكيةٍ خاصة.

هل يمكن اعتبار نماذج اللغة الكبيرة نماذج ذكاء صنعيّ؟

أثارت نماذج اللغة الكبيرة (LLMs) خلال السنوات القليلة الماضية -كنموذج GPT-4 الخاص بشركة أوبن إيه آي (OpenAI) وGemini الخاص بشركة جوجل- الحماسَ بشكلٍ متجدّد حول قدرة تقنيات الذكاء الصنعي على إظهار إمكاناتٍ جديدة لتوليد نصوصٍ كتابيةٍ تشبه نظيرتها البشرية بشكلٍ لافت.

ومع ذلك، لا يمكن اعتبار هذه النماذج أنظمة ذكاء صنعيّ توفر إمكانية تطوير روبوتاتٍ ذات ذكاء شاملٍ أو قدراتٍ إدراكية، وإنما هيَ عبارةٌ عن خوارزمياتٍ بالغة التعقيد لتمييز الأنماط تستخدم كمّاً ضخماً من المدخلات النصية، ما يتيح لها وضع توقعاتٍ دقيقةٍ حول الكلمات والجمل السياقية الوشيكة، وهيَ بذلك أقرب لمقترحات أداة التنبؤ النصيّ في الأجهزة الذكية منها لنماذج الذكاء الصنعي العام -كأداتي HAL 9000 وSkynet.

وقد لاحظ الباحثون قدرة هذه النماذج على بلوغ مراحلِ تطوّرٍ أكثرَ تقدماً ممّا كان متوقعاً بعد بلوغها مستوياتٍ معينةً بإظهارها -وبشكلٍ مفاجئ- قدراتٍ متنوّعةً كالتلخيص والترجمة على الرغم من عدم تدريبها على القيام بذلك، وتُسمّى هذه بـ “القدرات ذاتية التطور” التي تنشأ بشكلٍ غير مباشرٍ استجابةً للتمثيلات الإحصائية الأساسيّة فيها.

وتفترض أمازون (AMZN) بتطويرها لنموذج BASE TTS أن تدريب برمجيّة ذكاء صنعيٍّ لتحويل النصوص الكتابية إلى خطاب سماعيٍّ باستخدام قدرٍ كافٍ من البيانات الكلامية قد يوفر قدراتٍ ذاتية التطوّر مشابهةً تتمثل بإتقان الأنماط الصوتية للتعبير الكلامي والشعريّ إلى جانب إضفاء أحاسيسَ ودقةٍ لفظيةٍ بتوالي مراحل تطوير النموذج.

تحليل BASE TTS: تصميم النموذج وتدريبه العمليّ

آلية عمل نموذج BASE TTS

يجمع نموذج BASE TTS بين عدة ابتكاراتٍ تتيح قابلية التوسع بشكلٍ غير مسبوق، ويتعامل هذا النموذج مع تحويل النصوص إلى خطاب سماعيٍّ عن طريق توقّع التمثيلات الكلامية المستقلة بدلاً من الصيغ الموجية، مستخدماً -بشكلٍ خاص- آلية تقطيع جديدةً لتحويل البيانات الصوتية الأولية إلى صيغ كلاميةٍ مضغوطةٍ تحتوي على خصائص صوتيةٍ أساسيةٍ.

ويُذكر هنا استلهامُ هذه الإستراتيجية من طريقة تعامل نماذج اللغة الكبيرة مع النصوص كمدخلاتٍ منفصلةٍ، ويتيح التعامل مع الرموز الكلامية بشكلٍ مباشر لهذا النموذج تجنّب تعقيدات تركيب النبرة الكلامية، كما تعزّز هذه الرموز الكلامية القابلة للإرسال إمكانات توليد الأصوات بكفاءة وبشكلٍ فوريّ.

جديرٌ بالذكر أيضاً أن هذا النموذج يُشبه نماذج اللغة الكبيرة الأساسيّة القائمة على المحوّلات التوليدية، حيث يتلقى نموذج BASE TTS خلال تدريبه نصوصاً مقترنةً بمدخلاتٍ كلاميةٍ مستهدفةٍ، ما يعزّز قدرته على ربط لغة الإدخال بتمثيلاتٍ خطابيةٍ متوافقة.

بعدها، تقوم خوارزميّة فك التشفير الخفيفة بإعادة تركيب صيغ موجيةٍ طبيعيةٍ عالية الدقة باستخدام الرموز الكلامية التي يقوم النموذج بتوقّعها، ويسهّل هذا التصميم التركيبيّ توسيع آلية عمل النموذج مع الحفاظ على جودة الصوت.

هل يمكن اعتبار القدرات ذاتية التطور تقدماً ثورياً أم أنها مجرّد اتجاه عابر؟

هل يُبدي نموذج BASE TTS إمكاناتٍ إدراكيةً معزّزةً للتعامل مع السياقات الكلامية؟ قام الباحثون بتقييم إصداراتٍ مختلفةٍ منه باستخدام معيار “القدرات ذاتية التطور”، والتي شملت صيغاً دلاليةً ونحويةً معقدةً كالمفارقات واستخدام كلماتٍ من لغاتٍ أخرى ضمن السياق وإدخال علامات الترقيم غير المألوفة والعبارات الناقصة التي تحتاج إلى عباراتٍ أخرى ليكتمل معناها.

اقرؤوا أيضاً: ميتا تؤجل إطلاق نموذج الذكاء الصنعيّ للتوليد الخطابيّ الخاص بها، وتُقرّ بأنه يوفر أداةً رائعةً للمحتالين

وقد خلص الباحثون إلى أن الإصدارات متوسطة وكبيرة الحجم تفوّقت على نظيراتها الأقلّ حجماً بشكلٍ كبير، حيث نجحت في التعبير عن مدخلاتٍ صعبةٍ تستلزم الأسماء المركّبة والمشاعر والهمس والتناوب اللغويّ والجمل المُربكة. وكانت الفوارق بين إصداراتهما كبيرةً، ما يشير إلى تمتعها بإمكاناتٍ لغويةٍ ذاتية التطوّر نتيجةً لتطوير معايير النموذج وتوسيعها كلاً على حدة.

ومع ذلك، تعثرت كافة النماذج في حالاتٍ عديدة، ويرى مشككون أن المجموعة التي تم اختيارها للتقييم قد ألقت الضوء على ميزات نموذج BASE TTS بشكلٍ مبالغ فيه مع التقليل من شأن عيوبه، ومن المرجّح أن حقيقة الأمر هيَ أن النموذج لديه ميزاتٌ وعيوبٌ في الوقت نفسه. وفي كافة الأحوال، تشير إمكانات النموذج الجديد إلى أن نظم تحويل النصوص الكتابية إلى خطاب سماعيّ ما تزال تحظى بفرصٍ لنموّها؛ فحتى وإن كانت هذه القدرات “ذاتية التطور”، فهذا لا يعني أن هذا المزيج المكوّن من رموز وبياناتٍ أصبحَ فجأةً يحظى بقدراتٍ إدراكيةٍ بمجرّد بلوغ حجم معيّن؛ وهنالك احتمالٌ ضعيفٌ بأن ينجَحَ هذا النموذج في نهاية المطاف نظراً لأن الباحثين لم يحدّدوا بعد محفّزات الإدراك -أو وَهمَ الإدراك- ويبدو أن إمكانات النجاح تبدو ضعيفةً للغاية.

التأثيرات العملية للنموذج: حقبة جديدة من برمجيّات تحويل النصوص إلى خطاب تعبيريّ متنوّع

بغضّ النظر عن كون BASE TTS نموذج ذكاء صنعيٍّ شامل، فمن المرجّح أنه يعتبر نموذج AI ثورياً ذا تأثيراتٍ محتملةٍ واعدة؛ فأولاً، قد يعزّز هذا النموذج -بشكلٍ كبير- من جودة ومرونة أدوات تسهيل الاستخدام وبرمجيات قراءة النصوص على الشاشة والمساعدين الرقميين وأنظمة الصوت والإعلان وبرمجيّات تحويل النصوص إلى خطاباتٍ سماعية، وقد يكون لهذا النموذج تأثيرٌ إيجابيٌّ على تطبيقات السرد القصصيّ بإتاحة إمكانية التعبير عن الأحاسيس الداخلية أثناء القراءة.

ولعلّ الأهمَّ من ذلك هو بلوغ تقنيات الخطاب مرحلةً تتيح لها توظيف إمكانات التوسّع والوصول إلى البيانات لتحقيق قفزاتٍ كبيرة في السلوكيات ذاتية التطور، وهو ما ينطبق على إنجازات الذكاء الصنعيّ التي نجحت بلفت الاهتمام لنماذج اللغة الكبيرة مؤخراً.

وعليه، قد يبشّر نموذج BASE TTS بحقبةٍ جديدة تصبح فيها الملفات الصوتية المصنوعة أكثرَ مرونةً وحيويةً لتوفر قنواتٍ عالية الاستجابة لنقل المعلومات والتعبير الإبداعيّ والتواصل بين البشر والآلة، ويتوقف نجاح هذا النموذج على تحسين تصميمه والصيغ الخطابية المستخدمة فيه وكفاءة خوارزميّات فك التشفير وبروتوكولات التدريب، وهي جوانبُ بالغة الأهمية في أبحاث TTS المستقبلية.

التبعات الأخلاقية لنماذج الكلام الصنعيّ التعبيري

رغم أن تطوير نماذج تحويل النصوص إلى خطاب سماعيٍّ -مثل BASE TTS- تحاكي أصوات البشر ونبراتهم الصوتية يَعِد بالكثير، إلا أنه يُعتبر خطيراً من منظورٍ أخلاقيّ، فبالرغم من أن الواجهات الصوتية قد تعزّز سهولة الوصول والابتكار، إلا أن مخاطر إساءة استخدامها تتزايد بشكلٍ كبير.

وبعد التفكير ملياً، قرّرت أمازون عدم إتاحة نموذج BASE TTS كبرمجية مفتوحة المصدر للحيلولة دون استخدامه للقيام بأنشطةٍ إجراميةٍ كأنشطة التزوير والاحتيال وانتحال الشخصية وحملات التضليل. ومع ذلك، تدرك الشركة أن الابتكارات الأخلاقية والمتاحة للجميع بالغة الأهمية للمجتمع ككلّ.

اقرؤوا أيضاً: كتاب الفاتيكان حول أخلاقيات الذكاء الصنعي: توجيه ثورة AI

وقامت شركة أمازون بتشكيل مجلس تقييم داخليٍّ للخروج بتوجيهاتٍ حول تطوير النموذج واستخداماته تتمحور حول الشفافية والمساءلة ورصد حالات التحيّز وحماية الأقليات، ويعكف باحثون على قياس حالات عدم توازن التمثيلات البيانية وتطوير خوارزميّاتٍ لتعزيز أنماط الخطاب الخاص بالأقليات.

ويتابع فريق الذكاء الصنعيّ العام بحثه عن آلياتٍ تتيح القيام بالاستنساخ الصوتيّ لإضفاء الطابع الشخصيّ لأغراضٍ نافعةٍ مع الحيلولة دون استخدام المحاكاة الصوتية لأغراض مسيئةٍ، كما أوصى الفريق بإجراء عمليات تدقيقٍ خارجيةٍ قبل إطلاق عروضٍ تجاريةٍ تستخدم الإمكانات الفائقة التي أظهرَها نموذج BASE TTS.

وبالتحوّل للتسويق، ما يزال النموذج قيد البحث التجريبيّ، ولا تُوجد أية خطةٍ فوريةٍ لتضمينه في خدماتٍ أخرى، وتستبشر أمازون خيراً بتطوير واجهاتها الصوتية بشكلٍ مسؤول، ومن المرجّح أن تتأسّس من هذا النموذج ارتباطاتٌ مستقبليةٌ بتقنية المساعد الافتراضيّ Alexa وعروض منصة الحوسبة السحابية (AWS) الخاصّة بشركة أمازون، بانتظار أن تحصل على التقنيات على تقييماتٍ موسّعة من قبل المستخدمين.