كشفت تقارير تقنية، عن سعي جوجل لإدخال ميزة تحليل الملفات الصوتية داخل تطبيقGemini على نظام أندرويد، في خطوة قد تعزز من تفاعلية التطبيق وتوسع قدراته في معالجة أنواع متعددة من الوسائط، بما في ذلك المقاطع الصوتية المسجلة.

في النسخة التجريبية الأخيرة من تطبيق Gemini، والتي تحمل الإصدار 16.30.59sa.arm64، أضيفت ميزة تسمح للمستخدمين برفع ملفات صوتية ضمن المحادثة، ورغم أن هذه الميزة لم تفعل رسميًا بعد إلا أن وجودها داخل واجهة التطبيق يشير إلى أنها قيد التطوير.

وبعد رفع المستخدم للملف يظهر له خيار يفهم منه أن الذكاء الاصطناعي سيحاول التفاعل مع محتوى الملف، إلا أن الاستجابة لا تزال غير دقيقة أو غائبة تمامًا مما يدل على أن المعالجة الخلفية للصوت لم تكتمل بعد.

الميزة الجديدة ليست معزولة عن سياق جهود جوجل الأوسع في مجال الذكاء الاصطناعي، إذ أن واجهة برمجة التطبيقات الخاصة بـ Gemini تدعم بالفعل تحليل الصوت في بيئة الويب، وتشمل قدرات متعددة مثل استخراج النصوص من الملفات الصوتية، وتحديد التوقيتات الدقيقة داخل المقاطع، بالإضافة إلى دعم تنسيقات مثل MP3 وWAV وFLAC، وهذا يعزز التوقعات بأن التطبيق على أندرويد سيتبنى قريبًا قدرات مشابهة، مما يتيح استخدام ملفات صوتية حقيقية كنقطة انطلاق للمحادثة دون الحاجة إلى تفريغها مسبقًا.

رغم ظهور واجهة رفع الملفات، فإن التطبيق لم يقدم بعد أي وظائف حقيقية لمعالجة أو تفسير ما تحتويه المقاطع الصوتية، بل في بعض الحالات يتجاهلها تمامًا أو يقدم ردودًا مفبركة لا تمت بصلة للمحتوى، مما يدل على أن البنية التحتية لهذه الميزة لم تفعل بعد، وأن ما هو ظاهر الآن لا يتعدى كونه اختبارًا داخليًا أو رمزًا تمهيديًا أُضيف إلى الواجهة قبل الإطلاق الرسمي.

ومنذ إطلاقه أظهر تطبيق Gemini مرونة في التعامل مع الصور والنصوص، لكن غياب دعم الصوت ظل يمثل نقطة ضعف مقارنة بتطبيقات أخرى للذكاء الاصطناعي.

ويبدو أن جوجل تعي هذه الفجوة، وتسعى الآن لإغلاقها عبر توسيع نطاق الوسائط المدعومة داخل التطبيق، وإدراج الصوت سيمنح المستخدمين وسيلة أكثر طبيعية للتفاعل خاصة في السيناريوهات التي يصعب فيها الكتابة أو تكون المعلومات الصوتية أكثر تعبيرًا من النصوص المكتوبة.