مايكروسوفت تقدم نموذج لغويًا صغيرًا يحلل الصور
ما هو نموذج اللغة الصغيرة Phi-3-Vision؟
أطلقت شركة مايكروسوفت نموذج لغة صغير متعدد الوسائط يسمى Phi-3-Vision، والذي يمثل إضافة جديدة لعائلة نماذج Phi-3. على عكس سابقاتها التي تركز على النص فقط، فإن Phi-3-Vision مجهز بقدرات متعددة الوسائط ويمكنه تحليل الصور وفهمها. مع حجمه البالغ 4.2 مليار معلمة، تم تصميم Phi-3-Vision خصيصًا للأجهزة المحمولة ويتميز بأداء ممتاز في مهام الاستدلال البصري العام.
الميزات الرئيسية لـ Phi-3-Vision
يتميز Phi-3-Vision بالعديد من الميزات الرئيسية، منها:
- تحليل الصور واستيعابها: يمكن للمستخدمين طرح أسئلة على Phi-3-Vision حول الصور أو الرسوم البيانية، وسيجيب نموذج اللغة الصغيرة بإجابات دقيقة.
- ليس نموذج توليد صور: على الرغم من براعته في تحليل الصور وفهمها، إلا أن Phi-3-Vision ليس أداة لتوليد الصور مثل DALL-E أو Stable Diffusion.
- مُصمم للأجهزة المحمولة: تم تصميم Phi-3-Vision خصيصًا للأجهزة المحمولة ذات الموارد المحدودة، مما يجعله مناسبًا لمجموعة واسعة من التطبيقات.
أهمية النماذج اللغوية الصغيرة
يمثل Phi-3-Vision جزءًا من اتجاه متزايد في تطوير الذكاء الاصطناعي حيث تكتسب النماذج اللغوية الصغيرة شعبية متزايدة. تتطلب هذه النماذج طاقة معالجة أقل وذاكرة أقل، مما يجعلها خيارًا مثاليًا للأجهزة المحمولة والبيئات الأخرى ذات الموارد المحدودة. أدى الطلب المتزايد على خدمات الذكاء الاصطناعي الفعالة من حيث التكلفة والحوسبة إلى انتشار النماذج الصغيرة مثل Phi-3، والتي توفر مزايا الذكاء الاصطناعي على الأجهزة دون استهلاك ذاكرة كبير.
أثبتت مايكروسوفت نجاحها في هذا النهج، حيث أفادت التقارير أن نموذجها Orca-Math يتفوق على المنافسين الأكبر حجمًا في حل المسائل الرياضية. توفر مايكروسوفت حاليًا Phi-3-Vision للمعاينة، بينما يمكن الوصول إلى بقية عائلة نماذج Phi-3 للغة الصغيرة من خلال مكتبة نماذج Azure.
تم نشر هذا المقال بواسطة تطبيق عاجل
التطبيق الأول لمتابعة الأخبار العاجلة في العالم العربي
اضغط لتحميل التطبيق الآن مجاناً