نموذج اللغة الصغيرة Phi-3-vision من مايكروسوفت يقدم تحليل الصور إلى الأجهزة المحمولة
ما هو Phi-3-vision؟
طرحت مايكروسوفت أحدث إضافة إلى عائلة نماذج اللغات الصغيرة Phi-3 الخاصة بها: Phi-3-vision. وعلى عكس أشقائه، فإن Phi-3-vision ليس نموذجًا لغويًا كبيرًا يركز على النص فقط. إنه نموذج متعدد الوسائط يمكنه تحليل وفهم الصور أيضًا.
ميزات وإمكانيات Phi-3-vision
تم تصميم هذا النموذج القوي، الذي يتألف من 4.2 مليار معلمة، للأجهزة المحمولة. ويتميز بممتاز في مهام التفكير البصري العامة. يمكن للمستخدمين طرح أسئلة على Phi-3-vision حول الصور أو المخططات، وسوف يقدم إجابات ثاقبة ودقيقة.
على الرغم من أن Phi-3-vision ليس أداة لتوليد الصور مثل DALL-E أو Stable Diffusion، إلا أنه يتفوق في تحليل الصور وفهمها. إنه قادر على تمييز الأنماط والروابط المعقدة في الصور وتقديم رؤى قيمة. يوفر هذا الإمكانات لتطبيقات واسعة في مجموعة متنوعة من المجالات، بما في ذلك الرؤية الحاسوبية والمعالجة الطبية.
مكانة Phi-3-vision في عائلة نماذج Phi-3
يأتي إصدار Phi-3-vision بعد إصدار Phi-3-mini، وهو أصغر عضو في عائلة Phi-3 بـ 3.8 مليار معلمة. وتتضمن المجموعة الكاملة الآن Phi-3-mini و Phi-3-vision و Phi-3-small و Phi-3-medium.
يعكس التركيز المتزايد لشركة مايكروسوفت على النماذج الأصغر اتجاهًا في تطوير الذكاء الاصطناعي. تتطلب النماذج الأصغر طاقة معالجة وذاكرة أقل، مما يجعلها مثالية للأجهزة المحمولة والبيئات الأخرى ذات الموارد المحدودة. وقد أثبتت مايكروسوفت بالفعل نجاح هذا النهج من خلال نموذج Orca-Math الذي تفوق على المنافسين الأكبر حجمًا في حل المسائل الرياضية.
التوفر وإمكانية الوصول
يتوفر Phi-3-vision حاليًا للمعاينة. ويمكن الوصول إلى بقية عائلة Phi-3 (الصغيرة والصغيرة والمتوسطة) من خلال مكتبة نماذج Azure.
تم نشر هذا المقال بواسطة تطبيق عاجل
التطبيق الأول لمتابعة الأخبار العاجلة في العالم العربي
اضغط لتحميل التطبيق الآن مجاناً