آخر الفيديوهات!

أصدرت Apple نموذج ذكاء اصطناعي جديد يُدعى Depth Pro

 

أطلقت شركة أبل هذا العام مجموعة من نماذج الذكاء الاصطناعي مفتوحة المصدر، تتميز في الغالب بنماذج لغوية صغيرة مخصصة لمهام معينة. من بين هذه النماذج، هناك نموذج جديد يُعرف باسم "Depth Pro"، الذي يعد نموذج رؤية قادراً على إنشاء خرائط عمق من أي صورة. هذه التقنية تُعتبر مفيدة في مجالات مثل تصميم القوام ثلاثية الأبعاد والواقع المعزز وغيرها.


يدعي الباحثون القائمون على هذا المشروع أن الخرائط التي ينتجها هذا النموذج تفوق تلك المولّدة بواسطة الكاميرات المتعددة.


يُعتبر تقدير العمق عملية حيوية في النمذجة ثلاثية الأبعاد، فضلاً عن تطبيقات أخرى مثل الواقع المعزز والأنظمة الذاتية القيادة والروبوتات. يمكن للعين البشرية قياس عمق الأجسام بدقة رغم مراقبتها من زاوية واحدة، بينما الكاميرات تعاني من قيود تجعل الصور تبدو ثنائية الأبعاد، مما يفتقر إلى العمق.


تستخدم التقنيات التي تعتمد على الكاميرات المتعددة لتقدير العمق، ولكن عملية نمذجة هذه الكائنات غالبًا ما تكون معقدة وتحتاج إلى موارد كبيرة.


في ورقة بحثية بعنوان "Depth Pro: Sharp Monocular Metric Depth in Less Than a Second"، استعرضت أبل كيفية استخدام نموذجها القائم على الرؤية لإنشاء خرائط عمق من صور أحادية العين.


لتطوير هذا النموذج، اعتمد الباحثون على بنية Vision Transformer (Visit Transformer)، حيث تم تحديد دقة الإخراج بـ 384 × 384، بينما تم الاحتفاظ بدقة الإدخال والمعالجة عند 1536 × 1536، مما يمنح النموذج قدرة أفضل على استيعاب التفاصيل.


وفقًا لما ورد في الورقة البحثية المنشورة على منصة arXiv، يؤكد الباحثون أن النموذج قادر على إنتاج خرائط عمق دقيقة لأشياء معقدة بصريًا، مثل قفص أو قطة ذات فرو وشارب. ويستغرق النموذج دقيقة واحدة لتوليد الخرائط. بالإضافة إلى ذلك، تتوفر أوزان النموذج مفتوح المصدر حاليًا على GitHub، مما يمكّن المستخدمين من تشغيله باستخدام وحدة معالجة رسومية واحدة.



from موضوع جديد لك https://ift.tt/P2B3GtZ مدونة المحترف
صور المظاهر بواسطة fpm. يتم التشغيل بواسطة Blogger.