• لافتة

OpenAI Point E: قم بإنشاء سحابة نقطية ثلاثية الأبعاد من أشكال موجية معقدة في دقائق على وحدة معالجة رسومات واحدة

في مقال جديد Point-E: نظام لتوليد سحب نقطية ثلاثية الأبعاد من إشارات معقدة ، يقدم فريق بحث OpenAI Point E ، وهو نظام توليف شرطي لنصوص سحابة ثلاثية الأبعاد يستخدم نماذج الانتشار لإنشاء أشكال ثلاثية الأبعاد متنوعة ومعقدة مدفوعة بنص معقد يدل.في دقائق على وحدة معالجة رسومات واحدة.
حفز الأداء المذهل لنماذج إنشاء الصور الحديثة اليوم البحث في إنشاء كائنات نصية ثلاثية الأبعاد.ومع ذلك ، على عكس النماذج ثنائية الأبعاد ، التي يمكن أن تولد مخرجات في دقائق أو حتى ثوانٍ ، تتطلب نماذج إنشاء الكائنات عادةً عدة ساعات من عمل GPU لإنشاء عينة واحدة.
في مقال جديد Point-E: نظام لتوليد غيوم نقطية ثلاثية الأبعاد من إشارات معقدة ، يقدم فريق بحث OpenAI Point · E ، وهو نظام توليف شرطي نصي لسحب النقاط ثلاثية الأبعاد.يستخدم هذا الأسلوب الجديد نموذج الانتشار لإنشاء أشكال ثلاثية الأبعاد متنوعة ومعقدة من إشارات نصية معقدة في دقيقة أو دقيقتين فقط على وحدة معالجة رسومات واحدة.
يركز الفريق على التحدي المتمثل في تحويل النص إلى ثلاثي الأبعاد ، وهو أمر بالغ الأهمية لإضفاء الطابع الديمقراطي على إنشاء المحتوى ثلاثي الأبعاد لتطبيقات العالم الحقيقي التي تتراوح من الواقع الافتراضي والألعاب إلى التصميم الصناعي.تنقسم الطرق الحالية لتحويل النص إلى ثلاثي الأبعاد إلى فئتين ، لكل منهما عيوبه: 1) يمكن استخدام النماذج التوليدية لإنشاء عينات بكفاءة ، ولكن لا يمكن توسيع نطاقها بكفاءة لإشارات نصية متنوعة ومعقدة ؛2) نموذج صورة نصية مدرب مسبقًا للتعامل مع إشارات نصية معقدة ومتنوعة ، ولكن هذا النهج مكثف من الناحية الحسابية ويمكن للنموذج بسهولة أن يتعثر في الحدود الدنيا المحلية التي لا تتوافق مع كائنات ثلاثية الأبعاد ذات معنى أو متماسكة.
لذلك ، اكتشف الفريق نهجًا بديلًا يهدف إلى الجمع بين نقاط القوة في الطريقتين المذكورتين أعلاه ، وذلك باستخدام نموذج نشر نص إلى صورة تم تدريبه على مجموعة كبيرة من أزواج النص والصورة (مما يسمح له بالتعامل مع الإشارات المتنوعة والمعقدة) و نموذج نشر صورة ثلاثية الأبعاد تم تدريبه على مجموعة أصغر من أزواج الصور النصية.مجموعة بيانات زوج صورة ثلاثية الأبعاد.يقوم نموذج تحويل النص إلى صورة بتجربة صورة الإدخال أولاً لإنشاء تمثيل تركيبي واحد ، ويقوم نموذج الصورة إلى ثلاثية الأبعاد بإنشاء سحابة نقطية ثلاثية الأبعاد بناءً على الصورة المحددة.
تستند المكدس التوليدي للأمر على الأطر التوليدية المقترحة مؤخرًا لإنشاء صور مشروطة من النص (Sohl-Dickstein et al. ، 2015 ؛ Song & Ermon ، 2020b ؛ Ho et al. ، 2020).يستخدمون نموذج GLIDE مع 3 مليارات معلمة GLIDE (Nichol et al. ، 2021) ، تم ضبطها بدقة على النماذج ثلاثية الأبعاد المعروضة ، كنموذج تحويل النص إلى صورة ، ومجموعة من نماذج الانتشار التي تولد غيوم نقطة RGB مثلها. نموذج التحول.من الصور إلى الصورة.نماذج ثلاثية الأبعاد.
بينما استخدم العمل السابق معماريات ثلاثية الأبعاد لمعالجة السحب النقطية ، استخدم الباحثون نموذجًا بسيطًا يعتمد على محول الطاقة (Vaswani et al. ، 2017) لتحسين الكفاءة.في بنية نموذج الانتشار الخاصة بهم ، يتم تغذية الصور السحابية النقطية أولاً في نموذج ViT-L / 14 CLIP الذي تم تدريبه مسبقًا ثم يتم إدخال شبكات الإخراج في المحول كعلامات.
في دراستهم التجريبية ، قارن الفريق طريقة Point · E المقترحة مع نماذج ثلاثية الأبعاد أخرى على إشارات تسجيل النقاط من مجموعات بيانات COCO للكشف عن الأشياء والتجزئة والتوقيع.تؤكد النتائج أن Point · E قادرة على إنشاء أشكال ثلاثية الأبعاد متنوعة ومعقدة من إشارات نصية معقدة وتسريع وقت الاستدلال بمقدار واحد أو اثنين.يأمل الفريق أن يلهم عملهم مزيدًا من البحث في تركيب النص ثلاثي الأبعاد.
يتوفر نموذج الانتشار السحابي للنقطة المحددة مسبقًا وكود التقييم على GitHub الخاص بالمشروع.Document Point-E: يوجد نظام لإنشاء سحب نقطية ثلاثية الأبعاد من أدلة معقدة موجود على arXiv.
نحن نعلم أنك لا تريد أن تفوت أي خبر أو اكتشاف علمي.اشترك في النشرة الإخبارية الأسبوعية الشهيرة Synced Global AI لتلقي تحديثات أسبوعية للذكاء الاصطناعي.


الوقت ما بعد: 28 ديسمبر - 2022