نموذج تحويل النص إلى فيديو ا

إنشاء مقطع متحرك باستخدام نموذج تحويل النص إلى فيديو سورا من أوبن أيه آي، باستخدام لغة التلقين التالية:

امرأة أنيقة تمشي في أحد شوارع طوكيو المليئ بأضواء النيون المتوهجة الدافئة واللافتات المتحركة. ترتدي سترة جلدية سوداء، وفستانًا أحمر طويلًا، وحذاءً أسود، وتحمل حقيبة سوداء. إنها ترتدي نظارة شمسية وتضع أحمر شفاه. تمشي بثقة وهدوء. الشارع مبلل وعاكس، مما يخلق تأثير المرآة من الأضواء الملونة. يتجول حولها العديد من المشاة.

نموذج تحويل النص إلى فيديو هو نموذج تعلُّم آلي يستخدم وصفًا باللغة الطبيعية كمدخل لإنتاج فيديو ذي صلة بالنص المُدخل. ^[1] كان التقدم، المحرز خلال عشرينيات القرن الحادي والعشرين في توليد مقاطع فيديو عالية الجودة معتمدة على النصوص، مدفوعًا إلى حد كبير بتطوير نماذج انتشار الفيديو. ^[2]

مراجع

^ Artificial Intelligence Index Report 2023 (PDF) (Report). Stanford Institute for Human-Centered Artificial Intelligence. ص. 98. مؤرشف من الأصل (PDF) في 2025-02-26. Multiple high quality text-to-video models, AI systems that can generate video clips from prompted text, were released in 2022.
^ Melnik، Andrew؛ Ljubljanac، Michal؛ Lu، Cong؛ Yan، Qi؛ Ren، Weiming؛ Ritter، Helge (6 مايو 2024). "Video Diffusion Models: A Survey". arXiv:2405.03150 [cs.CV].

هذه بذرة مقالة بحاجة للتوسيع. فضلًا شارك في تحريرها.

[AIIR-1] Artificial Intelligence Index Report 2023 (PDF) (Report). Stanford Institute for Human-Centered Artificial Intelligence. ص. 98. مؤرشف من الأصل (PDF) في 2025-02-26. Multiple high quality text-to-video models, AI systems that can generate video clips from prompted text, were released in 2022.

[2] Melnik، Andrew؛ Ljubljanac، Michal؛ Lu، Cong؛ Yan، Qi؛ Ren، Weiming؛ Ritter، Helge (6 مايو 2024). "Video Diffusion Models: A Survey". arXiv:2405.03150 [cs.CV].

[1]

[2]