"سکویڈ گیم" دیکھنے کے بعد مطمئن نہیں؟ اپنا اختتام خود بنائیں۔


"ڈیون پارٹ تھری" کا انتظار نہیں کر سکتے؟ اپنا اپنا ورژن بنائیں۔

اس سے پہلے، مسلسل کردار کی ظاہری شکل کو برقرار رکھنے کے لیے اہم وقت درکار تھا۔ اب، صرف ایک اسکرین شاٹ کے ساتھ، AI فلمیں بنانا شروع کر سکتا ہے۔
یہ Conch AI کے "سبجیکٹ ریفرنس" فیچر کی بدولت ہے، جو نئے S2V-01 ماڈل کے ذریعے تقویت یافتہ ہے۔ یہ اپ لوڈ کردہ تصاویر میں موضوع کی درست شناخت کرتا ہے اور اسے تخلیق کردہ ویڈیوز میں کردار کے طور پر سیٹ کرتا ہے۔ باقی آسان ہے: بنیادی ہدایات کے ساتھ آزادانہ طور پر تخلیق کریں۔


"موضوع کا حوالہ" خصوصیت کے فوائد
بہت سی کمپنیاں "سبجیکٹ ریفرنس" کی خصوصیات تیار کر رہی ہیں، لیکن سبھی استحکام اور ہم آہنگی کے چیلنجوں سے نمٹ نہیں سکتے، خاص طور پر حرکت میں مستقل مزاجی کو برقرار رکھتے ہوئے۔
جبکہ دوسرے جدوجہد کر سکتے ہیں، Conch AI بہترین ہے۔ صرف ایک تصویر کے ساتھ، یہ کردار کے خصائص کو درست طریقے سے سمجھتا ہے، ان کی بطور موضوع شناخت کرتا ہے، اور انہیں مختلف مناظر میں رکھتا ہے۔
ایک لمحہ اسپائیڈر مین دنیا کو بچا رہا ہے، اگلے لمحے وہ موٹرسائیکل چلا رہا ہے۔


ڈریگن کی ماں، جسے "گیم آف تھرونز" میں ڈریگنوں کی تربیت کرنی چاہیے، اب ایک چھوٹے بھیڑیے کے ساتھ کھیل رہی ہے۔


"موضوع کے حوالے" میں پیش رفت تخلیقی آزادی اور وفاداری کے درمیان توازن حاصل کرنے میں مضمر ہے۔ یہ تخلیق کاروں کو ایک "عالمگیر اداکار" دینے کے مترادف ہے جس کی ظاہری شکل بگڑتی نہیں ہے لیکن قدرتی طور پر اعمال اور پوز کے ساتھ بدل جاتی ہے، ہدایت کار کی ضرورت کے مطابق کسی بھی منظر میں کوئی بھی عمل انجام دیتا ہے۔
نہ صرف ایک نئی خصوصیت، بلکہ ایک منفرد تکنیکی حل
اصل ٹیسٹ کا تجربہ ظاہر کرتا ہے کہ متن سے تصویر یا تصویر سے تصویر بنانے کے مقابلے میں مختلف تکنیکی چیلنجز اور تقاضوں کے ساتھ مضمون کا حوالہ ایک مختلف فنکشن ہے۔
روایتی تصویر سے ویڈیو نسل صرف جامد تصاویر کو متحرک کرتی ہے، بنیادی طور پر جزوی ترمیم کے ساتھ۔ مثال کے طور پر، سانگ ہائے کیو کے اس اسٹیل میں، تصویر سے ویڈیو صرف جامد تصویر کو ایک متحرک تصویر میں تبدیل کرتا ہے جس میں محدود رینج اور کوئی خاص حرکت نہیں ہوتی ہے۔


اسی تصویر کے ساتھ، "موضوع کا حوالہ" ٹیکسٹ پرامپٹس کی بنیاد پر ایک مکمل سیگمنٹ بنا سکتا ہے، جو چہرے کے مستحکم خدوخال کو برقرار رکھتے ہوئے آزادانہ نقل و حرکت کی اجازت دیتا ہے۔

ایک موضوع کے ساتھ ویڈیوز بنانے کے لیے فی الحال دو تکنیکی راستے ہیں۔ ایک LoRA ٹیکنالوجی پر مبنی ہے، جو پہلے سے تربیت یافتہ بڑے جنریٹو ماڈلز کو ٹھیک کرتی ہے۔ LoRA کو نئی ویڈیوز بنانے کے لیے اہم حساب کی ضرورت ہوتی ہے، صارفین کو ایک ہی موضوع کے متعدد زاویوں کو اپ لوڈ کرنے کی ضرورت ہوتی ہے، یہاں تک کہ معیار کو یقینی بنانے کے لیے ہر طبقہ کے لیے مختلف عناصر کی وضاحت کی جاتی ہے۔ یہ بہت سے ٹوکن بھی استعمال کرتا ہے اور اس کے لیے طویل انتظار کا وقت درکار ہوتا ہے۔
وسیع تکنیکی تحقیق کے بعد، MiniMax نے تصویری حوالہ کی بنیاد پر ایک راستے کا انتخاب کیا: تصاویر میں انتہائی درست بصری معلومات ہوتی ہیں، جو فزیکل شوٹنگ کی تخلیقی منطق کے مطابق ہوتی ہیں۔ اس راستے میں، تصویر میں مرکزی کردار پہچان کے لیے ماڈل کی اولین ترجیح ہے — اس کے بعد کے مناظر یا پلاٹ سے قطع نظر، موضوع کو مستقل رہنا چاہیے۔
دیگر بصری معلومات زیادہ کھلی اور متن کے اشارے کے ذریعے کنٹرول ہوتی ہیں۔ یہ نقطہ نظر "صحیح تولید + اعلی آزادی" کا ہدف حاصل کرتا ہے۔


اس ویڈیو میں ماڈل کو ڈریگن کوئین کی صرف ایک تصویر فراہم کی گئی۔ حتمی طور پر تیار کردہ ویڈیو نے کیمرے کی زبان اور پرامپٹ میں بیان کردہ بصری عناصر کو درست طریقے سے پیش کیا، جس سے ایک مضبوط سمجھ کا مظاہرہ کیا گیا۔
LoRA حل کے مقابلے میں، یہ تکنیکی نقطہ نظر صارفین کو اپ لوڈ کرنے کے لیے درکار مواد کی مقدار کو نمایاں طور پر کم کر دیتا ہے، جس سے درجنوں ویڈیو سیگمنٹس کو ایک تصویر میں تبدیل کر دیا جاتا ہے۔ انتظار کا وقت سیکنڈوں میں ماپا جاتا ہے، جو متن یا تصاویر بنانے میں لگنے والے وقت سے ملتا جلتا محسوس ہوتا ہے — تصویر سے ویڈیو کی درستگی کو متن سے ویڈیو کی آزادی کے ساتھ ملا کر۔
چینی مینوفیکچرنگ کی جھلکیاں، آپ کی متعدد ضروریات کو پورا کرنا
متعدد ضروریات ضرورت سے زیادہ مطالبہ نہیں ہیں۔ صرف بیک وقت درست اور مستقل کردار کی تصاویر اور آزادانہ نقل و حرکت حاصل کرنے سے ہی ماڈل تفریحی استعمال کے سادہ استعمال کو پیچھے چھوڑ سکتا ہے اور انڈسٹری ایپلی کیشنز میں اس کی وسیع قدر ہے۔
مثال کے طور پر، پروڈکٹ کے اشتہارات میں، ایک ماڈل کی تصویر صرف فوری الفاظ کو تبدیل کرکے مختلف پروڈکٹ ویڈیوز بنا سکتی ہے۔


اگر تصویر سے ویڈیو کے طریقے استعمال کر رہے ہیں، تو موجودہ مرکزی دھارے کا حل یہ ہے کہ پہلے اور آخری فریموں کو ترتیب دیا جائے، جس کا اثر موجودہ امیجز تک محدود ہے۔ اس میں مختلف زاویوں کو جمع کرنے اور پھر شاٹس کی ایک ترتیب کو مکمل کرنے کے لیے مواد کو ایک ساتھ سلائی کرنے کی بار بار کوششوں کی بھی ضرورت ہوتی ہے۔
ویڈیو تخلیق کے ورک فلو کو بہتر طریقے سے فٹ کرنے کے لیے مختلف ٹیکنالوجیز کی خصوصیات کو یکجا کرنا "موضوع کے حوالے" کا فائدہ ہے۔ مستقبل میں، مارکیٹنگ کے 80% سے زیادہ پیشہ ور افراد اپنے ہاتھ آزاد کرتے ہوئے، صرف کہانی اور پلاٹ کے تصور پر توجہ مرکوز کرتے ہوئے مختلف مراحل پر تخلیقی ٹولز استعمال کریں گے۔
Statista کے مطابق، 15 میں اشتہارات اور مارکیٹنگ میں تخلیقی AI مصنوعات کی مارکیٹ کا حجم 2021 بلین ڈالر سے تجاوز کر گیا ہے۔ 2028 تک، یہ تعداد 107.5 بلین ڈالر تک پہنچ جائے گی۔ پچھلے ورک فلو میں، خالص ٹیکسٹ ٹو ویڈیو میں بہت سارے بے قابو عوامل تھے، جو تخلیق کے ابتدائی مراحل کے لیے موزوں تھے۔ یورپی اور امریکی اشتہارات اور مارکیٹنگ کی صنعتوں میں، جنریٹو AI پہلے سے ہی بہت عام ہے، 52% ڈرافٹ اور منصوبہ بندی کے لیے استعمال کے کیسز اور 48% دماغی طوفان کے لیے۔
فی الحال، Hailuo AI سب سے پہلے کسی ایک کردار کے لیے ریفرنس کی صلاحیت کو کھولتا ہے۔ مستقبل میں، یہ متعدد کرداروں، اشیاء، مناظر، اور مزید تک پھیلے گا، تخلیقی صلاحیتوں کو مزید فروغ دے گا، جیسا کہ Hailuo کے نعرے نے تجویز کیا ہے، "ہر خیال ایک بلاک بسٹر ہے۔"
جب سے MiniMax نے اگست 2023 میں ویڈیو ماڈل جاری کیا ہے، اس نے بین الاقوامی سطح پر صارفین کی ایک بڑی تعداد کو مسلسل اپنی طرف متوجہ کیا ہے، جس میں تیار کردہ تصاویر کے معیار اور ہمواری سے لے کر مستقل مزاجی اور استحکام تک، بہت زیادہ مثبت تاثرات اور پیشہ ورانہ شناخت حاصل کی گئی ہے۔


تکنیکی مقابلے کے پچھلے سال میں، AI ویڈیو جنریشن فیلڈ کا مسابقتی منظر نامہ ابتدائی طور پر سامنے آیا ہے۔ سورا کے نفاذ نے ویڈیو بنانے کی صلاحیت کو ظاہر کیا، جس سے بڑی ٹیک کمپنیوں کو اس شعبے میں بھاری سرمایہ کاری کرنے پر آمادہ کیا گیا۔
2024 کے آخر میں سورا کے پروڈکٹ کے تاخیر سے لانچ ہونے اور اوسط صارف کے جائزوں کے ساتھ، یہ مارکیٹ کی توقعات کو پورا کرنے میں ناکام رہا، جس سے دوسرے کھلاڑیوں کو مارکیٹ پر قبضہ کرنے کا موقع ملا۔
اب، جیسا کہ تخلیقی ویڈیو دوسرے نصف میں داخل ہو رہی ہے، صرف تین کمپنیاں حقیقی معنوں میں تکنیکی طاقت اور ترقی کی صلاحیت کا مظاہرہ کر رہی ہیں: MiniMax کی Hailuo AI، Kuaishou کی Keling AI، اور ByteDance کی Jimeng AI۔
صرف تین سال قبل قائم ہونے والے ایک سٹارٹ اپ کے طور پر، MiniMax ایسی مصنوعات اور ٹیکنالوجی لے کر آیا ہے جو اپنے دبلے پتلے اسٹارٹ اپ سائز کے ساتھ اعلیٰ سطح پر مقابلہ کر سکتی ہیں۔ دسمبر 2 میں I01V-2023-Live امیج ٹو ویڈیو ماڈل سے لے کر نئے S2V-01 ماڈل تک، وہ پچھلی ویڈیو جنریشن کے چیلنجوں کو حل کر رہے ہیں۔
جیسے جیسے ٹیکنالوجی پختہ ہوتی جارہی ہے اور اطلاق کے منظرنامے پھیلتے جارہے ہیں، ویڈیو جنریشن AI مواد کی تخلیق، فلم پروڈکشن، مارکیٹنگ اور مواصلات میں ایک نئے انقلاب کو جنم دے گی۔ یہ کمپنیاں، جو چین کے ویڈیو جنریشن AI فیلڈ کی اعلیٰ ترین سطح کی نمائندگی کرتی ہیں، نہ صرف چینی مارکیٹ کی قیادت کر رہی ہیں بلکہ ان سے عالمی سطح پر بین الاقوامی جنات کے ساتھ مقابلہ کرنے کی بھی توقع ہے۔ دریں اثنا، تکنیکی جدت کو برقرار رکھتے ہوئے مصنوعات کے استحکام اور کنٹرول کو یقینی بنانا ان اداروں کے لیے ایک مسلسل چیلنج ہوگا۔
سے ماخذ ifan
دستبرداری: اوپر بیان کردہ معلومات علی بابا ڈاٹ کام سے آزادانہ طور پر ifanr.com کے ذریعہ فراہم کی گئی ہے۔ Cooig.com بیچنے والے اور مصنوعات کے معیار اور وشوسنییتا کے بارے میں کوئی نمائندگی اور ضمانت نہیں دیتا۔ Cooig.com مواد کے کاپی رائٹ سے متعلق خلاف ورزیوں کی کسی بھی ذمہ داری کو واضح طور پر مسترد کرتا ہے۔