सोरा एआई की आश्चर्यजनक क्षमताओं की एक और झलक देता है

March 6, 2024 Modified date: March 6, 2024

वीडियो-आधारित उद्योगों को तुरंत लाभ होगा; अंततः, यह बड़ी समस्याओं को हल करने में मदद कर सकता है
ओपनएआई हाल ही में हम सभी को इसके नवीनतम जेनरेटर पर एक नज़र डाली ऐ सोरा की पेशकश, और यह आश्चर्यजनक था। सोरा केवल एक टेक्स्ट प्रॉम्प्ट के साथ एक मिनट लंबे वीडियो बना सकते हैं, लेकिन जो चीज़ इस तकनीक को इतना प्रभावशाली बनाती है, वह है इसकी भौतिकी को समझने और अनुकरण करने की क्षमता, यही कारण है कि ओपनएआई सोरा को ‘विश्व सिम्युलेटर’ के रूप में चित्रित करता है। कंपनी द्वारा जनता के लिए जारी किए गए कुछ वीडियो पर विश्वास करने के लिए उन्हें देखना होगा।
सोरा विभिन्न रिज़ॉल्यूशन और पहलू अनुपात वाले वीडियो में कई पात्रों, विशिष्ट प्रकार की गति और विषय और पृष्ठभूमि के सटीक विवरण के साथ जटिल दृश्य उत्पन्न कर सकता है।
ओपनएआई का कहना है कि वे एआई को गतिमान भौतिक दुनिया को समझना और उसका अनुकरण करना सिखा रहे हैं, जिसका लक्ष्य प्रशिक्षण मॉडल हैं जो लोगों को उन समस्याओं को हल करने में मदद करते हैं जिनके लिए वास्तविक दुनिया की बातचीत की आवश्यकता होती है।
“स्थैतिक प्रतिनिधित्व पर भरोसा करने वाले पारंपरिक एआई मॉडल के विपरीत, सोरा गतिशील सिमुलेशन पेश करता है। यह इसे पहले अप्राप्य विस्तार और यथार्थवाद के स्तर के साथ जटिल परिदृश्यों का अनुकरण करने की अनुमति देता है। परिदृश्यों को गतिशील रूप से मॉडल करने और कल्पना करने की क्षमता सोरा को कृत्रिम बुद्धिमत्ता में एक क्रांतिकारी प्रगति के रूप में अलग करती है, ”ट्रेडेंस के मुख्य नवाचार अधिकारी लक्ष्मीकांत गुंडावरपु कहते हैं।
जबकि सोरा जीपीटी मॉडल में उपयोग किए जाने वाले समान ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है, इसके सह-संस्थापक राहुल अग्रवाल हैं सेंसएआई वेंचर्स, का कहना है कि दिलचस्प बात यह है कि यह स्टेबल डिफ्यूजन जैसे अधिकांश वीडियो जनरेटर द्वारा उपयोग किए जाने वाले मानक डिफ्यूजन मॉडल निर्माण को हटा देता है और इसमें एक नया डिफ्यूजन प्लस ट्रांसफार्मर आर्किटेक्चर है, जिसके बारे में ओपनएआई का दावा है कि यह इसे प्रदर्शन में लाभ देता है। सोरा के डिफ्यूजन मॉडल स्थिर शोर की तरह दिखने वाले वीडियो से शुरुआत करके और कई चरणों में शोर को हटाकर धीरे-धीरे उन्हें परिवर्तित करते हैं।
“हालाँकि, इसमें अभी भी वास्तविक दुनिया की समझ को लेकर समस्याएँ हैं। एक वीडियो में एक हाई-रेजोल्यूशन बंदर को तीन राजाओं के साथ 7×7 बोर्ड पर शतरंज खेलते हुए दिखाया गया है। हम अभी वहां तक नहीं पहुंचे हैं, लेकिन क्या हम प्रगति कर रहे हैं,” राहुल कहते हैं।
ओपनएआई ने स्वयं चेतावनी दी है कि सोरा को अभी तक जनता के लिए जारी नहीं किया गया है और मॉडल में अभी भी बहुत सारे परिदृश्य गलत हैं, लेकिन मॉडल द्वारा सही किए गए जटिल परिदृश्यों की व्यापकता ने प्रशंसकों और आलोचकों को समान रूप से प्रभावित किया है।

बहुत सारे टेक्स्ट-टू-इमेज मॉडल विस्तृत छवि विवरण का पालन करने के लिए संघर्ष करते थे और अक्सर शब्दों को अनदेखा कर देते थे या संकेतों के अर्थ को भ्रमित कर देते थे। इस समस्या को OpenAI द्वारा अपने DALL-E 3 मॉडल को अत्यधिक वर्णनात्मक उत्पन्न छवि कैप्शन पर प्रशिक्षित करके हल किया गया था। यह वही तकनीक है जो टेक्स्ट-टू-वीडियो जनरेटर सोरा को अत्यधिक वर्णनात्मक परिदृश्यों की एक विस्तृत श्रृंखला को समझने की अनुमति देती है। अनिवार्य रूप से, इसमें बड़ी संख्या में वीडियो और उनके साथ कैप्शन दिखाए गए हैं जो उन वीडियो का वर्णन करते हैं।
माइंडस्प्रिंट में मुख्य प्रौद्योगिकी अधिकारी और प्रौद्योगिकी और नवाचार समूह के प्रमुख सागर पीवी का कहना है कि ओपनएआई एक बड़ी पहेली के कुछ हिस्सों को एक साथ रख रहा है जो कृत्रिम सामान्य बुद्धिमत्ता (एजीआई) बनाने की दिशा में हैं – एक एआई प्रणाली जिसमें एक की क्षमताएं हैं औसत इंसान. “साथ चैटजीपीटी, सोरा, स्वायत्त एआई एजेंट बनाने की दिशा में निवेश, और भाषण पहचान के लिए एक कानाफूसी मॉडल, हम उस दिन से दूर नहीं हैं जब एजीआई कई मानवीय कार्य कर सकते हैं। उस परिप्रेक्ष्य से सोरा की रिहाई एक ऐसी दुनिया बनाने की दिशा में एक महत्वपूर्ण छलांग है जो शब्द के हर अर्थ में अर्थव्यवस्थाओं, नौकरियों, उत्पादकता और बहुत कुछ में क्रांति ला सकती है, और हमें एजीआई की वास्तविकता के एक कदम करीब लाती है, ”वह कहते हैं।
वास्तविक विश्व व्यवधान
Qlik में AI के प्रमुख निक मैग्नसन का कहना है कि हमें कई उद्योगों में सार्थक उत्पादकता लाभ देखने की संभावना है क्योंकि संगठन ऐसी तकनीक की क्षमता के प्रति अधिक अभ्यस्त हो गए हैं। “सार्थक और उच्च गुणवत्ता वाली वीडियो सामग्री तैयार करने के लिए आज आवश्यक समय और प्रयास के बारे में सोचें। जैसा कि हमने जेनरेटिव एआई के अन्य रूपों के साथ देखा है, इसके दो स्पष्ट प्रभाव हैं: विषय विशेषज्ञ को अधिक कुशल और उत्पादक बनाता है, जबकि उन लोगों के लिए तकनीकी बाधाओं को भी कम करता है जो ऐसे कार्यों में संलग्न हो सकते हैं।
निक को उम्मीद है कि विज्ञापन उद्योग, फिल्म निर्माण, गेमिंग और मीडिया एवं मनोरंजन उद्योग ऐसे जेनरेटिव एआई मॉडल के शुरुआती लाभार्थियों में से कुछ होंगे।