मानवता ने मशीनों के साथ अपरिहार्य युद्ध की ओर एक और कदम उठाया है (जिसे हम खो देंगे) वैल-ई के निर्माण के साथ, माइक्रोसॉफ्ट में शोधकर्ताओं की एक टीम द्वारा विकसित एक एआई जो केवल कुछ सेकंड के साथ उच्च गुणवत्ता वाली मानव आवाज प्रतिकृति का उत्पादन कर सकती है। ऑडियो प्रशिक्षण की।
Vall-E पहला AI-संचालित वॉयस टूल-xVASynth नहीं है (नए टैब में खुलता है), उदाहरण के लिए, कुछ वर्षों से इधर-उधर घूम रहा है – लेकिन यह शुद्ध क्षमता के मामले में उन सभी को पार करने का वादा करता है। पर उपलब्ध एक पेपर में कॉर्नेल विश्वविद्यालय (नए टैब में खुलता है) (के जरिए विंडोज सेंट्रल (नए टैब में खुलता है)), Vall-E के शोधकर्ताओं का कहना है कि अधिकांश मौजूदा टेक्स्ट-टू-स्पीच सिस्टम उच्च-गुणवत्ता वाले भाषण को सटीक रूप से संश्लेषित करने के लिए “उच्च-गुणवत्ता वाले स्वच्छ डेटा” पर निर्भरता से सीमित हैं।
“इंटरनेट से बड़े पैमाने पर क्रॉल किया गया डेटा आवश्यकता को पूरा नहीं कर सकता है, और हमेशा प्रदर्शन में गिरावट का कारण बनता है,” पेपर कहता है। “क्योंकि प्रशिक्षण डेटा अपेक्षाकृत छोटा है, वर्तमान टीटीएस सिस्टम अभी भी खराब सामान्यीकरण से ग्रस्त हैं। जीरो-शॉट परिदृश्य में अनदेखी वक्ताओं के लिए स्पीकर समानता और भाषण स्वाभाविकता नाटकीय रूप से घट जाती है।”
(“शून्य-शॉट परिदृश्य (नए टैब में खुलता है)“इस मामले में अनिवार्य रूप से एआई की क्षमता को विशेष रूप से प्रशिक्षित किए बिना आवाजों को फिर से बनाने की क्षमता है।)
दूसरी ओर, Vall-E को एक बहुत बड़े और अधिक विविध डेटा सेट के साथ प्रशिक्षित किया जाता है: 7,000 से अधिक अद्वितीय वक्ताओं से 60,000 घंटे की अंग्रेजी-भाषी भाषण, यह सभी वाक् पहचान सॉफ्टवेयर द्वारा लिखित। एआई को खिलाए जा रहे डेटा में अन्य टेक्स्ट-टू-स्पीच सिस्टम द्वारा उपयोग किए जाने वाले डेटा की तुलना में “अधिक शोर भाषण और गलत ट्रांसक्रिप्शन” शामिल हैं, लेकिन शोधकर्ताओं का मानना है कि इनपुट के बड़े पैमाने पर, और इसकी विविधता, इसे और अधिक लचीला, अनुकूलनीय बनाती है। और—यह अपने पूर्ववर्तियों की तुलना में बड़ा—स्वाभाविक है।
“प्रयोग के नतीजे बताते हैं कि वाल-ई भाषण स्वाभाविकता और स्पीकर समानता के मामले में अत्याधुनिक शून्य-शॉट टीटीएस प्रणाली से काफी बेहतर प्रदर्शन करता है,” पेपर कहता है, जो संख्याओं, समीकरणों, आरेखों और अन्य से भरा हुआ है। जटिलताओं। “इसके अलावा, हम पाते हैं कि VALL-E संश्लेषण में वक्ता की भावना और ध्वनिक संकेत के ध्वनिक वातावरण को संरक्षित कर सकता है।”
आप वास्तव में वैल-ई को कार्रवाई में सुन सकते हैं Github (नए टैब में खुलता है), जहां अनुसंधान दल ने इनपुट और आउटपुट के दर्जनों नमूनों के साथ-साथ यह सब कैसे काम करता है, इसका एक संक्षिप्त ब्रेकडाउन साझा किया है। गुणवत्ता भिन्न होती है: कुछ आवाजें विशेष रूप से रोबोटिक होती हैं, जबकि अन्य काफी मानवीय लगती हैं। लेकिन फर्स्ट-पास टेक डेमो के रूप में, यह प्रभावशाली है। कल्पना करें कि यह तकनीक एक या दो या पांच साल में कहां होगी, क्योंकि सिस्टम में सुधार होता है और वॉयस ट्रेनिंग डेटासेट का और भी विस्तार होता है।
जो निश्चित रूप से एक समस्या है। Dall-E, AI कला जनरेटर, गोपनीयता और स्वामित्व संबंधी चिंताओं पर पुशबैक का सामना कर रहा है (नए टैब में खुलता है)और चैटजीपीटी बॉट पर्याप्त आश्वस्त है कि इसे हाल ही में न्यूयॉर्क शहर के शिक्षा विभाग द्वारा प्रतिबंधित किया गया था (नए टैब में खुलता है). स्कैम मार्केटिंग कॉल्स में संभावित उपयोग या डीपफेक वीडियो को सुदृढ़ करने के लिए वैल-ई के और भी अधिक चिंताजनक होने की संभावना है। यह थोड़ा अजीब लग सकता है लेकिन जैसा कि हमारे कार्यकारी संपादक टायलर वाइल्ड ने साल की शुरुआत में कहा था, यह सामान दूर नहीं जा रहा है (नए टैब में खुलता है)और यह महत्वपूर्ण है कि संभावित समस्याओं के वास्तविक (और वास्तविक बड़ी) समस्याओं में बदलने से पहले हम मुद्दों को पहचानें और एआई सिस्टम के निर्माण और उपयोग को विनियमित करें।
Vall-E अनुसंधान दल ने अपने पेपर के निष्कर्ष में उन “व्यापक प्रभावों” को संबोधित किया। टीम ने लिखा, “चूंकि VALL-E वक्ता की पहचान को बनाए रखने वाले भाषण को संश्लेषित कर सकता है, इसलिए यह मॉडल के दुरुपयोग में संभावित जोखिम उठा सकता है, जैसे आवाज की पहचान को खराब करना या किसी विशिष्ट वक्ता का प्रतिरूपण करना।” “इस तरह के जोखिमों को कम करने के लिए, यह पता लगाने के लिए एक पहचान मॉडल बनाना संभव है कि VALL-E द्वारा एक ऑडियो क्लिप को संश्लेषित किया गया था या नहीं। हम भी डालेंगे माइक्रोसॉफ्ट एआई सिद्धांत (नए टैब में खुलता है) मॉडल को और विकसित करते समय अभ्यास में।”
मामले में आपको और सबूत चाहिए कि ऑन-द-फ्लाई वॉयस मिमिक्री खराब जगहों की ओर ले जाती है: