एक विचार प्रयोग से एक नई दुनिया तक

क्या आपने कभी सोचा है कि हम हर दिन जो एआई का उपयोग करते हैं, जैसे कि फोन में वॉयस असिस्टेंट, सिफारिश एल्गोरिदम, या हाल ही में लोकप्रिय हुए ChatGPT, वे वास्तव में कहां से आए हैं? बहुत से लोग सोचते हैं कि एआई किसी प्रतिभाशाली व्यक्ति द्वारा प्रयोगशाला में एक झलक में "आविष्कृत" किया गया है। लेकिन सच्चाई इससे कहीं अधिक रोमांचक है। एआई एक अलगाव में आविष्कार नहीं है, यह एक "विचारों की रिले रेस" है जो लगभग एक सदी तक फैली हुई है। इसका प्रारंभिक बिंदु, यहां तक कि एक कोड की पंक्ति नहीं है, बल्कि एक गहरा दार्शनिक प्रश्न है: "क्या मशीन सोच सकती है?" यह प्रश्न, जैसे एक शांत झील में फेंका गया पत्थर, पीढ़ियों के शीर्ष दिमागों की लहरें उत्पन्न करता है। तब से, दार्शनिकों, गणितज्ञों, इंजीनियरों, मनोवैज्ञानिकों... अनगिनत अग्रदूतों ने इसमें भाग लिया, कुछ ने इसका नाम परिभाषित किया, कुछ ने इसका मार्ग प्रशस्त किया, कुछ ने सर्दियों में टिके रहे, और कुछ ने आज इसकी ऊर्जा को प्रज्वलित किया। इस लेख में, हम एक अलग दृष्टिकोण से देखेंगे, 10 सबसे प्रतिनिधि व्यक्तियों के माध्यम से एआई के 0 से 1 तक के महत्वपूर्ण मोड़ को जोड़ेंगे। आप देखेंगे:

एक महान सपना कैसे "नामित" और "परिभाषित" किया गया।
"प्रतीक" और "संबंध" की दो तकनीकी पथों का कैसे टकराव और विलय हुआ।
तीन "गहरे शिक्षण के पिताओं" ने सर्दियों में कैसे टिके रहे, अंततः पूरे क्षेत्र के पुनरुत्थान का स्वागत किया।

फिलॉसफी से विज्ञान में "बुद्धिमत्ता" का प्रवेश

किसी भी महान तकनीकी क्रांति का स्रोत अक्सर एक विशिष्ट आविष्कार नहीं होता, बल्कि एक चौंकाने वाला प्रश्न होता है। कृत्रिम बुद्धिमत्ता (एआई) का प्रारंभिक बिंदु, विशेष रूप से ऐसा ही है। इसकी कहानी एक गरजती मशीन या एक जादुई कोड की पंक्ति से शुरू नहीं होती, बल्कि एक प्रतिभाशाली गणितज्ञ द्वारा कागज पर प्रस्तुत किए गए एक विचार प्रयोग से उत्पन्न होती है। यह व्यक्ति और उसका प्रश्न, "बुद्धिमत्ता" के उस अवधारणा को, जो हजारों वर्षों से दार्शनिकों के पंडाल में घूम रही थी, पहली बार आधुनिक विज्ञान के竞技场 में खींच लाते हैं। वह हैं एलेन ट्यूरिंग (Alan Turing)।

1950 में, कंप्यूटर विज्ञान की सुबह अभी आई थी, उस समय की मशीनें भारी और धीमी थीं, केवल सबसे बुनियादी गणनाएं कर सकती थीं। हालाँकि, ट्यूरिंग की सोच पहले से ही युग की सीमाओं को पार कर चुकी थी। अपने ऐतिहासिक पेपर "कंप्यूटिंग मशीन और बुद्धिमत्ता" में, उन्होंने एक ऐसा प्रश्न उठाया जो दिखने में सरल लेकिन अत्यंत गहरा था: "क्या मशीन सोच सकती है?" ट्यूरिंग ने समझा कि "सोचने" की परिभाषा पर सीधे चर्चा करना अंतहीन दार्शनिक दलदल में फंस जाएगा। इसलिए, उन्होंने इसे एक सत्यापित किए जा सकने वाले खेल में बदल दिया - "अनुकरण खेल" (The Imitation Game), जिसे बाद में प्रसिद्ध "ट्यूरिंग परीक्षण" के रूप में जाना गया।

खेल के नियम हैं: एक प्रश्नकर्ता, दो गुमनाम वस्तुओं के साथ संवाद करता है, जिनमें से एक मानव है और दूसरा मशीन। यदि पर्याप्त समय में, प्रश्नकर्ता यह नहीं पहचान पाता कि कौन मशीन है, तो हम कह सकते हैं कि मशीन ने परीक्षण पास कर लिया है और मानव के समान बुद्धिमत्ता का प्रदर्शन किया है। यही कारण है कि एआई का प्रारंभिक बिंदु इतना अद्वितीय है: यह एक "आविष्कार" नहीं है जो विशिष्ट कार्य को हल करने के लिए बनाया गया है, बल्कि यह एक "चुनौती" है जो मौलिक प्रश्न का उत्तर देने के लिए बनाई गई है।

ट्यूरिंग परीक्षण की महानता इस बात में है कि यह "बुद्धिमत्ता" के इस अस्पष्ट अवधारणा के लिए एक व्यावहारिक, मूल्यांकन योग्य मानक प्रदान करता है। यह अब इस बात पर नहीं उलझता कि मशीन के अंदर आत्मा या चेतना है या नहीं, बल्कि इसके बाहरी व्यवहार पर ध्यान केंद्रित करता है। यह ऐसा है जैसे हम एक काले बॉक्स को खोलने की आवश्यकता नहीं है, बल्कि इसके आउटपुट को देखकर उसकी क्षमता का मूल्यांकन कर सकते हैं। यह व्यावहारिक सोच, एक शुद्ध दार्शनिक विचार को एक ऐसा इंजीनियरिंग लक्ष्य में बदल देती है जिस पर इंजीनियर और वैज्ञानिक काम कर सकते हैं।

ट्यूरिंग ने एक विचार का बीज बोया, लेकिन इसे जड़ें जमाने और अंकुरित करने के लिए एक उपजाऊ मिट्टी और एक उत्साही माली की आवश्यकता थी। यह व्यक्ति जल्द ही प्रकट हुआ, और उसका नाम था जॉन मैकार्थी (John McCarthy)। समय 1955 में है, ट्यूरिंग पहले ही गुजर चुके थे, लेकिन उनके द्वारा उठाए गए प्रश्न ने अटलांटिक के पार एक समूह युवा विद्वानों को प्रेरित किया। उस समय, "सोचने वाली मशीनों" पर अनुसंधान विभिन्न क्षेत्रों में बिखरा हुआ था, और इसके नाम भी विविध थे, जैसे "नियंत्रण सिद्धांत" (Cybernetics), "स्वचालित सिद्धांत" (Automata Theory) आदि।

युवा डार्टमाउथ कॉलेज के गणित के सहायक प्रोफेसर मैकार्थी ने महसूस किया कि इन बिखरे हुए चिंगारियों को एक भव्य आग में बदलने की आवश्यकता है। उन्होंने 1956 की गर्मियों में, अमेरिका के सबसे प्रमुख दिमागों को एकत्रित करने के लिए एक कई सप्ताहों का सेमिनार आयोजित करने की योजना बनाई, जिसमें मशीनों द्वारा मानव बुद्धिमत्ता की अनुकरण की संभावनाओं पर चर्चा की जाएगी। मार्विन मिंस्की (Marvin Minsky) और अन्य के साथ मिलकर तैयार किए गए सम्मेलन के प्रस्ताव में, उन्होंने प्रतिभा से भरी आशा व्यक्त की, यह घोषणा करते हुए कि "बुद्धिमत्ता के हर पहलू को सैद्धांतिक रूप से सटीक रूप से वर्णित किया जा सकता है, जिससे मशीन इसे अनुकरण कर सके।"

इस नए क्षेत्र को एक स्पष्ट पहचान देने के लिए, मैकार्थी को एक प्रभावशाली नाम की आवश्यकता थी। उन्होंने उस समय के प्रभावशाली "नियंत्रण सिद्धांत" से जानबूझकर परहेज किया, क्योंकि वह नहीं चाहते थे कि यह नया क्षेत्र नियंत्रण सिद्धांत के संस्थापक नॉर्बर्ट वीनर (Norbert Wiener) के शैक्षणिक क्षेत्र का हिस्सा माना जाए। मैकार्थी ने बाद में याद किया कि उन्होंने इस नए शब्द को बनाने का निर्णय लिया, ताकि सीमाओं को स्पष्ट किया जा सके और स्वतंत्र शैक्षणिक पहचान स्थापित की जा सके। यह नाम, जिसे उन्होंने सावधानीपूर्वक चुना, वह था - "आर्टिफिशियल इंटेलिजेंस" (Artificial Intelligence)।

1956 का डार्टमाउथ सम्मेलन, इसलिए एआई के इतिहास का "सृष्टिकर्ता" बन गया। इसने न केवल इस विषय का औपचारिक नामकरण किया, बल्कि इससे भी महत्वपूर्ण बात यह है कि इसने एक समान सपने वाले विचारकों के एक समूह को एकत्रित किया, जिन्होंने प्रारंभिक अनुसंधान कार्यक्रम को स्थापित किया। सम्मेलन में, एलेन न्यूवेल (Allen Newell) और हर्बर्ट साइमोन (Herbert Simon) ने इतिहास का पहला "सोचने वाला" कार्यक्रम - "लॉजिकल थ्योरिस्ट" (Logic Theorist) प्रस्तुत किया, जो मानव की तरह प्रतीकात्मक तर्क के माध्यम से गणितीय प्रमेयों को प्रमाणित कर सकता था, जिसने उपस्थित लोगों को अत्यधिक प्रेरित किया।

"आर्टिफिशियल इंटेलिजेंस" नाम का जन्म एक नए महाद्वीप की औपचारिक खोज का प्रतीक है। इसने "मशीन बुद्धिमत्ता" के प्रति उत्साही खोजकर्ताओं को एक साझा पहचान और एक एकीकृत ध्वज दिया। तब से, वे अकेले गणितज्ञ, मनोवैज्ञानिक या इंजीनियर नहीं रहे, बल्कि "आर्टिफिशियल इंटेलिजेंस वैज्ञानिक" बन गए। मैकार्थी ने न केवल इस विषय का नामकरण किया, बल्कि 1958 में लिस्प (Lisp) भाषा का निर्माण किया, जो एक शक्तिशाली प्रतीकात्मक प्रसंस्करण उपकरण बन गया, जिससे प्रारंभिक एआई शोधकर्ताओं को अमूर्त तर्क और विचारों को वास्तव में मशीन पर चलने वाले कार्यक्रमों में बदलने की अनुमति मिली।

ट्यूरिंग द्वारा एक दार्शनिक "प्रश्न" उठाने से लेकर मैकार्थी द्वारा एक विषय "नाम" देने तक, कृत्रिम बुद्धिमत्ता ने 0 से 1 तक की महत्वपूर्ण छलांग पूरी की। ट्यूरिंग ने अंतिम लक्ष्य को परिभाषित किया, जबकि मैकार्थी ने एकत्रित होने का संकेत दिया, मानव इतिहास के सबसे महान और रोमांचक वैज्ञानिक यात्रा में से एक की शुरुआत की। यह यात्रा "हम कौन हैं" के दार्शनिक प्रश्न से शुरू हुई और अंततः कोड और एल्गोरिदम के माध्यम से "नई बुद्धिमत्ता का निर्माण" के वैज्ञानिक अभ्यास की ओर बढ़ी।

दो रास्तों की पहली टकराहट: प्रतिभा की आशा और वास्तविकता का ठंडा पानी

प्रारंभिक एआई वैज्ञानिक इतने आशावादी क्यों थे?

कृत्रिम बुद्धिमत्ता के प्रारंभिक दिनों में, पूरे क्षेत्र में एक प्रकार की लगभग उन्मादित आशावाद की भावना थी। इस विश्वास का मूल एक सरल लेकिन शक्तिशाली विश्वास - प्रतीकवाद - में निहित था। मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के मार्विन मिंस्की (Marvin Minsky) के नेतृत्व में, पहले पीढ़ी के एआई वैज्ञानिकों ने दृढ़ विश्वास किया कि मानव बुद्धिमत्ता, यहां तक कि सभी बुद्धिमत्ता गतिविधियों को, तार्किक प्रतीकों और रूपात्मक नियमों की एक श्रृंखला में तोड़ा जा सकता है। उनके लिए, मस्तिष्क केवल एक "मांस का मशीन" है, और यदि हम सही नियम खोज लेते हैं, तो हम इसे कंप्यूटर पर सोचने की प्रक्रिया को पुन: उत्पन्न कर सकते हैं।

यह विश्वास कोई आधारहीन नहीं था, बल्कि कई रोमांचक प्रारंभिक सफलताओं पर आधारित था। 1956 में, "लॉजिकल थ्योरिस्ट" नामक एक कार्यक्रम सामने आया, जिसे दुनिया का पहला वास्तविक एआई कार्यक्रम माना गया। इस कार्यक्रम ने न केवल प्रसिद्ध गणितीय ग्रंथ "गणित के सिद्धांत" में 38 प्रमेयों को सफलतापूर्वक प्रमाणित किया, बल्कि कुछ के लिए तो मूल पाठ से भी अधिक सुंदर प्रमाण विधियों को खोजा। इसके एक निर्माता हर्बर्ट साइमोन (Herbert A. Simon) ने उत्साह से घोषणा की: "हमने एक ऐसा कंप्यूटर प्रोग्राम आविष्कृत किया है जो गैर-सांख्यिकीय सोच कर सकता है, और इस प्रकार प्राचीन मन-शरीर समस्या को हल कर सकता है।" यह उपलब्धि दुनिया को यह साबित करती है कि मशीन वास्तव में उन रचनात्मक बुद्धिमत्ता कार्यों को पूरा कर सकती है, जिन्हें पहले मानव विशेषता माना जाता था। एक और प्रसिद्ध उदाहरण SHRDLU प्रणाली है, जो एक आभासी ब्लॉक की दुनिया में प्राकृतिक भाषा निर्देशों के माध्यम से "उस लाल पिरामिड को नीले ब्लॉक पर रखें" जैसे जटिल कार्यों को समझने और निष्पादित करने में सक्षम है।

इन "खिलौने की दुनिया" में सफलताएं, हालांकि सीमित पैमाने पर थीं, फिर भी एक प्रकाशस्तंभ की तरह थीं, जो सामान्य बुद्धिमत्ता की ओर जाने वाले रास्ते को रोशन करती थीं। यही कारण है कि ये ठोस परिणाम साइमोन और मिंस्की जैसे लोगों को अत्यधिक प्रेरित करते थे। उन्होंने आज के दृष्टिकोण से अत्यधिक साहसी भविष्यवाणियाँ कीं, जैसे कि साइमोन ने भविष्यवाणी की थी कि दस वर्षों के भीतर, मशीनें मानव अंतरराष्ट्रीय शतरंज चैंपियन को हरा देंगी और नए महत्वपूर्ण गणितीय प्रमेयों की खोज करेंगी। उस "स्वर्ण युग" में, लोग सामान्यतः मानते थे कि यदि हम प्रतीकवाद के रास्ते पर चलते रहें, तो मानव के समकक्ष मशीन बुद्धिमत्ता प्राप्त करना केवल समय की बात है।

पहली एआई सर्दी कैसे आई?

हालांकि, प्रतिभाओं की आशा जल्दी ही "वास्तविकता" की ठंडी दीवार से टकरा गई। जब एआई शोधकर्ता उन कार्यक्रमों को वास्तविक, जटिल दुनिया में लागू करने की कोशिश कर रहे थे जो "खिलौने की दुनिया" में अच्छी तरह से काम कर रहे थे, तो प्रतीकवाद की मौलिक समस्याएं उजागर हो गईं। सबसे पहले, प्रतीकवाद वास्तविक दुनिया में सर्वव्यापी "सामान्य ज्ञान" और "अनिश्चितता" को संभालने में असमर्थ था। मानव के दैनिक निर्णय धुंधलापन, अंतर्ज्ञान और पूर्व ज्ञान से भरे होते हैं, और इन सभी को सटीक तार्किक नियमों में कोडित करना अत्यंत कठिन होता है।

उदाहरण के लिए, हम सभी जानते हैं कि "पानी गीला है", "पक्षी उड़ सकता है", लेकिन इन अनंत सामान्य ज्ञान को मशीन को मैन्युअल रूप से इनपुट करना लगभग असंभव कार्य है। इसके अलावा, एआई प्रणाली को विस्तार करते समय एक घातक बाधा का सामना करना पड़ता है - "संयोजन विस्फोट" (combinatorial explosion)। इसका मतलब है कि जब समस्या के चर थोड़े बढ़ते हैं, तो प्रणाली को गणना करने की संभावनाएं तेजी से बढ़ जाती हैं, और यह जल्दी ही किसी भी कंप्यूटर की प्रसंस्करण क्षमता से परे हो जाती है।

जैसे ही SHRDLU प्रणाली का "ब्लॉक की दुनिया" थोड़ी जटिल हो जाती है, इसकी प्रदर्शन तेजी से गिर जाती है और यह अव्यवहारिक हो जाती है। ये मौलिक सीमाएं एआई के विकास को उन प्रारंभिक दावों से बहुत पीछे छोड़ देती हैं। निराशा की भावना फैलने लगती है, और अंततः 1973 में "लाइटहिल रिपोर्ट" (Lighthill Report) नामक एक दस्तावेज़ द्वारा इसे भड़काया जाता है। यह रिपोर्ट, जिसे ब्रिटिश सरकार द्वारा लिखने के लिए कमीशन किया गया था, ने तीखे शब्दों में कहा: "अब तक किसी भी क्षेत्र में कोई भी परिणाम उस महत्वपूर्ण प्रभाव को प्राप्त नहीं कर सका जो पहले वादा किया गया था।"

रिपोर्ट ने एआई अनुसंधान की वास्तविक समस्याओं को हल करने में विफलता की ओर इशारा किया, विशेष रूप से "संयोजन विस्फोट" समस्या के प्रति असहायता, और इस प्रकार निष्कर्ष निकाला कि कई एआई मूलभूत अनुसंधान को आगे बढ़ाने के लिए वित्त पोषण के लायक नहीं है। इस रिपोर्ट के प्रकाशन ने सीधे ब्रिटिश सरकार को एआई अनुसंधान के लिए वित्त पोषण में भारी कटौती करने के लिए प्रेरित किया, और कई विश्वविद्यालयों के एआई प्रयोगशालाओं को बंद होने के लिए मजबूर होना पड़ा। यह ठंड की लहर अमेरिका के पार भी फैल गई, और वित्त पोषण एजेंसियां सतर्क हो गईं, और अब वे अधिकतर अल्पकालिक, स्पष्ट अनुप्रयोगों वाले परियोजनाओं की ओर झुकने लगीं।

इस प्रकार, वादों और वास्तविकता के बीच के विशाल अंतर के कारण, कृत्रिम बुद्धिमत्ता ने अपनी पहली "सर्दी" का सामना किया। यहां तक कि मिंस्की ने भी बाद में स्वीकार किया कि उनका "सबसे बड़ा गलती... यह था कि वे यह नहीं समझ पाए कि हम जिस समस्या को हल करने की कोशिश कर रहे थे, वह कितनी कठिन थी।"

क्यों कहा जाता है कि एआई को "अनिश्चितता को स्वीकार करना" सिखाना एक महत्वपूर्ण प्रगति है?

जब प्रतीकवाद का रास्ता ठहराव में था, तब एक पूरी तरह से अलग विचारधारा ने एआई के लिए नई सुबह लाई। इस नए रास्ते के उद्घाटनकर्ता थे ट्यूरिंग पुरस्कार विजेता जूडिया पियर्ल (Judea Pearl)। उन्होंने एक "संभावना क्रांति" का नेतृत्व किया, जिसका मूल विचार था: एआई को काले और सफेद तर्कों के माध्यम से दुनिया को समझने के लिए मजबूर करने के बजाय, इसे "अनिश्चितता" को स्वीकार करने और संभालने का तरीका सिखाना चाहिए। पियर्ल का क्रांतिकारी हथियार था जो उन्होंने 1980 के दशक के अंत में पेश किया - "बायेसियन नेटवर्क" (Bayesian networks)।

यह एक चतुर ग्राफ मॉडल है, जो विभिन्न चर के बीच संभाव्य निर्भरता संबंधों को स्पष्ट ग्राफिकल संरचना के माध्यम से प्रदर्शित कर सकता है। और अधिक महत्वपूर्ण बात यह है कि यह एक सख्त गणितीय विधि प्रदान करता है, जिससे एआई नए साक्ष्यों के आधार पर अपने विश्वास को गतिशील रूप से अपडेट कर सकता है। यह चिकित्सा निदान जैसे क्षेत्रों में विशाल शक्ति प्रदर्शित करता है। पारंपरिक विशेषज्ञ प्रणाली ने निदान के लिए कठोर "यदि...तो..." नियमों का उपयोग करने की कोशिश की, जैसे "यदि रोगी को बुखार है, तो वह फ्लू से ग्रस्त हो सकता है।"

लेकिन वास्तविकता इससे कहीं अधिक जटिल है: बुखार अन्य बीमारियों के लक्षण भी हो सकते हैं, और प्रत्येक लक्षण और बीमारी के बीच संबंध की ताकत भी भिन्न होती है। इस प्रकार, यह प्रणाली जब अधूरी या विरोधाभासी जानकारी का सामना करती है, तो यह अक्सर बहुत कमजोर हो जाती है। इसके विपरीत, बायेसियन नेटवर्क पर आधारित विधि पूरी तरह से अलग है। यह कई बीमारियों और लक्षणों के संभाव्य संबंधों का एक नेटवर्क बना सकता है। जब डॉक्टर "रोगी को बुखार है" इस साक्ष्य को इनपुट करते हैं, तो प्रणाली एक निश्चित निष्कर्ष नहीं निकालेगी, बल्कि बायेसियन प्रमेय के अनुसार, सभी संबंधित बीमारियों (जैसे फ्लू, निमोनिया आदि) की संभाव्यता को स्वचालित रूप से अपडेट करेगी।

यदि "रोगी को खांसी" का नया साक्ष्य फिर से इनपुट किया जाता है, तो प्रणाली फिर से गणना करेगी, संभाव्यता वितरण को और समायोजित करेगी, और एक अधिक वास्तविकता के करीब, संभाव्यता आधारित निदान सुझाव देगी। "निश्चितता" की खोज से "अनिश्चितता" को अपनाने की यह परिवर्तन एक महत्वपूर्ण विचार प्रगति है। इसने एआई को पहली बार वास्तविक दुनिया में, जो जानकारी अधूरी और धुंधली है, में उचित तर्क और निर्णय लेने की क्षमता दी। पियर्ल का काम न केवल एआई को वास्तविकता की कठिनाइयों से बाहर लाने के लिए एक शक्तिशाली नया उपकरण प्रदान करता है, जिसे चिकित्सा, वॉयस पहचान, दोष निदान आदि कई क्षेत्रों में व्यापक रूप से लागू किया गया है, बल्कि यह कृत्रिम बुद्धिमत्ता के विकास के लिए एक नया, अधिक शक्तिशाली बुद्धिमत्ता की ओर जाने वाला रास्ता भी खोलता है।

सर्दियों में टिके रहना: तंत्रिका नेटवर्क का पुनरुत्थान और "तीन दिग्गज"

जब प्रतीकवाद की आशावाद की लहरें घट गईं, और कृत्रिम बुद्धिमत्ता अनुसंधान एक लंबे और ठंडे "सर्दी" में प्रवेश कर गया, तो अधिकांश शोधकर्ता और धन अधिक व्यावहारिक विशेषज्ञ प्रणाली जैसे क्षेत्रों की ओर मुड़ गए। हालाँकि, शैक्षणिक界 के किनारे पर, एक छोटे समूह ने हमेशा विश्वास किया कि वह रास्ता, जिसे मार्विन मिंस्की ने आलोचना की थी और लगभग छोड़ दिया गया था - संबंधवाद और तंत्रिका नेटवर्क - वास्तव में वास्तविक बुद्धिमत्ता की ओर जाने वाला सही रास्ता है। वे सर्दियों में टिके रहने वाले थे, अल्पसंख्यक में अल्पसंख्यक।

यही लगभग जिद्दी विश्वास अंततः कृत्रिम बुद्धिमत्ता की दूसरी क्रांति की आग को प्रज्वलित करता है। इस समूह के नेता, बाद में "गहरे शिक्षण के तीन दिग्गज" के रूप में जाने जाने वाले जेफ्री हिंटन, यान लेकुन और जोशुआ बेंगियो हैं।

"गहरे शिक्षण" का अर्थ क्या है?

इन तीन वैज्ञानिकों के योगदान को समझने के लिए, हमें पहले एक मौलिक प्रश्न का उत्तर देना होगा: "गहरा शिक्षण" वास्तव में क्या है? यह प्रारंभिक तंत्रिका नेटवर्क से क्या मौलिक रूप से भिन्न है? प्रारंभिक तंत्रिका नेटवर्क, जैसे कि पर्सेप्ट्रॉन, बहुत सरल संरचना के होते हैं, आमतौर पर केवल एक या दो परतें होती हैं। यह एक बच्चे की तरह है जो चित्र बनाने की कोशिश कर रहा है, जो केवल कुछ बहुत बुनियादी रेखाओं और रंगों को पहचान सकता है। यदि आप चाहते हैं कि वह एक बिल्ली को पहचान सके, तो आपको पहले उसे मैन्युअल रूप से बताना होगा कि बिल्ली के क्या विशेषताएँ हैं - "तेज कान", "मूंछें", "गोल चेहरा"।

इस प्रक्रिया को "विशेषता इंजीनियरिंग" कहा जाता है, जो समय लेने वाली और कठिन होती है, और इसका प्रभाव भी अच्छा नहीं होता है, क्योंकि वास्तविकता इससे कहीं अधिक जटिल होती है। जबकि गहरे शिक्षण, जैसा कि नाम से ही स्पष्ट है, इसका मूल "गहराई" में है - यह कई परतों (कुछ परतों से लेकर सैकड़ों परतों तक) वाले तंत्रिका नेटवर्क का उपयोग करता है। यह बहु-परत संरचना इसे एक शक्तिशाली क्षमता प्रदान करती है: स्वचालित रूप से विशेषताओं को सीखना। हम इसे एक अधिक जीवंत उपमा से समझ सकते हैं: यह अब बच्चे को चित्र बनाने की शिक्षा नहीं दे रहा है, बल्कि उसे एक संपूर्ण दृश्य प्रणाली दे रहा है।

जब यह एक बिल्ली की तस्वीर देखता है, तो इस "गहरे" नेटवर्क की पहली परत संभवतः स्वचालित रूप से सबसे बुनियादी किनारों और कोनों को पहचानना सीखती है; दूसरी परत पहली परत के परिणाम के आधार पर आंखों, कानों आदि जैसे अधिक जटिल आकारों को संयोजित करना सीखती है; और फिर ऊपर, गहरी परतें "बिल्ली के चेहरे" और पूरी "बिल्ली" की अवधारणा को पहचानना सीखती हैं। यह पूरा प्रक्रिया अंत से अंत तक है, कच्चे पिक्सेल से लेकर अंतिम "बिल्ली" के निष्कर्ष तक, मशीन पूरी प्रक्रिया में स्वायत्त रूप से सीखती है, बिना मानव को यह परिभाषित करने की आवश्यकता है कि "तेज कान" या "मूंछें" क्या हैं।

यह विशिष्ट से अमूर्त, परत दर परत सीखने की यह विधि गहरे शिक्षण और प्रारंभिक तंत्रिका नेटवर्क के बीच का सबसे मौलिक अंतर है, और यही इसकी शक्ति का स्रोत है।

"तीन दिग्गज": सर्दियों में चिंगारी को प्रज्वलित करने वाले अल्पसंख्यक

यही "गहराई" की शक्ति के प्रति साझा विश्वास ने हिंटन, लेकुन और बेंगियो को एक साथ जोड़ा। तंत्रिका नेटवर्क के प्रति मुख्यधारा के शैक्षणिक संदेह के दशकों में, उन्होंने शैक्षणिक दुनिया के दबावों का सामना किया, जैसे तीन अकेले मशालधारक, विभिन्न दिशाओं में अपनी-अपनी लड़ाई लड़ते रहे, लेकिन अंततः गहरे शिक्षण को सिद्धांत से वास्तविकता में लाने के लिए एक साथ मिलकर काम किया।

जेफ्री हिंटन (Geoffrey Hinton): गहरे नेटवर्क को "प्रशिक्षित" करने के लिए आधारशिला हिंटन को "गहरे शिक्षण के पिता" के रूप में जाना जाता है, उनका सबसे बड़ा योगदान "गहरे नेटवर्क को प्रभावी ढंग से प्रशिक्षित करने का तरीका" है।

1986 में, उन्होंने अपने सहयोगियों के साथ मिलकर बैकप्रोपेगेशन एल्गोरिदम (Backpropagation) को बढ़ावा दिया। यह एल्गोरिदम एक सख्त शिक्षक की तरह है, जब नेटवर्क गलत निर्णय करता है, तो यह अंतिम परत से धीरे-धीरे "पश्च-प्रसार" करता है, हर परत के न्यूरॉन्स को बताता है कि उन्हें अपने पैरामीटर को कैसे समायोजित करना चाहिए ताकि अगली बार बेहतर किया जा सके। यह突破 ने बहु-परत तंत्रिका नेटवर्क को प्रशिक्षित करना संभव बना दिया, और गहरे शिक्षण के पूरे क्षेत्र के लिए आधारशिला रखी।

यान लेकुन (Yann LeCun): मशीन को "दुनिया को देखना" सिखाने वाले लेकुन ने मशीन को "दुनिया को देखना" सिखाने पर ध्यान केंद्रित किया। उन्होंने महसूस किया कि छवियों को संसाधित करना सामान्य डेटा की तरह नहीं किया जा सकता। जैविक दृश्य प्रणाली से प्रेरित होकर, उन्होंने 1980 के दशक के अंत में संकुचन तंत्रिका नेटवर्क (Convolutional Neural Networks CNN) विकसित किया।

CNN ने "संकुचन कर्नेल" के माध्यम से आंखों द्वारा स्थानीय जानकारी को पकड़ने के तरीके की नकल की, और "वजन साझा करने" के माध्यम से मॉडल के पैरामीटर की मात्रा को काफी कम कर दिया, जिससे यह छवियों को संसाधित करते समय प्रभावी और सटीक हो गया। उन्होंने 1998 में डिज़ाइन किया गया LeNet-5 नेटवर्क, जो बैंकों के चेक हस्तलेख पहचान प्रणाली में सफलतापूर्वक लागू किया गया, यह CNN के पहले व्यावसायिक उपयोग का उदाहरण बन गया, और बाद में सभी कंप्यूटर दृष्टि में सफलताओं के लिए रास्ता प्रशस्त किया।

जोशुआ बेंगियो (Yoshua Bengio): एआई को "भाषा" को समझने वाला सिद्धांतकार जब लेकुन ने एआई को "देखना" सिखाया, तो बेंगियो ने सोचा कि एआई को "पढ़ना" और "समझना" कैसे सिखाया जाए।

उन्होंने प्राकृतिक भाषा प्रसंस्करण (NLP) में "आयाम आपदा" समस्या को हल करने पर ध्यान केंद्रित किया। उन्होंने जो तंत्रिका संभाव्य भाषा मॉडल पेश किया, उसने शब्द वेक्टर (Word Embeddings) के अवधारणा को क्रांतिकारी रूप से पेश किया। यह तकनीक प्रत्येक शब्द को एक उच्च आयामी निरंतर वेक्टर स्थान में मानचित्रित करती है, जिससे समानार्थक शब्दों की स्थान भी निकट होती है। उदाहरण के लिए, "राजा" और "रानी" के वेक्टर बहुत निकट होंगे। इसने मशीन को पहली बार शब्दों के बीच के अर्थ संबंधों को पकड़ने की अनुमति दी, और बाद में मशीन अनुवाद, भावना विश्लेषण आदि सभी अनुक्रम मॉडल के विकास के लिए एक ठोस आधार प्रदान किया।

इन तीन वैज्ञानिकों में से एक ने "कैसे सीखें" (बैकप्रोपेगेशन) का समाधान किया, एक ने "कैसे देखें" (CNN) का समाधान किया, और एक ने "कैसे समझें" (शब्द वेक्टर) का समाधान किया, उनका काम एक-दूसरे को पूरक बनाता है, और आधुनिक गहरे शिक्षण की मुख्य तकनीकी मानचित्र का निर्माण करता है।

2012 का ImageNet: क्रांति को प्रज्वलित करने वाला "बिग बैंग"

हालांकि "तीन दिग्गज" पहले से ही सिद्धांत की बारूद से भरे हुए थे, लेकिन इस क्रांति को प्रज्वलित करने के लिए एक निर्णायक क्षण की आवश्यकता थी। यह क्षण 2012 में आया। ImageNet बड़े पैमाने पर दृश्य पहचान चुनौती (ILSVRC) उस समय कंप्यूटर दृष्टि के "ओलंपिक" थी, जिसमें प्रतियोगिता के एल्गोरिदम को एक मिलियन से अधिक छवियों की पहचान और वर्गीकरण करना था, जिसमें 1000 श्रेणियां शामिल थीं। 2012 से पहले, प्रतियोगिता के विजेता हमेशा पारंपरिक मशीन लर्निंग विधियों का उपयोग करने वाली टीमों द्वारा जीते गए थे, और परिणामों में सुधार हमेशा कठिन रहा।

हालांकि, इस वर्ष, सब कुछ बदल गया। हिंटन और उनके दो छात्रों - एलेक्स क्रिज़ेव्स्की (Alex Krizhevsky) और इल्या सुत्सकेवर (Ilya Sutskever) - ने एक गहरे संकुचन तंत्रिका नेटवर्क के साथ प्रतियोगिता में भाग लिया, जिसका नाम AlexNet था। AlexNet एक 8-परत गहरा नेटवर्क है, जिसने न केवल लेकुन के CNN आर्किटेक्चर का उपयोग किया, बल्कि प्रदर्शन को बढ़ाने और ओवरफिटिंग से बचने के लिए रीलू सक्रियण फ़ंक्शन और ड्रॉपआउट जैसी नई तकनीकों का उपयोग किया, और दो GPU की शक्तिशाली गणना शक्ति का उपयोग करके समानांतर प्रशिक्षण किया।

परिणाम क्रांतिकारी था। AlexNet ने 15.3% की Top-5 त्रुटि दर के साथ चैंपियन का खिताब जीता, जबकि दूसरे स्थान की दर 26.1% थी। यह 10 प्रतिशत से अधिक का विशाल अंतर, पूरे एआई क्षेत्र में एक तीव्र भूकंप का कारण बना। यह अब छोटे सुधार नहीं थे, बल्कि एक आयाम का कुचलना था। यह जीत निर्विवाद रूप से साबित करती है: पर्याप्त डेटा और गणना शक्ति के समर्थन में, गहरे शिक्षण की प्रदर्शन सभी पारंपरिक विधियों से कहीं अधिक है। 2012 की ImageNet प्रतियोगिता को इस प्रकार एआई के इतिहास में एक मील का पत्थर घटना माना जाता है, जो गहरे शिक्षण क्रांति का "प्रज्वलन बिंदु" है।

जैसा कि हिंटन ने कहा, इसके बाद, "लगभग सभी कंप्यूटर दृष्टि अनुसंधान तंत्रिका नेटवर्क की ओर मुड़ गया।" यह जीत एक शॉट की तरह थी, जिसने एआई सर्दियों के पूर्ण अंत और गहरे शिक्षण द्वारा शासित एक नए युग की शुरुआत की घोषणा की। जो अल्पसंख्यक दशकों से अंधेरे में टिके रहे थे, अंततः उनके लिए सुबह का स्वागत हुआ।

प्रयोगशाला से पूरी दुनिया तक

एआई का निर्माण, प्रसार और पुनर्विचार यदि गहरे शिक्षण के तीन दिग्गजों ने कृत्रिम बुद्धिमत्ता के लिए एक शक्तिशाली इंजन पाया, तो 2010 के दशक के बाद की कहानी इस बारे में है कि इस इंजन को कैसे स्टीयरिंग व्हील से जोड़ा जाए, सड़कें बिछाई जाएं, और अंततः यह विचार किया जाए कि यह मानवता को कहां ले जाएगा।

इस प्रक्रिया को भी कुछ प्रमुख व्यक्तियों द्वारा संचालित किया गया, जिन्होंने तीन मुख्य प्रश्नों का उत्तर दिया: एआई कैसे "निर्माण" करना सीखता है? एआई कैसे हाथी के टॉवर से बाहर निकलता है? और जब एआई के पास विशाल शक्ति होती है, तो हमें इसे कैसे नियंत्रित करना चाहिए? "जनरेटिव एआई" का गुणात्मक परिवर्तन: इयान गुडफेलो और एक बार में बहस की प्रेरणा 2014 में, मोंट्रियल में पीएचडी कर रहे इयान गुडफेलो (Ian Goodfellow) और उनके दोस्तों ने एक बार में एक पब में एकत्रित हुए।

एक अकादमिक बहस ने यह विचार उत्पन्न किया कि कैसे कंप्यूटर को यथार्थवादी तस्वीरें उत्पन्न करने के लिए प्रेरित किया जाए। उस रात उन्होंने एक प्रतिभाशाली ढांचे का विचार किया - जनरेटिव एडवर्सेरियल नेटवर्क (Generative Adversarial Networks GAN)। इस विचार का सार "विरोध" में है। GAN प्रणाली में दो प्रतिस्पर्धी तंत्रिका नेटवर्क होते हैं: एक "जनरेटर" (Generator) और एक "डिस्क्रिमिनेटर" (Discriminator)।

जनरेटर का कार्य वास्तविक डेटा की विशेषताओं को सीखते हुए, वास्तविकता के समान "नकली" (जैसे एक नकली मानव चेहरे की तस्वीर) उत्पन्न करना है। जबकि डिस्क्रिमिनेटर "विश्लेषक" की भूमिका निभाता है, जिसका एकमात्र लक्ष्य यह सटीक रूप से पहचानना है कि कौन सा वास्तविक डेटा है और कौन सा जनरेटर द्वारा निर्मित नकली है। प्रशिक्षण प्रक्रिया एक अंतहीन शून्य-योग खेल की तरह है: जनरेटर डिस्क्रिमिनेटर को धोखा देने की कोशिश करता है, जबकि डिस्क्रिमिनेटर धोखाधड़ी को पहचानने के लिए प्रयास करता है।

इस विरोध के बढ़ते हुए, दोनों एक साथ विकसित होते हैं। अंततः, जब डिस्क्रिमिनेटर फिर से प्रभावी रूप से सत्य और झूठ के बीच अंतर नहीं कर सकता है, तो इसका मतलब है कि जनरेटर ने अत्यधिक यथार्थवादी डेटा उत्पन्न करने की क्षमता हासिल कर ली है। यह विचार इतना नया और शक्तिशाली था कि गहरे शिक्षण के तीन दिग्गजों में से एक यान लेकुन (Yann LeCun) ने इसे "पिछले 20 वर्षों में मशीन लर्निंग के क्षेत्र में सबसे दिलचस्प विचार" के रूप में प्रशंसा की। GAN का जन्म एआई विकास के इतिहास में एक गुणात्मक परिवर्तन का प्रतीक है।

इससे पहले, एआई एक मेहनती "पहचानकर्ता" की तरह था, जो वर्गीकरण, पहचान और भविष्यवाणी में माहिर था। जबकि GAN ने एआई को "निर्माता" की पहचान दी, जिससे इसे पहली बार पूरी तरह से नई, जटिल सामग्री उत्पन्न करने की क्षमता मिली, और आज हम जो जानते हैं, उस जनरेटिव एआई युग का दरवाजा खोल दिया।

तकनीकी प्रसार की कुंजी: एंड्रयू एनजी और "नई बिजली" का प्रचार

एक क्रांतिकारी तकनीक, यदि केवल प्रयोगशाला में रहती है, तो इसका मूल्य अंततः सीमित होता है। एआई को कुछ विशिष्ट अभिजात वर्ग के उपकरण से बदलकर दुनिया के लाखों लोगों के लिए सीखने और लागू करने के कौशल में बदलने के लिए, एंड्रयू एनजी (Andrew Ng) ने एक महत्वपूर्ण "प्रचारक" की भूमिका निभाई। स्टैनफोर्ड विश्वविद्यालय के प्रोफेसर और Coursera के सह-संस्थापक के रूप में, एनजी ने 2011 में लॉन्च किए गए ऑनलाइन पाठ्यक्रम "मशीन लर्निंग" को MOOC (मास ओपन ऑनलाइन कोर्स) लहर का प्रज्वलन बिंदु बना दिया, जिसने दुनिया भर में लाखों लोगों को पंजीकरण करने के लिए आकर्षित किया।

इसके बाद, उन्होंने DeepLearning.AI के साथ मिलकर "गहरे शिक्षण विशेष पाठ्यक्रम" और गैर-तकनीकी लोगों के लिए "हर किसी के लिए एआई" जैसे पाठ्यक्रमों को लॉन्च किया, जिससे एआई ज्ञान प्राप्त करने की बाधाओं को और कम किया गया। 2023 तक, 800 से अधिक लोग उनके पाठ्यक्रम में भाग ले चुके हैं। एनजी ने न केवल ज्ञान का प्रसार किया, बल्कि एक दूरगामी विचार प्रस्तुत किया: "एआई नई बिजली है" (AI is the new electricity)।

उन्होंने कहा कि जैसे एक सदी पहले बिजली ने कृषि, परिवहन, निर्माण आदि लगभग सभी उद्योगों को क्रांतिकारी रूप से बदल दिया, वैसे ही एआई अब एक बुनियादी तकनीक के रूप में, पहले से कहीं अधिक शक्ति के साथ सभी क्षेत्रों को फिर से आकार दे रहा है। यह उपमा एआई के भविष्य को सटीक रूप से इंगित करती है - यह एक अलग उत्पाद नहीं है, बल्कि एक बुनियादी ढांचा है जो समाज के सभी पहलुओं में समाहित होगा। यही दृष्टि एआई के इंजीनियरिंग और औद्योगिक अनुप्रयोग को बढ़ावा देने में महत्वपूर्ण रूप से मदद करती है।

एआई नैतिकता की चेतावनी

टिम्नित गेब्रू और अनिवार्य पुनर्विचार जब एआई की शक्ति गुणात्मक रूप से बढ़ने लगती है और सामाजिक निर्णयों में गहराई से शामिल होने लगती है, तो एक गंभीर प्रश्न सभी के सामने आता है: हम कैसे सुनिश्चित करें कि यह तकनीक निष्पक्ष, न्यायपूर्ण और जिम्मेदार है? एआई नैतिकता वैज्ञानिक टिम्नित गेब्रू (Timnit Gebru) इस क्षेत्र की सबसे प्रतिनिधि "सायरन" बन गईं। 2018 में, गेब्रू और उनके सहयोगियों ने "जेंडर शेड्स" नामक एक मील का पत्थर अध्ययन प्रकाशित किया।

उन्होंने पाया कि उस समय के मुख्यधारा के व्यावसायिक चेहरे की पहचान प्रणाली में गंभीर पूर्वाग्रह थे: हल्के रंग के पुरुषों की पहचान करते समय सटीकता लगभग पूर्ण थी; लेकिन गहरे रंग की महिलाओं की पहचान करते समय, त्रुटि दर लगभग 35% तक बढ़ गई। यह अध्ययन एक चेतावनी की तरह था, जिसने स्पष्ट रूप से दिखाया कि प्रशिक्षण डेटा में पूर्वाग्रह कैसे एआई प्रणाली द्वारा बढ़ा दिया जाता है, जिससे हाशिए पर रहने वाले समूहों के लिए प्रणालीगत अन्याय होता है। इस अध्ययन ने सीधे IBM और Microsoft जैसी कंपनियों को अपने एल्गोरिदम में सुधार करने के लिए प्रेरित किया, ताकि पूर्वाग्रह को कम किया जा सके।

कुछ वर्षों बाद, गूगल की नैतिक एआई टीम की सह-प्रमुख गेब्रू ने एक बार फिर "रैंडम तोते के खतरों: क्या भाषा मॉडल बहुत बड़े हो सकते हैं?" नामक एक पेपर के कारण सुर्खियों में आ गईं। इस पेपर ने बड़े भाषा मॉडल में पूर्वाग्रह, पर्यावरण लागत और उनके द्वारा मानव भाषा पैटर्न की नकल करने के जोखिमों को स्पष्ट रूप से उजागर किया - जैसे "रैंडम तोता"। इस पेपर ने गेब्रू और गूगल के उच्च अधिकारियों के बीच संघर्ष को जन्म दिया, और अंततः उन्हें मजबूरन छोड़ना पड़ा।

गेब्रू का अनुभव एआई विकास के एक नए चरण में प्रवेश का प्रतीक है। जब एआई केवल प्रयोगशाला में एक खिलौना नहीं रह जाता, बल्कि यह भर्ती, ऋण अनुमोदन और यहां तक कि न्यायिक निर्णयों को प्रभावित करने वाले शक्तिशाली उपकरण बन जाता है, तो इसके पूर्वाग्रह, जोखिम और सामाजिक प्रभावों की जांच करना अत्यंत महत्वपूर्ण हो जाता है। उनका काम पूरे उद्योग को याद दिलाता है: यदि तकनीकी प्रगति मानवता की देखभाल और सामाजिक जिम्मेदारी से अलग हो जाती है, तो इसके परिणाम भलाई नहीं, बल्कि नए बंधन हो सकते हैं। गुडफेलो के निर्माण से लेकर एनजी के प्रसार तक, और गेब्रू के पुनर्विचार तक, इन तीन व्यक्तियों की कहानियां एक नए युग में एआई के संपूर्ण चित्र को रेखांकित करती हैं: एक तकनीक जो अनंत रचनात्मकता रखती है, वह पहले से कहीं अधिक तेजी से दुनिया में समाहित हो रही है, और साथ ही हमें यह गंभीरता से सोचने के लिए मजबूर कर रही है कि हम इसके साथ कैसे सह-अस्तित्व में रह सकते हैं।

एक प्रश्न से शुरू

"क्या मशीन सोच सकती है?" हर महान परिवर्तन अक्सर एक चौंकाने वाले आविष्कार से शुरू नहीं होता, बल्कि एक चौंकाने वाले प्रश्न से उत्पन्न होता है। कृत्रिम बुद्धिमत्ता (एआई) की उत्पत्ति इसी तरह है। इसका प्रारंभिक बिंदु एक विशिष्ट मशीन नहीं है, और न ही एक जादुई कोड की पंक्ति है, बल्कि एक दार्शनिक प्रश्न है जो ब्रिटिश गणितज्ञ एलेन ट्यूरिंग (Alan Turing) ने 20वीं सदी के मध्य में दुनिया के सामने रखा: "क्या मशीन सोच सकती है?" उस समय जब कंप्यूटर कमरे के आकार के थे, यह प्रश्न विज्ञान कथा की तरह लगता था। लेकिन ट्यूरिंग की असाधारणता इस बात में है कि उन्होंने इस प्रश्न को दार्शनिक विचार में नहीं छोड़ा। उन्होंने एक चतुर विचार प्रयोग - "अनुकरण खेल" (Imitation Game) - का डिज़ाइन किया, जिसे बाद में व्यापक रूप से "ट्यूरिंग परीक्षण" के रूप में जाना गया। यह परीक्षण "सोचने" के इस अस्पष्ट अवधारणा की परिभाषा को चतुराई से दरकिनार करता है, बल्कि यह पूछता है: यदि एक मशीन मानव के साथ संवाद कर सकती है, और इसका प्रदर्शन ऐसा है कि कोई यह पहचान नहीं सकता कि यह मशीन है या मानव, तो क्या हम यह मान सकते हैं कि इस मशीन में बुद्धिमत्ता है?

इस प्रश्न का उठना, जैसे एक लंबी रात को चीरने वाली बिजली की चमक। यह पहली बार "बुद्धिमत्ता का निर्माण" इस प्राचीन सपने को मिथक और दार्शनिकता के क्षेत्र से बाहर लाता है, और इसे एक ऐसे इंजीनियरिंग क्षेत्र में लाता है जिसे सत्यापित और चुनौती दी जा सकती है। ट्यूरिंग ने हमें उत्तर नहीं दिया, लेकिन उन्होंने सभी उत्तराधिकारियों को एक स्पष्ट लक्ष्य और एक ऐसा ब्लूप्रिंट दिया जिसे वे चित्रित करना शुरू कर सकते हैं। उन्होंने दुनिया को बताया: बुद्धिमत्ता, शायद सटीक रूप से वर्णित और अनुकरण की जा सकती है। इस विचार का बीज एक अत्यंत उपजाऊ मिट्टी में बोया गया।

द्वितीय विश्व युद्ध के बाद की दुनिया, विशेष रूप से 1950 के दशक में, एक अभूतपूर्व वैज्ञानिक आशावाद और "कर सकता हूं" (can-do) की भावना से भरी हुई थी। मानवता ने अभी-अभी परमाणु ऊर्जा को नियंत्रित किया था, इलेक्ट्रॉनिक कंप्यूटर का आविष्कार किया था, और जीवन के कोड को डिकोड किया था। विज्ञान की जीत ने लोगों को विश्वास दिलाया कि मानव बुद्धि और नए आविष्कारों के शक्तिशाली उपकरणों के साथ, कोई भी बड़ा चुनौती असंभव नहीं है। यदि मशीनें जटिल बैलिस्टिक की गणना कर सकती हैं, दुश्मन के कोड को तोड़ सकती हैं, तो क्यों नहीं आगे बढ़कर मानव के सीखने, तर्क करने और रचनात्मकता की क्षमताओं की नकल कर सकती हैं?

इसी युग के संदर्भ में, कुछ सबसे प्रमुख और दूरदर्शी दिमाग एक ही सपने की ओर आकर्षित होने लगे। हालाँकि, उनके विचारों की चिंगारी गणित, मनोविज्ञान, सूचना सिद्धांत और उभरते कंप्यूटर विज्ञान के विभिन्न क्षेत्रों में बिखरी हुई थी। उन्हें एक अवसर की आवश्यकता थी, एक ऐसा क्षण जो इन बिखरे हुए धाराओं को एक बड़ी नदी में एकत्रित कर सके। यह क्षण 1956 की गर्मियों में आया। एक युवा गणितज्ञ, जिसका नाम जॉन मैकार्थी (John McCarthy) था, ने मार्विन मिंस्की (Marvin Minsky), नाथानियल रोचेस्टर (Nathaniel Rochester) और सूचना सिद्धांत के पिता क्लॉड शैनन (Claude Shannon) जैसे लोगों के साथ मिलकर रॉकफेलर फाउंडेशन को एक साहसी प्रस्ताव प्रस्तुत किया।

उन्होंने न्यू हैम्पशायर के डार्टमाउथ कॉलेज में एक कई सप्ताहों का ग्रीष्मकालीन सेमिनार आयोजित करने की योजना बनाई। प्रस्ताव की शुरुआत उस युग के आशावाद और महत्वाकांक्षा से भरी हुई थी: "हम सुझाव देते हैं कि 1956 की गर्मियों में... कृत्रिम बुद्धिमत्ता पर एक अध्ययन किया जाए। अध्ययन एक अनुमान पर आधारित होगा, कि सीखने के हर पहलू या बुद्धिमत्ता के किसी अन्य विशेषता को सैद्धांतिक रूप से सटीक रूप से वर्णित किया जा सकता है, जिससे मशीन इसे अनुकरण कर सके।" इस नए क्षेत्र को एक स्पष्ट पहचान देने के लिए, मैकार्थी ने एक नया शब्द बनाने के लिए बहुत मेहनत की: "आर्टिफिशियल इंटेलिजेंस" (Artificial Intelligence)।

यह चयन संयोग नहीं था। उस समय, "नियंत्रण सिद्धांत" (Cybernetics) नामक एक क्षेत्र पहले से ही प्रभावशाली था, जो मुख्य रूप से जीवों और मशीनों में फीडबैक और नियंत्रण प्रणालियों का अध्ययन करता था। लेकिन मैकार्थी एक पूरी तरह से नया, अधिक ध्यान केंद्रित दिशा खोलना चाहते थे, जो कंप्यूटर के माध्यम से तर्क, तर्क आदि उच्च संज्ञानात्मक कार्यों को प्राप्त करने पर केंद्रित हो, न कि नियंत्रण सिद्धांत के ढांचे में बंधा हो। इस नाम का जन्म एक जोरदार "स्वतंत्रता की घोषणा" की तरह था, जिसने समान सपनों वाले सभी खोजकर्ताओं को एक साझा ध्वज प्रदान किया।

1956 की गर्मियों में, यह बैठक, जिसे बाद में "डार्टमाउथ सम्मेलन" कहा गया, समय पर आयोजित हुई। यह एक गंभीर शैक्षणिक सम्मेलन की तरह नहीं था, बल्कि एक लंबे विचार मंथन की तरह था जो छह से आठ सप्ताह तक चला। एलेन न्यूवेल (Allen Newell), हर्बर्ट साइमोन (Herbert Simon), रे सोलोमनॉफ़ (Ray Solomonoff) जैसे भविष्य के एआई क्षेत्र के दिग्गज सभी उपस्थित थे। उनके विभिन्न पृष्ठभूमियों ने तर्कशास्त्र, मनोविज्ञान, गणित और इंजीनियरिंग के विभिन्न दृष्टिकोणों को लाया।

सम्मेलन की एक प्रमुख घटना न्यूवेल और साइमोन द्वारा प्रस्तुत "लॉजिकल थ्योरिस्ट" (Logic Theorist) कार्यक्रम थी। इस कार्यक्रम ने प्रसिद्ध गणितीय ग्रंथ "गणित के सिद्धांत" में कई प्रमेयों को सफलतापूर्वक प्रमाणित किया। यह केवल एक तकनीकी प्रदर्शन नहीं था, बल्कि यह एक घोषणा की तरह था, जिसने दुनिया को यह साबित किया कि मशीन वास्तव में उन बुद्धिमान प्रतीकात्मक तर्क कार्यों को पूरा कर सकती है, जिन्हें पहले मानव विशेषता माना जाता था। इसने "क्या मशीन सोच सकती है?" इस प्रश्न का पहली बार सकारात्मक, दृश्य प्रारंभिक उत्तर दिया।

यह एआई का "सृष्टिकर्ता" है। यह किसी प्रयोगशाला में एक बार की सफलता में नहीं हुआ, बल्कि यह एक महान विचारों के मिलन में हुआ। डार्टमाउथ सम्मेलन इतना महत्वपूर्ण क्यों है, इसके तीन कारण हैं: पहला, इसने इस क्षेत्र का नामकरण किया। तब से, "आर्टिफिशियल इंटेलिजेंस" का एक औपचारिक पहचान हो गया, जिसने बाद में धन, प्रतिभा और ध्यान को आकर्षित किया। दूसरा, इसने मुख्य एजेंडा स्थापित किया। सम्मेलन ने प्रतीक प्रसंस्करण, तंत्रिका नेटवर्क, प्राकृतिक भाषा प्रसंस्करण आदि दिशाओं पर चर्चा की, जो अगले कुछ दशकों में एआई अनुसंधान के मुख्य धारा बन गए। तीसरा, इसने प्रारंभिक समुदाय की स्थापना की। इस सम्मेलन ने एक समूह अकेले विचारकों को एक शैक्षणिक समुदाय में जोड़ा, जिन्होंने अपने संस्थानों में लौटकर सबसे पहले एआई प्रयोगशालाएं स्थापित कीं (जैसे MIT, Carnegie Mellon University और Stanford University), जो बाद में विशाल वृक्ष के बीज बोने का कार्य किया। डार्टमाउथ सम्मेलन को बाद में "एआई का संविधान सभा" कहा गया। इसने ट्यूरिंग द्वारा उठाए गए उस महान प्रश्न को औपचारिक रूप से एक विशाल, कई पीढ़ियों के शीर्ष प्रतिभाओं को इसमें शामिल करने वाले वैज्ञानिक यात्रा में बदल दिया।

हालांकि उपस्थित लोगों ने भविष्य की भविष्यवाणियों में अत्यधिक आशावादी थे, और आगे की कठिनाइयों और "सर्दियों" की भविष्यवाणी नहीं की, लेकिन उन्होंने जो आग प्रज्वलित की, वह कभी नहीं बुझी। एक प्रश्न से शुरू होकर, एक विषय का जन्म हुआ। एआई की कहानी, इस प्रकार शुरू होती है।

प्रतिभा की कल्पनाएं और वास्तविकता की दीवारें

डार्टमाउथ सम्मेलन ने कृत्रिम बुद्धिमत्ता का औपचारिक नामकरण करने के बाद, एक अनंत आशावाद और साहसी भविष्यवाणियों के "स्वर्ण युग" (लगभग 1956-1974) की शुरुआत हुई।

इन पहले एआई अग्रदूतों का प्रतिनिधित्व हर्बर्ट साइमोन और मार्विन मिंस्की जैसे लोगों ने किया, जिन्होंने विश्वास किया कि वे मशीन बुद्धिमत्ता की कुंजी को पकड़ चुके हैं। उनका आत्मविश्वास कोई आधारहीन नहीं था, बल्कि "सूक्ष्म दुनिया" में प्राप्त कई आश्चर्यजनक सफलताओं से प्रेरित था। इन प्रारंभिक उपलब्धियों में सबसे प्रतिनिधि "लॉजिकल थ्योरिस्ट" कार्यक्रम है। एलेन न्यूवेल, हर्बर्ट साइमोन और J.C. शॉ द्वारा 1956 में विकसित किया गया यह कार्यक्रम दुनिया का पहला कृत्रिम बुद्धिमत्ता कार्यक्रम माना जाता है।

इसका कार्य गणितज्ञ व्हाइटहेड और रसेल द्वारा उनके महाकाव्य "गणित के सिद्धांत" में प्रस्तुत गणितीय प्रमेयों को प्रमाणित करना था। परिणाम चौंकाने वाला था: "लॉजिकल थ्योरिस्ट" ने न केवल पुस्तक में पहले 52 प्रमेयों में से 38 को सफलतापूर्वक प्रमाणित किया, बल्कि एक प्रमेय के लिए एक अधिक संक्षिप्त और सुंदर प्रमाण विधि भी खोजी। यह उपलब्धि शोधकर्ताओं को अत्यधिक प्रेरित करती है, क्योंकि यह स्पष्ट रूप से दिखाती है कि मशीनें केवल गणना नहीं कर सकतीं, बल्कि वे उन जटिल तार्किक तर्क गतिविधियों को भी कर सकती हैं, जिन्हें पहले मानव विशेषता माना जाता था।

इसके बाद, इस टीम ने 1959 में "जनरल प्रॉब्लम सॉल्वर" (General Problem Solver GPS) पेश किया। GPS की क्रांतिकारी विशेषता यह थी कि यह मानव समस्या समाधान के सामान्य सोच के तरीके की नकल करने की कोशिश करता है। यह विशिष्ट क्षेत्र के ज्ञान (जैसे नियम) को सामान्य समाधान रणनीतियों से अलग करता है, और "उद्देश्य-उद्देश्य विश्लेषण" नामक एक रणनीति का उपयोग करता है, जो लगातार उप-लक्ष्यों को स्थापित करता है ताकि अंतिम उत्तर के करीब पहुंचा जा सके। GPS ने हनोई टॉवर, ज्यामितीय प्रमाण आदि जैसे कई क्लासिक तार्किक पहेलियों को सफलतापूर्वक हल किया, जिससे लोगों को "सोचने वाली मशीन" बनाने की आशा दिखाई दी।

यदि GPS ने मशीन की "सोचने" की क्षमता को प्रदर्शित किया, तो MIT का SHRDLU प्रणाली ने पहली बार मशीन को भौतिक दुनिया के साथ बातचीत करने की "समझ" की क्षमता दी। टेरी विनोग्राड द्वारा 1970 में बनाए गए इस आभासी "ब्लॉक की दुनिया" में, उपयोगकर्ता दैनिक अंग्रेजी में प्रणाली को आदेश दे सकते हैं, जैसे "उस बड़े लाल ब्लॉक को उठाओ"। SHRDLU आदेशों को समझने, संदर्भ को समझने (जैसे जब आप पूछते हैं "कौन सा पिरामिड?" तो यह स्पष्टता के लिए पूछता है), और कई कार्यों (जैसे पकड़ना, स्थानांतरित करना, ढेर लगाना) की योजना बनाने और निष्पादित करने में सक्षम है, और यहां तक कि इस दुनिया की स्थिति के बारे में प्रश्नों का उत्तर भी दे सकता है। SHRDLU की सफलता ने भाषा समझ, तर्क योजना और क्रियान्वयन को एकीकृत किया, जिससे लोगों को ऐसा लगा कि वे विज्ञान कथा फिल्म में मानव के साथ स्वतंत्र रूप से संवाद करने वाले बुद्धिमान रोबोट के प्रारंभिक रूप को देख रहे हैं। इन "बंद, स्पष्ट नियमों" वाली "खिलौने की दुनिया" में प्राप्त ये शानदार सफलताएं विशाल आशावाद की लहर पैदा करती हैं।

साइमोन ने 1965 में साहसिकता से भविष्यवाणी की: "बीस वर्षों के भीतर, मशीनें सभी कार्य कर सकेंगी जो मानव कर सकते हैं।" मिंस्की ने भी सहमति व्यक्त की: "एक पीढ़ी के समय में... 'आर्टिफिशियल इंटेलिजेंस' बनाने की समस्या का मूलतः समाधान हो जाएगा।" हालाँकि, जब ये प्रतिभाशाली कल्पनाएं आदर्श प्रयोगशाला से जटिल वास्तविकता की दुनिया में जाने की कोशिश करती हैं, तो वे जल्दी ही एक ठंडी और कठोर दीवार से टकरा जाती हैं। यह दीवार दो मौलिक समस्याओं से बनी है। पहली "संयोजन विस्फोट" (Combinatorial Explosion) है।

सरल ब्लॉक की दुनिया में संभावनाएं सीमित होती हैं। लेकिन जब समस्या का पैमाना थोड़ा बढ़ता है, जैसे शतरंज खेलने से गो खेलने में बदलना, या कुछ ब्लॉकों की गति की योजना बनाने से शहर के यातायात की योजना बनाने में बदलना, तो गणना करने की संभावनाएं तेजी से बढ़ जाती हैं, और यह तुरंत उस समय के सबसे शक्तिशाली कंप्यूटर की गणना शक्ति को समाप्त कर देती है। प्रारंभिक एआई की "खिलौने की समस्याओं" में सुंदरता, वास्तविकता की जटिलता के सामने बेकार हो जाती है। दूसरी समस्या और भी मौलिक है - "सामान्य ज्ञान और संदर्भ की कमी"।

मानव दुनिया में बहुत सारे स्पष्ट सामान्य ज्ञान और धुंधले संदर्भ होते हैं। उदाहरण के लिए, हम जानते हैं कि "पानी गीला है", "रस्सी खींची जा सकती है, धकेली नहीं जा सकती", "यदि कोई व्यक्ति बारिश में भीग गया है, तो वह बीमार हो सकता है।" ये ज्ञान इतने बुनियादी हैं कि हम शायद ही उनकी उपस्थिति को समझते हैं। लेकिन एक ऐसा एआई प्रणाली जो केवल तर्क और नियमों को समझता है, के लिए यह दुनिया पूरी तरह से अज्ञात है। यह इन अंतर्निहित पृष्ठभूमि ज्ञान को समझ नहीं सकता, जिससे इसकी तर्क क्षमता वास्तविक परिदृश्यों में अत्यंत कमजोर और हास्यास्पद हो जाती है।

SHRDLU "ब्लॉक उठाने" को समझ सकता है, लेकिन यह "एक वादा उठाने" का क्या अर्थ है, यह नहीं समझ सकता। इस "प्रतीक की जड़ता" की समस्या, अर्थात प्रतीक वास्तविक दुनिया के अर्थ से संबंधित नहीं हो सकते, प्रतीकवाद एआई के लिए एक कठिनाई बन गई। अत्यधिक अपेक्षाएं और कठोर वास्तविकता के बीच का बड़ा अंतर निराशा की भावना फैलने लगती है, और अंततः दो प्रमुख घटनाओं ने कृत्रिम बुद्धिमत्ता की पहली "सर्दी" को भड़काया। पहली घटना 1973 में ब्रिटिश सरकार द्वारा जारी "लाइटहिल रिपोर्ट" (Lighthill Report) है।

यह रिपोर्ट, जिसे अनुप्रयुक्त गणितज्ञ सर जेम्स लाइटहिल द्वारा लिखी गई थी, ने उस समय के एआई अनुसंधान की कठोर आलोचना की। रिपोर्ट ने तीखे शब्दों में कहा कि एआई ने स्वचालन और भाषा प्रसंस्करण जैसे मुख्य क्षेत्रों में "अब तक कोई भी क्षेत्र उस महत्वपूर्ण प्रभाव को प्राप्त नहीं कर सका जो पहले वादा किया गया था।" यह रिपोर्ट एआई अनुसंधान की दो प्रमुख कमजोरियों की ओर इशारा करती है: वास्तविक दुनिया की समस्याओं को हल करने में "संयोजन विस्फोट" का सामना करना, और "सामान्य ज्ञान" को पूरी तरह से संभालने में असमर्थता। इस अत्यधिक प्रभावशाली रिपोर्ट ने सीधे ब्रिटिश सरकार को विश्वविद्यालयों के एआई अनुसंधान के लिए वित्त पोषण में भारी कटौती करने के लिए प्रेरित किया, और ब्रिटेन में एआई अनुसंधान लगभग ठप हो गया।

दूसरा गंभीर झटका अमेरिका से आया, जो एआई क्षेत्र के प्रमुख व्यक्तियों में से एक मार्विन मिंस्की द्वारा दिया गया। 1969 में, मिंस्की और साइमोर पापर्ट ने "पर्सेप्ट्रॉन" (Perceptrons) नामक एक पुस्तक सह-लेखित की। इस पुस्तक में, उन्होंने सख्त गणितीय प्रमाण के माध्यम से, उस समय प्रतीकवाद के समानांतर एक अन्य तकनीकी मार्ग - संबंधवाद (तंत्रिका नेटवर्क का पूर्वज) - की मौलिक सीमाओं को उजागर किया। उन्होंने साबित किया कि एकल परत का तंत्रिका नेटवर्क (यानी "पर्सेप्ट्रॉन") एक रैखिक मॉडल है, जो कुछ बुनियादी समस्याओं को हल नहीं कर सकता, जैसे सबसे सरल "एक्स-ओआर" (XOR) समस्या।

यह निष्कर्ष सही था, लेकिन इसे पूरे तंत्रिका नेटवर्क मार्ग के लिए "मौत की सजा" के रूप में व्याख्या किया गया। इस पुस्तक का विशाल प्रभाव, संबंधवाद अनुसंधान के लिए वित्त पोषण लगभग पूरी तरह से बंद कर दिया, जिससे यह मार्ग एक दशक से अधिक समय तक ठप हो गया। इस प्रकार, पूर्व की उत्साह तेजी से ठंडा हो गई। अत्यधिक अपेक्षाएं, सिद्धांत की बाधाएं, और इसके बाद वित्त पोषण की वापसी ने कृत्रिम बुद्धिमत्ता को पहली लंबी सर्दी में धकेल दिया।

प्रतिभाओं की कल्पनाएं वास्तविकता की दीवार से टकरा गईं, और पूरा क्षेत्र शोर के शिखर से चुप्पी की गहराई में गिर गया, अगली बार पुनरुत्थान की प्रतीक्षा कर रहा है।

छिपना और पुनरुत्थान

अनिश्चितता में रास्ता खोजना 1980 के दशक के अंत में, कृत्रिम बुद्धिमत्ता के "स्वर्ण युग" ने ठंडी हवा का सामना किया। पहले से ही उच्च उम्मीदों के साथ, विशेषज्ञ प्रणाली बाजार ध्वस्त हो गया, LISP मशीन उद्योग भी गिर गया, और सरकार और कंपनियों की निवेश की उत्साह भी तेजी से ठंडी हो गई। एआई अनुसंधान फिर से एक निम्न बिंदु पर पहुंच गया, जिसे इतिहास में दूसरी "एआई सर्दी" कहा जाता है।

हालांकि, पहली सर्दी की लगभग चुप्पी की स्थिति के विपरीत, इस बार एआई का विकास पूरी तरह से ठप नहीं हुआ, बल्कि यह एक बर्फ से ढकी नदी की तरह था, जो सतह पर चुप थी, लेकिन बर्फ के नीचे दो धाराएं चुपचाप बह रही थीं। एक धारा "प्रमुख अध्ययन" थी, जो विशेष क्षेत्रों में अपनी मूल्य साबित करने की कोशिश कर रही थी, जबकि दूसरी धारा "छिपी धारा" थी, जो चुपचाप शक्ति जमा कर रही थी, वसंत की प्रतीक्षा कर रही थी। पहली धारा, प्रतीकवाद एआई की विपरीत स्थिति में जीवित रहने की खोज थी। विशेषज्ञ प्रणाली, हालांकि इसके ज्ञान आधार निर्माण की उच्च लागत, अनिश्चितता को संभालने में कठिनाई आदि समस्याओं के कारण अंततः गिर गई, लेकिन इसका विरासत मूल्यवान था: इसने साबित किया कि एआई विशेष परिदृश्यों में वास्तविक समस्याओं को हल करने की क्षमता रखता है, और एआई के व्यावसायिक अनुप्रयोग के लिए पहली रोशनी प्रदान की।

और अधिक महत्वपूर्ण बात यह है कि विशेषज्ञ प्रणाली की विफलता पर विचार करते समय, एक विचारक ने एआई के विकास के लिए एक पूरी तरह से नया दिशा दिखाया। वह थे जूडिया पियर्ल (Judea Pearl)। पियर्ल ने महसूस किया कि वास्तविक दुनिया अनिश्चितता से भरी हुई है, और काले और सफेद तर्क नियम दुनिया की जटिलता का वर्णन करने के लिए पर्याप्त नहीं हैं। उन्होंने एआई में संभाव्यता और कारणात्मक निष्कर्ष को पेश किया, मशीनों को "संभावनाओं" के माध्यम से सोचने का तरीका सिखाया, और अधूरी जानकारी में उचित निर्णय लेने का तरीका सिखाया।

यह न केवल प्रतीकवाद के लिए एक महत्वपूर्ण पूरक था, बल्कि एआई को एक आदर्श तर्क की दुनिया से वास्तविकता की दुनिया में एक महत्वपूर्ण कदम बढ़ाने की अनुमति दी। इस बीच, दूसरी, अधिक गुप्त और क्रांतिकारी धारा शैक्षणिक界 के किनारे पर "छिपी" थी। यह तंत्रिका नेटवर्क का प्रतिनिधित्व करने वाला संबंधवाद अनुसंधान था। इस मार्ग के खोजकर्ता वास्तव में "गहरे डूबने वाले" थे। उनके शस्त्रागार में एक शक्तिशाली सिद्धांतात्मक हथियार जोड़ा गया। 1986 में, जेफ्री हिंटन (Geoffrey Hinton) और उनके सहयोगियों ने बैकप्रोपेगेशन एल्गोरिदम को फिर से बढ़ावा दिया और इसकी प्रभावशीलता को प्रणालीबद्ध रूप से साबित किया।

यह एल्गोरिदम चतुराई से बहु-परत तंत्रिका नेटवर्क के प्रशिक्षण की समस्या को हल करता है, जिससे मशीन "गलतियों" के माध्यम से "विचार" करके आंतरिक पैरामीटर को क्रमशः समायोजित कर सकती है, और इस प्रकार अधिक जटिल पैटर्न सीख सकती है। हिंटन ने बाद में याद किया कि वे उस समय आशावादी थे कि यह एल्गोरिदम "सब कुछ हल कर देगा।" हालाँकि, सिद्धांत की सुबह तुरंत वास्तविकता की सर्दी को नहीं मिटा सकी। 90 के दशक में, तंत्रिका नेटवर्क अनुसंधान जल्दी से तीन दीवारों से टकरा गया: गणना शक्ति की कमी, डेटा की कमी, और सहकर्मियों से शैक्षणिक संदेह। उस समय के कंप्यूटर की प्रदर्शन कमजोर थी, जो बड़े पैमाने पर नेटवर्क के प्रशिक्षण का समर्थन करने में असमर्थ थी।

साथ ही, समर्थन वेक्टर मशीन (SVM) जैसी सांख्यिकीय शिक्षण विधियों ने कई कार्यों में उस समय के तंत्रिका नेटवर्क की तुलना में बेहतर और अधिक प्रभावी प्रदर्शन किया, जिससे बहुत सारे अनुसंधान धन और प्रतिभा अन्य क्षेत्रों की ओर प्रवाहित हो गईं। तंत्रिका नेटवर्क को फिर से अव्यवहारिक "ड्रैगन-स्लेइंग" तकनीक के रूप में देखा गया, और अनुसंधान वित्तीय कठिनाइयों और उपेक्षा की स्थिति में चला गया। इस कठिन वातावरण में, कुछ शोधकर्ताओं ने टिके रहने का निर्णय लिया। यान लेकुन (Yann LeCun) उनमें से सबसे प्रमुख प्रतिनिधि थे।

1988 में, उन्होंने AT&T बेल प्रयोगशाला में शामिल होकर मुख्यधारा के शैक्षणिक दबावों का सामना करते हुए, अपनी पूरी ऊर्जा एक विशेष तंत्रिका नेटवर्क - संकुचन तंत्रिका नेटवर्क (CNN) के विकास में लगाई। उन्होंने विश्वास किया कि यह जैविक दृश्य प्रणाली की नकल करने वाली नेटवर्क संरचना मशीन को "दुनिया को देखने" की कुंजी है। लेकुन का लक्ष्य बहुत स्पष्ट था: मशीन को हस्तलिखित बैंक चेक को पहचानने में सक्षम बनाना। वर्षों की पुनरावृत्ति के बाद, उन्होंने 1998 में क्लासिक LeNet-5 मॉडल पेश किया।

यह नेटवर्क व्यावसायिक प्रणाली में सफलतापूर्वक लागू किया गया, और 21वीं सदी की शुरुआत में, यह प्रतिदिन लगभग 20 मिलियन चेक को संसाधित करता था, जो उस समय अमेरिका में चेक के कुल प्रवाह का लगभग 10% था। यह एक मील का पत्थर सफलता थी। यह न केवल सर्दियों में तंत्रिका नेटवर्क तकनीक की एक दुर्लभ व्यावसायिक जीत थी, बल्कि यह एक बर्फ में दबे बीज की तरह थी, जिसने इस "छिपी धारा" में निहित विशाल ऊर्जा को साबित किया। इसने दुनिया को बताया: तंत्रिका नेटवर्क कोई कल्पना नहीं है, यह वास्तविक दुनिया की समस्याओं को हल कर सकता है, और इसकी संभावनाएं अनंत हैं।

इस प्रकार, 90 के दशक से लेकर 21वीं सदी की शुरुआत तक, एआई के दो रास्ते समानांतर विकसित होते रहे। एक रास्ता संभाव्यता और कारण के उपकरणों के साथ, एआई को व्यावसायिक दुनिया में "जीवित" रहने में मदद करता है, और अनिश्चितता के साथ अधिक परिपक्वता से सह-अस्तित्व करना सीखता है; दूसरी धारा शैक्षणिक कोने में "छिपी" रहती है, कुछ लोगों की दृढ़ता के साथ, भविष्य की क्रांति के लिए सबसे तेज हथियारों को चुपचाप तैयार करती है। ये दोनों शक्तियां, एक उज्ज्वल और एक छिपी हुई, एक साथ आने वाली बड़ी विस्फोट के लिए आधार तैयार करती हैं।

इस बीच, हार्डवेयर क्षेत्र से एक "पूर्वी हवा" भी धीरे-धीरे उठ रही थी - GPU के प्रतिनिधित्व में समानांतर गणना हार्डवेयर, इसकी शक्तिशाली मैट्रिक्स गणना क्षमता तंत्रिका नेटवर्क की गणना आवश्यकताओं के साथ स्वाभाविक रूप से मेल खाती है। जब यह हार्डवेयर की पूर्वी हवा अंततः गणना, डेटा और एल्गोरिदम की इस उपजाऊ भूमि पर पहुंचती है, तो एक तकनीकी क्रांति जो दुनिया को बदलने वाली है, शुरू होने वाली है।

"दुनिया को देखने" से "दुनिया को बनाने" तक

30 सितंबर 2012 को, एक बड़े पैमाने पर दृश्य पहचान चुनौती (ILSVRC) का नाम ImageNet एक ऐतिहासिक मोड़ पर पहुंचा।

एक टीम, जिसमें जेफ्री हिंटन प्रोफेसर और उनके दो छात्र - एलेक्स क्रिज़ेव्स्की (Alex Krizhevsky) और इल्या सुत्सकेवर (Ilya Sutskever) शामिल थे, ने एक गहरे तंत्रिका नेटवर्क मॉडल प्रस्तुत किया जिसका नाम AlexNet था। इसका प्रदर्शन पूरे कंप्यूटर दृष्टि क्षेत्र को चौंका दिया: इसकी छवि पहचान की त्रुटि दर केवल 15.3% थी, जो दूसरे स्थान से 10.8 प्रतिशत कम थी।

यह केवल एक प्रतियोगिता की जीत नहीं थी, बल्कि यह एक शॉट की तरह थी। AlexNet ने निर्विवाद रूप से साबित किया कि गहरे नेटवर्क, विशाल डेटा और GPU की शक्तिशाली गणना शक्ति के समर्थन में, मशीन वास्तव में इस दुनिया को "देखना" सीख सकती है। इस प्रकार, गहरे शिक्षण की क्रांति पूरी तरह से प्रज्वलित हो गई, और एआई विकास एक नए युग में प्रवेश कर गया। यदि AlexNet ने एआई को एक पहले कभी नहीं देखी गई "आंख" दी, तो केवल दो साल बाद, एक युवा शोधकर्ता ने एआई को कल्पनाशील "कल्पना" दी।

2014 में, जब वह अभी भी एक पीएचडी छात्र थे, इयान गुडफेलो (Ian Goodfellow) ने एक पब में दोस्तों के साथ अकादमिक मुद्दों पर चर्चा करते समय एक चिंगारी की तरह एक प्रतिभाशाली विचार प्रस्तुत किया - जनरेटिव एडवर्सेरियल नेटवर्क (Generative Adversarial Networks GAN)। GAN का सिद्धांत "भाला" और "ढाल" के बीच एक निरंतर प्रतियोगिता की तरह है। इसमें दो प्रतिस्पर्धी तंत्रिका नेटवर्क होते हैं: एक "जनरेटर" (Generator) और एक "डिस्क्रिमिनेटर" (Discriminator)।

जनरेटर का कार्य यथार्थवादी डेटा (जैसे चित्र) उत्पन्न करना है, जो डिस्क्रिमिनेटर को धोखा देने की कोशिश करता है; जबकि डिस्क्रिमिनेटर का कार्य यह पहचानना है कि कौन सा वास्तविक डेटा है और कौन सा जनरेटर द्वारा निर्मित नकली है। इस निरंतर विरोध और विकास में, जनरेटर अपनी "धोखाधड़ी" की कला को बढ़ाता है, अंततः मानव द्वारा पहचानने में कठिनाई से नए सामग्री उत्पन्न करने में सक्षम होता है। उच्च गुणवत्ता वाले मानव चेहरों से लेकर कला चित्रों तक, और चिकित्सा इमेजिंग तक, GAN ने पहली बार एआई को "पहचानकर्ता" और "विश्लेषक" से "निर्माता" में बदल दिया।

एआई अब केवल दुनिया को देखने में सक्षम नहीं है, बल्कि यह एक पूरी नई, डिजिटल "दुनिया" बनाने की क्षमता रखता है। जब एआई दृश्य निर्माण के क्षेत्र में तेजी से प्रगति कर रहा था, तब एक और अधिक गहन संरचनात्मक परिवर्तन धीरे-धीरे विकसित हो रहा था। 2017 में, गूगल के शोध टीम ने "Attention Is All You Need" (ध्यान ही सब कुछ है) शीर्षक से एक क्रांतिकारी पेपर प्रकाशित किया। इस पेपर ने पिछले समय में अनुक्रम डेटा (जैसे भाषा) को संसाधित करने के लिए सामान्यतः उपयोग किए जाने वाले पुनरावृत्त तंत्रिका नेटवर्क (RNN) संरचना को छोड़ दिया, और एक पूरी तरह से नया आर्किटेक्चर - ट्रांसफार्मर (Transformer) पेश किया।

ट्रांसफार्मर का मूल एक "स्व-सावधानी तंत्र" (Self-Attention) है, जो न केवल पाठ में लंबी दूरी की निर्भरता को बेहतर ढंग से पकड़ सकता है, बल्कि यह प्रभावी समानांतर गणना को भी लागू करता है, जिससे मॉडल के प्रशिक्षण की गति और विस्तार की क्षमता में काफी वृद्धि होती है। ट्रांसफार्मर आर्किटेक्चर का जन्म एआई के लिए एक मजबूत आधार बनाने के समान है, जो बाद में कई बड़े भाषा मॉडल (LLM) के विस्फोट के लिए रास्ता प्रशस्त करता है।

2018 में OpenAI द्वारा पहले GPT मॉडल के लॉन्च के साथ, यह तकनीकी मार्ग तेजी से विकसित हुआ। मॉडल के पैरामीटर और डेटा का पैमाना गुणात्मक रूप से बढ़ा, और एआई की क्षमताएं भी विकसित हुईं, सरल पाठ निर्माण से लेकर प्रवाहपूर्ण संवाद, कोड लिखने, और यहां तक कि "कम नमूना शिक्षण" जैसी आश्चर्यजनक क्षमताओं तक। एआई की रचनात्मकता, छवियों से मानव के सबसे मूल बुद्धिमत्ता क्षेत्र - भाषा तक फैल गई।

शक्ति का प्रसार और पुनर्विचार

इंजीनियरिंग से नैतिक प्रतिबंध तकनीकी प्रगति को दुनिया को बदलने के लिए, प्रयोगशाला से उद्योग तक "अंतिम मील" की आवश्यकता होती है।

इस प्रक्रिया में, एंड्रयू एनजी (Andrew Ng) जैसे लोग महत्वपूर्ण "प्रचारक" की भूमिका निभाते हैं। वे एआई के इंजीनियरिंग और जनसामान्य शिक्षा को बढ़ावा देने के लिए समर्पित हैं, जटिल गहरे शिक्षण तकनीकों को स्केल करने योग्य अनुप्रयोगों के उपकरणों और पाठ्यक्रमों में बदलते हैं, जिससे हजारों इंजीनियरों और शिक्षार्थियों को एआई को समझने और लागू करने की अनुमति मिलती है, और इस प्रकार एआई की शक्ति को समाज के विभिन्न क्षेत्रों में तेजी से फैलाने में मदद मिलती है। हालाँकि, जब एक शक्ति पर्याप्त रूप से मजबूत हो जाती है, तो इसके साथ आने वाले केवल अवसर नहीं होते, बल्कि जोखिम भी होते हैं।

2019 में, OpenAI ने अपने नए मॉडल GPT-2 को जारी करते समय एक अभूतपूर्व सतर्कता दिखाई। क्योंकि उन्हें चिंता थी कि इसकी शक्तिशाली पाठ निर्माण क्षमता का उपयोग झूठी खबरें, स्पैम या ऑनलाइन उत्पीड़न जैसे दुर्भावनापूर्ण उद्देश्यों के लिए किया जा सकता है, उन्होंने प्रारंभ में केवल एक छोटे संस्करण को जारी करने का निर्णय लिया, और पूर्ण मॉडल को रोक दिया। इस कदम ने तकनीकी क्षेत्र में "खुले अनुसंधान" और "जिम्मेदार प्रकटीकरण" के बीच तीव्र बहस को जन्म दिया। अंततः, "दुरुपयोग के लिए कोई मजबूत सबूत नहीं होने" के बाद, OpenAI ने उसी वर्ष नवंबर में पूर्ण 1.5B पैरामीटर मॉडल को सार्वजनिक रूप से जारी किया। GPT-2 का प्रकाशन विवाद केवल हिमशैल का सिरा था। जैसे-जैसे जनरेटिव एआई की क्षमताएं बढ़ती गईं, डीपफेक (Deepfake) तकनीक एक गंभीर सामाजिक समस्या बन गई। एआई का उपयोग करके चेहरे को बदलने या आवाज को संश्लेषित करने से राजनीतिक व्यक्तियों के झूठे वीडियो या ऑडियो को आसानी से बनाया जा सकता है, जिससे झूठी जानकारी फैलती है, सार्वजनिक विश्वास को नष्ट करती है, और यहां तक कि चुनावी प्रक्रियाओं में हस्तक्षेप करती है। इसके अलावा, शोधकर्ताओं ने जल्दी ही发现 किया कि ये मॉडल, जो विशाल इंटरनेट डेटा पर प्रशिक्षित किए गए हैं, मानव समाज में मौजूद पूर्वाग्रहों को भी एक दर्पण की तरह सच्चाई से दर्शाते हैं।