कम्प्यूटर की मदद से व्यंगात्मक शब्दों के पता लगाने की तकनीक पर भारतीय परौद्योगिक संस्थान बम्बई के शोधार्थियों द्वारा विभिन्न दृष्टिकोणों से किया गया सर्वेक्षण
इंटरनेट दुनिया का सबसे बड़ा सुझाव बॉक्स है। क्या हम सभी ने किसी उत्पाद को खरीदने से पहले या किसी फिल्म को देखने जाने से पहले लाखों लोगों द्वारा लिखी गई समीक्षाओं को नहीं देखा होगा? ये समीक्षाएँ ऑनलाइन मार्केट के लिए बेहद महत्वपूर्ण होती हैं। इसलिए कम्पनियाँ अपने ग्राहकों की भावनाओं को समझने के लिए टूल्स का इस्तेमाल करती हैं जो रोज़ाना इस तरह की समीक्षाओं को पढ़कर यह बता सकता है कि कब ग्राहक खुश या नाराज़ है। लेकिन एक भावना जिसे समझना मुश्किल होता है वह है व्यंगात्मकता। आईआईटी बॉम्बे के प्राध्यापक पुष्पक भट्टाचार्य के नेतृत्व में एक टीम ने व्यंग भाव का पता लगाने के विभिन्न तरीकों का विश्लेषण किया।
एससीएम कंप्यूटिंग सर्वे में प्रकाशित शोध के लेखक डॉ. अदित्य जोशी कहते हैं, “बड़े राजनैतिक एवं वाणिज्यिक संगठन सोशल-मीडिया का प्रयोग यह जानने के लिए करते हैं कि लोग उनके बारे में क्या सोचते हैं। इस तरह के सर्वे कर्मचारियों के मूल्यांकन, होटल्स में फीडबैक फार्म आदि पर भी लागू किए जा सकते हैं।”ऑनलाइन समीक्षाएँ विभिन्न प्रकार की होती हैं। कुछ साफ तौर पर ग्राहक की मनोदशा दर्शाते हैं किंतु कुछ समीक्षाएँ भ्रामक भी होती हैं। जैसे कि किसी बाल काले करने वाले हेयर-डाई की समीक्षा की गई हो कि “इस डाई ने मेरे बालों को वही लाल रंग दिया है जैसा मैं चाहती थी” पहली नज़र में यह एक सकारात्मक समीक्षा लग सकती है लेकिन इसमें एक व्यंग छुपा हुआ है क्योंकि विज्ञापन तो काले बाल करने वाली डाई के बारे में है। यदि एक संभावित ग्राहक यह जानने में सक्षम है कि यह अतिरिक्त जानकारी है तो वह इस तरह के व्यंग को समझ जाएगी या जाएगा। ऐसी परिस्थिति में अगर कंप्यूटर भावनाओं का विश्लेषण करने की कोशिश कर रहा है तो क्या होगा? क्या वह इस व्यंग का पता लगा सकता है? हाल में किए गए अध्ययन का कहना है कि कंप्यूटर ऐसा कर सकता है।
डॉ. जोशी कहते हैं कि, “परंपरागत रूप से व्यंग या कटाक्ष कई लोगों की भावना को ठेस पहुँचा सकते हैं इसलिए व्यंग या कटाक्ष पर केन्द्रित शोध उपयोगी हो सकता है।” डॉ. जोशी, प्राध्यापक पुष्पक भट्टाचार्य और डॉ. मार्क कारमेन इनवेस्टिगेशन्स इन कंप्यूटेशनल सार्कास्म पुस्तक के सह-लेखक हैं। उन्होंने ‘कंप्यूटेशन्ल सार्कास्म’ के पिछले काम पर समग्र दृष्टिकोण दिया है और आगे इन चुनौतियों पर काम करेंगे।
कटाक्ष का पता लगाने का दृष्टिकोण
मनुष्यों की तरह कंप्यूटर भी विभिन्न उदाहरणों के माध्यम से कटाक्ष का पता लगाना सीखते हैं। कंप्यूटर को सीखने में मदद करने वाला एक तरीका है ट्विटर जैसे बड़े पैमाने का डैटा लेना जहाँ #कटाक्ष और #नहीं जैसे हैश टैग्स से कटाक्ष या व्यंगात्मक ट्विट्स को इंगित किया जा सकता है। लेकिन ट्विटर संचार का केवल एक माध्यम है, कई तरह की वेबसाइट्स भी सहायक हो सकती हैं जहाँ हैशटैग की मदद के बिना भी व्यंगात्मक विषय वस्तु मिल सकती है।
इस क्षेत्र में पहले दृष्टिकोण में, व्यंगात्मक पैटर्न के लिए सकारात्मक क्रियाओं के साथ नकारात्मक वाक्यांशों की पहचान करना था, जैसे कि “मुझे सुबह के 4 बजे उठना पसंद है, सिरदर्द के साथ” और फिर इसे व्यंगात्मक या सांख्यिकी पैटर्न की वस्तु के रूप में इस्तेमाल करना। एक ऐसी क्रियाविधि जिसमें कंप्यूटर को इस तरह के डैटा का उदाहरण देकर व्यंगात्मक विष्य वस्तु पहचानने के लिए तैयार किया जाता है। प्रकाशित अध्ययनों में से एक में लॉजिस्टिक रेग्रेशन क्लासिफायर की मदद से लगभग 81 प्रतिशत बार किसी कथन में निश्चित परिस्थिति सही है या गलत का पता चला।
नमूनों का पता लगाने का एक अन्य तरीका है मानव एनोटेटर्स (पहचानकर्ता) का उपयोग मैन्युअल रूप से विषय वस्तु को वर्गीकृत करना। विशेष रूप से वहाँ जहाँ विषय वस्तु ज़्यादा लंबी है और पहचानकर्ता मौजूद नहीं हैं। हालाँकि इसमें एक दिक्कत है क्योंकि पहचानकर्ता विभिन्न जगहों से आते हैं। जोशी कहते हैं कि, हमारे एक प्रकाशित अध्ययन में बताया गया है कि संस्कृतियों की भूमिका भी कटाक्ष का पता लगाती है। हमने अमेरिकी और भारतीयों की तुलना की कि कैसे कटाक्ष पर दोनों की धारणा अलग-अलग हो सकती है, एक बयान कि “बाहर धूप है और मैं धूप में काम कर रहा हूँ”, यह अमेरिकी लोगों के लिए कटाक्ष था जबकि भारतीय जलवायु के अनुसार भारतीय लोगों के लिए कटाक्ष नहीं है।”
यह भी हम अच्छी तरह जानते हैं कि कभी-कभार मनुष्यों को भी ईमेल और विषय वस्तु को समझने में कठिनाई होती है या कोई ईमानदारी के साथ खुशी ज़ाहिर कर रहा है जैसे “मुझे तुम्हारे बालों से प्यार है”। तो कंप्यूटर इसे कैसे समझेगा? कुछ बयान चुभने वाले होते हैं जैसे “अनदेखा किया जाना सबसे अच्छा अनुभव है”, बिना चेहरे के हाव-भाव के यह समझना मुश्किल है। दूसरी तरफ यह वाक्य कि “मुझे हर सप्ताह छुट्टी पर गणित की समस्याएँ हल करना पसंद है”। गणित से नफरत करने वालों के लिए यह बयान कटाक्ष हो सकता है, लेकिन विषय से लगाव रखने वालों के लिए यह सकारात्मक बयान हो सकता है। कई मामलों में संदर्भ एक कुंजी की तरह होता है। जैसे मनुष्यों को किसी बात के लिए पूरी कहानी की ज़रूरत होती है उसी तरह कंप्यूटर को भी। कंप्यूटेशनल रिसर्च में हालिया ट्रैंड इसी प्रवृत्ति का इस्तेमाल करना है। ट्विट्स के मामले में भी जिन्हें कटाक्ष के रूप में लेखक द्वारा नहीं पहचाना जाता है के लिए उसके पीछे की पूरी कहानी की ज़रूरत होती है, यानी उस विषय के पहले और बाद में आने वाली टिप्पणियाँ। इससे लेखक के लिखने की भावना समझ आती है और कंप्यूटर को व्यक्ति की मानसिकता को समझने में मदद मिलती है जैसे कि यह बयान “राजनेता कभी गलत नहीं होता #राजनीति” कटाक्ष है या नहीं।
व्यंग या कटाक्ष के स्वाद
व्यंग या कटाक्ष के विभिन्न प्रकारों का पता लगाने की शुरुआत हो चुकी है, मूल्यांकन प्रक्रिया में कटाक्ष और व्यंग के बीच के अंतर, और उसमें निहित भाषा और संस्कृति-विशिष्ट लक्षणों को शामिल करना। हालाँकि अंग्रेज़ी भाषा के लिए कई शोध मौजूद है और इसी प्रक्रिया को अन्य भाषाओं के लिए भी इस्तेमाल किया जा सकता है। डॉ. जोशी कहते हैं, “चूँकि मशीन लर्निंग विधियों में कटाक्ष या व्यंग को निकालने के लिए उचित सूचक होते हैं, इसलिए विधियाँ पकड़ पाती हैं, इसके अनुरूप ही डैटाबैस अन्य भाषाओं या संस्कृति में भी दिए जा सकते हैं। हालाँकि एक विश्वव्यापी कटाक्ष वर्गीकर्ता एक कल्पना है।”वर्गीकर्ता के लक्षणों या डैटासैट को अलग-अलग भाषाओं और क्षेत्र की संस्कृतियों के लिए संशोधित करना होगा। सभी संस्कृतियों और भाषाओं में कटाक्ष का पता लगाने के लिए एक संभावित खाता तैयार करना होगा।
हालाँकि, कटाक्ष को समझने के लिए ट्रेनिंग सिस्टम में, क्या ऐसी संभावना है कि ये सिस्टम हमारे ऊपर भी कटाक्ष कर सके? डॉ. जोशी कहते हैं कि, ”यह स्वचालित रूप से तो ऐसा नहीं कर सकता लेकिन इसके लिए इसे सही स्थिति में प्रोग्राम किया जा सकता है। सिरि, कोर्टाना या शॉपिंग पोर्टल पर डिजिटल सहायक जैसे चैटबोट्स होते हैं। ये कंप्यूटर प्रोग्राम्स हैं जो मनुष्यों की तरह बात करते हैं। बोट्स को व्यंगात्मक या कटाक्ष होने के लिए प्रशिक्षित किया जा सकता है लेकिन वे हर समय व्यंगात्मक नहीं हो सकते हैं। इसलिए, यदि चैटबोट्स केवल सहायक हैं तो सॉफ्टवेयर आर्किटेक्ट्स और अन्य को उन परिस्थितियों का मूल्यांकन करना होगा कि कब चैटबोट्स को व्यंगात्मक या कटाक्ष होना पड़ेगा। आप औपचारिक रूप से चैटबोट्स को व्यंगात्मक नहीं करना चाहेंगे लेकिन यदि कोई गुस्सैल ग्राहक लंबे समय तक चैटबोट पर गुस्सा उतारता है तो बोट को यह निर्णय लेना होगा कि अब उसे व्यंग या कटाक्ष वाली प्रतिक्रिया देनी है। आप स्पष्ट रूप से देख सकते हैं कि कब एक बोट कटाक्ष हो सकता है, जब एक मनुष्य कटाक्ष हो।”
बयान सकारात्मक है या नकारात्मक यह बताने के लिए भावनात्मक पहचान सिस्टम के लिए ये सब सही और अच्छा है। हालाँकि जब यहीं सिस्टम कटाक्ष या व्यंग को बूझने में सक्षम होता है तो विषय वस्तु के पीछे की भावना को पहचानने में इसमें 4 प्रतिशत सुधार दिखता है। लेकिन कटाक्ष या व्यंग का पता लगाना पहेली बूझने जैसा है। डॉ. जोशी बताते हैं कि भावनात्मक पहचान सिस्टम कटाक्ष या व्यंग का पता लगाने में सक्षम हो जाता है तो यह एक बड़ी उपलब्धि होगी।