भारतीय तंत्रज्ञान संस्था मुंबई येथे संगणक वापरून उपरोधिक विधाने ओळखण्याच्या विविध मार्गांचा अभ्यास करण्यात आला.
इंटरनेट ही जगातली सर्वात मोठी “सूचना देणारी यंत्रणा” म्हणावी लागेल. एखादी वस्तू ऑनलाईन विकत घेण्याआधी किंवा एखादा चित्रपट बघण्याआधी हजारो लोकांनी त्यावर लिहिलेल्या प्रतिक्रिया आपण बघतोच, नाही का? ऑनलाईन बाजारव्यवस्थेत या प्रतिक्रियांमुळे एखाद्या विक्रेत्याच्या महसूलावर परिणाम होऊ शकतो. म्हणूनच अशा कंपन्या आपल्या ग्राहकाची प्रतिक्रिया जाणून घेण्याची धडपड करत असतात. त्यासाठी या प्रतिक्रिया वाचून ग्राहक खूष आहे, रागावलेला आहे का नाराज झालेला आहे हे सांगणाऱ्या विविध यंत्रणा वापरल्या जातात. या यंत्रणांना ‘उपरोध’ ही भावना जाणून घेणे कठीण असते. भारतीय तंत्रज्ञान संस्था मुंबई येथील प्राध्यापक पुष्पक भट्टाचार्य यांच्या नेतृत्वाखाली काम करणाऱ्या एका गटाने संगणकाची मदत घेऊन ऑनलाईन लिखाणातून व्यक्त होणाऱ्या भावना ओळखून काढण्याच्या विविध मार्गांचे पृथक्करण केले.
एसीएम कॉम्प्युटर सर्व्हेज इथे प्रकाशित झालेल्या या विषयावरील शोधनिबंधाचे लेखक डॉ. आदित्य जोशी सांगतात, “लोकांना आपल्याबद्दल काय वाटते हे जाणून घेण्यासाठी मोठ्या संस्था किंवा संघटना (राजकीय, व्यावसायिक इत्यादी) समाजमाध्यमांचा (सोशल मिडीया) वापर करतात. कर्मचाऱ्यांच्या कामगिरीचा ताळेबंद, हॉटेलांमधले प्रतिक्रिया विचारणारे (फीडबॅक) फॉर्म्स इत्यादी ठिकाणी लिहिलेल्या मजकुरालादेखील ते लागू पडते.” ऑनलाईन प्रतिक्रिया विविध स्वरूपाच्या असतात. काही थेट असतात. त्यातून ग्राहक खूष आहे का नाही ते स्पष्टपणे कळते. पण काही प्रतिक्रिया मात्र अशा असतात – “केवळ अप्रतिम ! हा डाय वापरून माझे केस अगदी मला हव्या तशा तांबड्या रंगाचे झाले !” पहिल्या नजरेत हे विधान वाचून ही चांगली प्रतिक्रिया असल्याचे मत होईल, अर्थात ही प्रतिक्रिया केस काळे करणाऱ्या डायसाठीची नसेल तरच. अभिप्राय वाचताना, वस्तू घेऊ इच्छिणाऱ्या व्यक्तीकडे हीदेखील माहिती असेल तर तिला या विधानातील उपरोध लक्षात येईल ! आता समजा, एखादा संगणक या विधानाचे विश्लेषण करायचा प्रयत्न करत असेल तर? त्याला हा उपरोध लक्षात येईल का? या विषयावर चालू असलेल्या अभ्यासानुसार तसे शक्य आहे. एखादा मजकूर उपरोधिक आहे किंवा नाही हे ठरवण्याच्या विविध पद्धती या अभ्यासातून समोर आल्या आहेत.
“भावनांचे विश्लेषण करणाऱ्या प्रणालींच्या दृष्टीने वाक्यातील उपरोध ही कायमची डोकेदुखी आहे. म्हणूनच उपरोध ओळखण्यासाठी केलेले संशोधन उपयुक्त आहे,” असे या कामामागील प्रेरणेविषयी बोलताना डॉ. जोशी म्हणतात. डॉ. जोशी, प्राध्यापक पुष्पक भट्टाचार्य आणि डॉ. मार्क कारमन या तिघांनी ‘इन्व्हेस्टीगेशन्स इन कम्प्युटेशनल सरकॅझम’ हे पुस्तक लिहिले आहे. त्यात संगणकीय उपरोधाबद्दल सांगोपांग माहिती दिलेली असून या संशोधनासमोरील आव्हाने आणि संधी याबद्दलही सांगितले आहे.
उपरोध ओळखण्याचे मार्ग
माणसांप्रमाणेच संगणकदेखील उपरोधाची विविध उदाहरणे पाहून तो ओळखायला ‘शिकतात’. संगणकांना ते शिकण्यासाठी मदत करण्याचा एक मार्ग म्हणजे ट्विटरवर मोठ्या प्रमाणात उपलब्ध असलेला डेटा वापरून #sarcasm किंवा #not अशा हॅशटॅगसहित केलेले ट्वीट्स हे उपरोधिक मजकूर असल्याचे ‘प्रशिक्षण’ देणे. मात्र ट्वीटर हे संपर्काचे केवळ एक माध्यम झाले. असे हॅशटॅग नसलेल्या पण उपरोधिक मजकूर लिहिलेली इतर काही संकेतस्थळे असू शकतात.
म्हणूनच उपरोध ओळखण्याचा एक प्राथमिक मार्ग म्हणजे नकारात्मक वाक्यप्रयोग पण सकारात्मक क्रियापदे असलेले नमुने ओळखणे. उदाहरणार्थ, “पहाटे ४ वाजता डोकेदुखीनं जाग आलेली मला भारीच आवडते !” अशासारखे नमुने घेऊन उपरोध किंवा सांख्यिकी वर्गीकारकासाठी (स्टॅटिस्टिकल क्लासिफायर) त्यांचा चल (व्हेरीएबल) म्हणून वापर करणे. सांख्यिकी वर्गीकारक हे कार्य (फंक्शन) संगणकाला उदाहरणांचा एक संच पुरवून त्यातून उपरोधिक मजकूर कसा ओळखायचा याचे प्रशिक्षण देते. शोधनिबंधात विशद केलेल्या एका अभ्यासानुसार लॉजिस्टिक रिग्रेशन क्लासिफायर ही पद्धत वापरून एखादा मजकूर उपरोधिक आहे का नाही या प्रश्नाचे ८१% वेळा बरोबर उत्तर मिळते. एखाद्या वाक्यात काही ठराविक अटींची पूर्तता होते आहे का नाही ते बघायचे काम ही क्लासिफायर पद्धत करते.
असे नमुने गोळा करण्याची आणखी एक पद्धत म्हणजे चक्क मानवी भाष्यकारांची मदत घेऊन मजकूर उपरोधिक आहे किंवा नाही ते ठरवणे. विशेषतः जेव्हा मजकूर मोठा असतो आणि हॅशटॅगसारख्या गोष्टींची मदत नसते तेव्हा ही पद्धत वापरता येते. अर्थात भाष्यकारांची सांस्कृतिक पार्श्वभूमी वेगवेगळी असल्याने यात एक वेगळीच अडचण दिसून येते.
“उपरोध ओळखताना त्या त्या व्यक्तीच्या संस्कृतीचा कसा परिणाम होतो यावर आमच्या एका शोधनिबंधात चर्चा केलेली आहे. आम्ही अमेरिकन आणि भारतीय माणसांची तुलना करून उपरोधाबद्द्लच्या त्यांच्या कल्पना कशा वेगळ्या असतात हे बघितले,” असे डॉ. जोशी सांगतात. “बाहेर ऊन पडलंय आणि मी ऑफिसात आहे, वाह!” हे वाक्य अमेरिकन भाष्यकारांना उपरोधिक वाटले पण भारतीय भाष्यकारांना मात्र वाटले नाही. याचे कारण आहे, भारताचे हवामान.
कधीकधी माणसांनादेखील ईमेल्स आणि एसएमएसचा सूर नक्की काय आहे ते ओळखणे कठीण जाते. “तुझे केस भारी आवडले हं मला!” असे कोणी उदगारले तर ते खरे आहे का नाही ते समजतेच असे नाही. मग संगणकाने तरी वाक्यातला हा सूर कसा ओळखायचा? काही वाक्ये उघडच झोंबणारी असतात. “आपल्याकडे लोकांनी दुर्लक्ष केलं की कसलं मस्त वाटतं!” हे वाक्य क्वचितच सरळ अर्थाने घेता येते. याउलट हे वाक्य बघा , “सुट्टीचा दिवस गणितं सोडवत घालवायला काय मजा येते !” हे वाक्य गणित न आवडणाऱ्या लोकांसाठी उपरोधिक असले तरी ज्यांना गणित आवडते त्यांच्यासाठी खरे आहे. बऱ्याच वेळेस खरी मेख असते ती त्या वाक्यामागच्या संदर्भात. माणसांना जसा अर्थ लावण्यासाठी संदर्भ लागतो तसाच संगणकालाही लागतो. संगणकीय संशोधनात सध्या याच गोष्टीचा उपयोग करून घेण्याचे वारे वाहत आहेत. ट्विट्सच्या बाबतीतसुद्धा ते लिहिणाऱ्याने जर त्याला उपरोधिक म्हटले नसेल तर संदर्भ माहीत असणे आवश्यक ठरते. त्या विशिष्ट ट्वीटच्या आधी आणि नंतर येणारे ट्विट्स वाचून त्या विषयाबद्दल लेखकाच्या काय भावना होत्या याचा अंदाज येतो आणि संगणकाला त्या माणसाची विचारसरणी समजून घ्यायला मदत होते. मग एखाद्या व्यक्तीने “राजकारण्यांचं कधीच चुकत नाही. #politics” असे ट्विट केले असेल तर ते उपरोधाने आहे का नाही हे संगणकाला समजू शकते.
उपरोधाची विविध रूपे
उपरोधाचे विविध प्रकार ओळखणे, व्यंग आणि उपरोध यातील फरक ओळखणे आणि मूल्यमापन पद्धतीत भाषा आणि संस्कृतीची वैशिष्ट्ये सामावून घेणे अशा विविध दिशा आता उपरोध ओळखण्याच्या प्रक्रियेत सापडू लागल्या आहेत. बहुतेक सर्व संशोधन इंग्रजी भाषेसाठी झालेले असले तरी इतर भाषांसाठीदेखील तशाच प्रकारच्या पद्धती वापरता येतील.
“उपरोध दर्शवणारे योग्य असे निर्देशक ओळखण्यावर मशीन लर्निंग (यंत्र शिक्षण) पद्धती आधारित आहेत. दुसऱ्या एखाद्या भाषेत तशाच प्रकारची माहिती किंवा संस्कृती उपलब्ध असेल तरच एका भाषेसाठीची पद्धत दुसऱ्याही भाषेला लागू करता येईल. मात्र उपरोध दर्शविणारा एकच सर्वसाधारण वर्गीकारक मिळू शकेल असा समज एक मिथकच म्हणावे लागेल.” असे डॉ. जोशी म्हणतात. संबंधित भाषेला आणि संस्कृतीला अनुसरून त्या वर्गीकारकासाठी लागणारा माहितीचा संच किंवा वर्गीकारकाची वैशिष्ट्ये बदलावी लागतील. “उपरोध ओळखण्याच्या पद्धती विविध संस्कृती आणि भाषांना लागू करणे ही पुढील कामाची दिशा असू शकते,” असे ते पुढे म्हणतात.
मात्र उपरोध ओळखण्यासाठी या सर्व प्रणालींना प्रशिक्षित करत असताना, त्या प्रणाली आपल्यावरच त्याचा उपयोग करतील हे कितपत शक्य आहे? आपोआप तसे काही होणार नाही असे डॉ. जोशी म्हणतात पण योग्य त्या परिस्थितीत उपरोधिक विधाने करण्यासाठी त्यांना प्रोग्राम करता येऊ शकते. सिरी, कोर्टाना किंवा खरेदीसाठी तयार केलेल्या वेबसाईट्सवरचे डिजिटल सहायक हे सगळे चॅटबॉट्स आहेत. म्हणजे माणसांसारखे बोलू किंवा वागू शकणारे संगणक प्रोग्राम्स. “बॉट्सना उपरोधिक वागण्या/बोलण्याचे प्रशिक्षण देणे शक्य आहे पण त्यांनी कायमच उपरोधिक वागून चालणार नाही. तेव्हा चॅटबॉट्स केवळ सहायकाचे काम करणार असतील तर कोणत्या प्रसंगी त्याने उपरोधिक वागणे गरजेचे आहे याचे मूल्यमापन सॉफ्टवेअर रचणाऱ्यांनी करणे आवश्यक आहे ! एखाद्या औपचारिक प्रसंगी चॅटबॉट उपरोधिक वागला तर ते चालणार नाही. मात्र, एखादा चिडलेला ग्राहक त्याच्याशी बराच काळ उद्धटपणे वागला तर तो बॉट एखादे उपरोधिक उत्तर देऊ शकतो. यावरून बॉटने केव्हा उपरोधिकपणे वागावे आणि माणसाने केव्हा उपरोधिकपणे वागावे यात बरेच साम्य आहे हे स्पष्ट होते.”
भावना ओळखणारी प्रणाली वापरून एखादे विधान सकारात्मक आहे का नकारात्मक ते सांगणे ठीकच आहे. मात्र तीच प्रणाली जेव्हा उपरोधही ओळखू लागते तेव्हा एखाद्या मजकुरामागची भावना काय आहे हे बरोबर ओळखण्यात ४% ने सुधारणा होते.
"भावनांच्या विश्लेषणाचे कोडे उलगडण्यात उपरोध ओळखण्यातील सुधारणेचा महत्त्वाचा वाटा आहे. भावनिक विश्लेषणाबद्दल असलेले शोधनिबंध सध्या उपरोध ओळखण्याच्या क्षमतेबद्दल मौन बाळगून असतात. मात्र उपरोध ओळखणे शक्य झाले तर भावनिक विश्लेषण करणाऱ्या प्रणाली आणखी विस्तृत काम करू शकतील.” असे डॉ. जोशी सांगतात.