तेल शुद्धीकरण कारखान्यातील अपशिष्ट पाणी वाळूमधून वाहिल्यानंतर त्यात प्रदूषकभक्षी जीवाणूंचे थर (बायोफिल्म) तयार झाले व या थराने पाण्यातील घातक संयुगे नष्ट केली.

ट्विटर च्या खाणीतील रत्ने

Read time: 1 min
मुंबई
3 डिसेंबर 2019
ट्विटर च्या खाणीतील रत्ने

ट्विटर सारख्या सोशल मिडिया वरील संदेशांमधून अर्थपूर्ण माहिती काढू शकणारी प्रणाली विकसित

फुटबॉल वर्ल्ड कप चा सामना सुरू आहे, तुम्ही टीव्ही लावला तर हाफ टाईम सुरू आहे, कुणी गोल केला, कुणाला पेनल्टी किक मिळाली ते बघायला तुम्ही इंटरनेट वर ‘गोल’ आणि ‘किक’ शोधायला सुरुवात केली, तर तुम्हाला फुटबॉल च्या माहितीबरोबर ‘गोल घुमट’, आयुष्याची ध्येये, कॉफीने मिळते ती ‘किक’ याही गोष्टी शोध परिणामांमध्ये असणार हे नक्की!
 
असंख्य लोक सोशल मिडिया वर संदेश व माहिती पाठवतात, त्यामुळे हा मजकूर माहितीचा मोठा खजिना असतो. ताज्या घडामोडींची माहिती मिळवण्यासाठी कित्येक वेळा वर्तमानपत्रासाठी किंवा टीव्ही वरील बातम्यांसाठी थांबण्याऐवजी आपण फेसबुक, इनस्टाग्रॅम किंवा ट्विटर तपासतोच ना? पण आपल्याला हवी असलेली नेमकी माहिती मिळवण्यासाठी मात्र चांगलीच झटापट करावी लागते!

भारतीय तंत्रज्ञान संस्था मुंबई येथील संगणक शास्त्र व अभियांत्रिकी विभागातील संशोधकांनी, मायक्रोसॉफ्ट इंडिया व गूगल येथील संशोधकांच्या साथीने ‘कंटेक्स्चुअल इव्हेंट सर्च (Contextual Event Search)’ अर्थात ‘संदर्भात्मक घटना शोध’ ही शोध प्रणाली विकसित केली आहे. ही प्रणाली, ट्विटर किंवा तत्सम संकेतस्थळांवरील माहितीच्या चालू प्रवाहातून, ताज्या घडामोडींचे, त्या घटना घडत असतानाच, अर्थपूर्ण सारांश निर्माण करू शकते.

ट्विटर सारखे स्रोतच का? ‘संदर्भात्मक घटना शोध’ च्या संशोधकांपैकी एक असलेले मनोज अगरवाल सांगतात, “घटना घडत असतानाच त्या ओळखण्यास ट्विटर चा उपयोग करता येईल असा दावा करणारा एक लेख आमच्या निदर्शनास आला. उदाहरणादाखल, एका भूकंपाची बातमी कशी ट्विटर वरूनच सर्वप्रथम कळली होती, हे त्यांनी नमूद केले होते.”  त्या लेखात व्यक्त झालेली उल्लेखनीय बाब म्हणजे, ट्विटर इतर सोशल मिडिया संकेतस्थळांपेक्षा वेगळे असून, चालू घडामोडींचा, त्या प्रत्यक्ष घडत असताना मागोवा घेण्याचे ते महत्त्वाचे माध्यम आहे. यावरून प्रेरित होऊन, संशोधकांनी ट्विटर संदेशांमधून सर्व महत्त्वाच्या घटना आोळखण्यासाठी एक सर्वसाधारण प्रणाली तयार करण्याचा विचार केला.

माणसांच्या एखाद्या गटाशी निगडित घडामोडींना ‘घटना’ असे म्हणतात. उदाहरणार्थ चक्रीवादळ किंवा ढगफुटी यासारखी नैसर्गिक आपत्ती, किंवा क्रिकेट विश्वचषकाचा अंतिम सामना. त्या घटनेशी निगडित, ठराविक कालावधीत, सोशल मिडिया वर पाठवलेल्या संदेशांची मालिका म्हणजे डेटा स्ट्रीम किंवा माहिती प्रवाह. जगभरातून हजारो लोक अगदी कमी अवधीमध्ये संदेश पाठवत असल्यामुळे, घटना घडत असताना माहिती अतीशय वेगाने येत असते पण रचनाहीन असते.

साधा कीवर्ड सर्च म्हणजे प्रमुख-शब्द-शोध दिल्यास शोध परिणामात फक्त अलिकडील संदेश दिसतात, ते विषयाशी निगडीत असतातच असे नाही. ह्या पद्धतीने अपेक्षित शोध परिणाम मिळणे निश्चितच अवघड आहे. एक उदाहरण बघू. मुंबईत रेल्वे स्थनकामधला एक पूल पडल्याची खबर कानावर आली म्हणून आपण ‘पूल’, ‘अंधेरी’ किंवा ‘मुंबई’ असे काही शब्द शोधायचा प्रयत्न करू. रूढ पद्धतीने शोध घेतल्यास, पुलाच्या जवळील दुकानाचा पत्त्यापासून स्विमिंग पूल पर्यंत सर्व गोष्टी शोध परिणामांमध्ये दिसतात, पण दुर्घटनेची माहिती कुठेतरी खोल दडलेली असते. मग सदर माहिती मिळवण्यासाठी, आपल्याला एक एक करत सर्व शोध परिणाम नीट तपासावे लागतात.

‘संदर्भात्मक घटना शोध’ प्रणाली आपल्याला इथे अश्या रीतीने उपयोगी पडते. ही प्रणाली ट्विटर च्या माहिती प्रवाहाची सतत छाननी करत राहते आणि ताज्या घटनांचा संदर्भात्मक घटना सारांश तयार करते. त्या घटनांशी निगडित उपघटना शोधून त्यांचा कालक्रामानुसार अनुक्रम लावते. घटनेशी संदर्भात जी अद्ययावत माहिती मिळेल ती सारांशात जोडते. ह्या तयार माहितीसंचामुळे संदर्भात्मक शोध घेणे सोपे आणि अचूक होते.

खूप घटना घडत असताना मूळ घटनेसोबतच त्यांचे अनेक पैलू आणि तथ्य असतात. ‘संदर्भात्मक घटना शोध’ प्रणाली असे पैलू ओळखून, त्यांचा घटनावार संच उपलब्ध करून देते  

सापडलेल्या सर्व घटनांची माहिती सतत अद्ययावत ठेवणे संगणकीय संसाधनांच्या दृष्टीने फारच खर्चिक असते, त्यामुळे संशोधकांनी यात  ‘विलंबित अद्ययावत पद्धत’ (लेझी अपडेट, Lazy update) वापरली आहे. यामुळे केवळ वेगाने बदलणाऱ्या लोकप्रिय घटनांचीच माहिती अद्ययावत होते. घटनाक्रम व बदल एका साखळीत मांडले जातात. ह्या घटनांच्या साखळीचा, त्या घटनेशी निगडित विषय असलेले संदेश ओळखायला मदत होते, जे या साखळीशिवाय फारच कठीण झाले असते.

या शोध पद्धतीचा एक महत्त्वाचा फायदा असा आहे की ह्यात सोशल मिडिया च्या महिती प्रवाहात असलेली अतिरिक्त आणि विषयाशी संबंधित नसलेली माहिती गाळली जाते. डॉ. अगरवाल सांगतात, “वेगाने बदलणाऱ्या माहिती प्रवाहातून, तो निर्माण होत असतानाच, महत्त्वाचे माहिती संच ओळखू शकेल अशी चौकट आम्ही पुरवली आहे. ह्यामुळे माहितीसंचाचा आकार कमी राहतो व प्रणालीचा आकार लहान मोठा करणे सोपे होते”

“नैरोबी अतिरेकी हल्ला” घटनेचे तपशील शोधायला ही प्रणाली कशी उपयोगी पडली हे आपण बघुयात. संशोधकांनी असे दाखवले की वरील शब्दांचा शोध या प्रणालीने घेतल्यास १३ उपघटनांची घटना साखळी तयार होते. एका मॉल वर हल्ला झाल्याच्या एका ट्वीट ने सारांशाची सुरुवात झाली, त्यानंतर हल्लेखोरांविरुद्ध केलेली कारवाई, अफवा, प्रशासन व नागरिकांनी केलेले दावे आणि प्रतिदावे अश्या उपघटना एकापाठोपाठ त्यात आल्या. घटनेशी निश्चितपणे संबंधित असलेली ही माहिती सदर शोध प्रणाली ने, संकेतस्थळावर त्या कालावधीत आलेल्या १६४ हजार संदेशांमधून, ते संदेश येत होते त्याच वेळात शोधून काढली.  आपण “नैरोबी वेस्टगेट” असे शोधले तर परिणामांमध्ये “Nearly a full day after Kenyan mall Attack began, gunman and hostage still inside the mall (केनिया मधीम मॉल वर हल्ला होऊन जवळ जवळ एक पूर्ण दिवस लोटला, पण ओलीस व बंदूकधारी अजूनही मॉल च्या आत)” हा संदेश (ट्वीट) दिसतो. ह्या परिणामामुळे हे दर्शित होते की शोध घेण्यासाठी वापरलेले शब्द या संदेशात नाही, पण विषयाशी निगडीत असल्यामुळे हा संदेश परिणामांत समाविष्ट केलेला दिसतो.

सध्या प्रायोगिक तत्वावर असलेले हे तंत्रज्ञान संशोधकांनी अनेक वैज्ञानिक चर्चासत्रांमध्ये, जसे इंटरनॅशनल कॉन्फरन्स ऑन एक्सटेंडिंग डेटाबेस टेक्नॉलॉजी व इंटरनॅशनल कॉन्फरन्स ऑन व्हेरी लार्ज डेटाबेसेस व आयआयटी मुंबई, येथे सादर केले.

“ही (प्रणाली) अजून व्यापक करावी अशी आमची योजना आहे. वाणिज्यिक वापरासाठी माहितीसंच विकत घेणे, मनुष्यबळ इ. संसाधनांसाठी लागणारे योग्य ते आर्थिक सहाय्य मिळाले तर सहा महिन्यांत आम्ही बाजारात आणू शकू,” असे डॉ. अगरवाल म्हणाले.