आईआईटी मुंबई का IMPART नामक नवीन वेब एप्लिकेशन जल सतह के तापमान पर दृष्टि रखने में शोधकर्ताओं की सहायता करता है एवं जलवायु परिवर्तन पर दृष्टि रखने में सहायक है।

फेसबुक, ट्विटर, इंस्टाग्राम जैसे सोशल मीडिया माध्यमों का उपयोग महत्वपूर्ण घटनाओं की पहचान करने के लिए किया सकता है।

Read time: 1 min
मुंबई
9 दिसम्बर 2019
फेसबुक, ट्विटर, इंस्टाग्राम जैसे सोशल मीडिया माध्यमों का उपयोग महत्वपूर्ण घटनाओं की पहचान करने के लिए किया सकता है।

शोधकर्ताओं ने सोशल मीडिया पोस्ट से सार्थक डेटा निकालने के लिए एक खोज प्रणाली विकसित की है

क्या आपने कभी फुटबॉल वर्ल्ड कप देखते समय, मध्यांतर में ट्विटर पर 'गोल' या 'किक' जैसे शब्दों को खोजने की कोशिश की है? यदि हाँ, तो आप शायद यह पता लगाने की कोशिश कर रहे थे कि पहले हाफ में पेनल्टी किक पर गोल किसने किया किंतु सम्भव है कि खोज परिणामों में फुटबॉल गोल के बजाय गोल अर्थात ‘जीवन-लक्ष्य’ और किक की जगह कॉफी पीने से मिलने वाली ‘किक’ संबंधित विकल्प आपके सामने आ जाए!

कई लोग सोशल मीडिया पर अपडेट और संदेश पोस्ट करते हैं, जिसे सूचना भंडार के रूप में देखा जा सकता है। क्या हम समाचार देखने या सुबह के समाचार पत्र की प्रतीक्षा करने के बजाय, हाल में घटित घटनाओं के बारे में जानकारी के लिए फेसबुक, ट्विटर, या इंस्टाग्राम की ओर रुख नहीं करते हैं? लेकिन प्रासंगिक जानकारी को इन माध्यमों से खोज पाना चुनौती भरा हो सकता है।

कंप्यूटर विज्ञान एवं इंजीनियरिंग विभाग, भारतीय प्रौद्योगिकी संस्थान मुंबई के शोधकर्ताओं की एक टीम ने माइक्रोसॉफ्ट इंडिया और गूगल के शोधकर्ताओं के साथ मिलकर, एक खोज प्रणाली तैयार की है, जिसे 'कंटेक्सटुअल इवेंट सर्च' या 'संदर्भगत घटना खोज' कहा गया है, जो वर्तमान समय में होने वाली घटनाओं का सार्थक अर्थ ट्विटर जैसी डेटा स्ट्रीम से निकाल पाने में उपयोगी है।

आखिर सोशल नेटवर्किंग प्लेटफार्मों में ट्विटर ही क्यों? मनोज अग्रवाल, जो कंटेक्सटुअल इवेंट सर्च प्रणाली बनाने वाली टीम के सदस्य है, कहते है कि "हमने एक शोधपत्र पढ़ा, जिसमें दावा किया गया था कि ट्विटर का इस्तेमाल वर्तमान में हो रही घटनाओं को जानने के लिए किया जा सकता है, जिसमे एक उदाहरण था, ट्विटर के माध्यम से भूकम्प की सबसे पहली जानकारी का मिलना”।

एक महत्वपूर्ण अंतर्दृष्टि, जो शोधपत्र से पता चली, वह यह है कि अन्य सोशल नेटवर्किंग प्लेटफार्मों के बनिस्बत, ट्विटर वर्तमान में हो रही वास्तविक दुनिया की घटनाओं का पता करने के लिए एक महत्वपूर्ण माध्यम है। इससे शोधकर्ताओं को ट्विटर संदेशों का उपयोग करके सभी महत्वपूर्ण घटनाओं की पहचान करने के लिए एक सामान्य-उद्देश्य प्रणाली बनाने के बारे में सोचने का विचार आया ।

लोगों के एक समूह के लिए प्रासंगिक गतिविधि को घटना कह सकते है। उदाहरण के तौर पर फुटबॉल विश्व कप का फाइनल या "गो ग्रीन" का समर्थन करने के लिए एक साइकिल रैली। डेटा स्ट्रीम सोशल मीडिया संदेशों की एक श्रृंखला है, जो एक विशेष समय अवधि के भीतर एक घटना से संबंधित होती है। चूंकि दुनिया भर से हजारों लोग बहुत ही कम समय के अंतराल में पोस्ट करते हैं, इसलिए एक घटना के दौरान जानकारी असंरचित रूप में बहुत अधिक मात्रा में एकत्र हो जाती है।

पारंपरिक कीवर्ड खोज द्वारा प्रासंगिक संदेशों की खोज करना मुश्किल हो जाता है, क्योंकि यह प्रासंगिक संदेशों की जगह सबसे हाल में किये गए संदेशों को ही दिखाता है। उदाहरण के रूप में, यदि हमें मुंबई के एक रेलवे स्टेशन पर फुट ओवरब्रिज से संबंधित किसी दुर्घटना के बारे में पता करना हो, तो हम 'पुल', 'अंधेरी' और 'मुंबई' जैसे शब्दों की खोज करते हैं। पारंपरिक खोज परिणाम पुल के पास एक दुकान का पता और एक फुट ओवर ब्रिज का पता देते हैं और दुर्घटना के बारे में सूचित करने वाले संदेश कहीं पीछे रह जाते है। अतः हमें सबसे प्रासंगिक संदेशों के लिए, एक-एक करके खोज परिणामों को ध्यान से देखना पड़ता है।

इस समस्या का समाधान करने में सक्षम, शोधकर्ताओं द्वारा विकसित 'कंटेक्सटुअल इवेंट सर्च' लगातार ट्विटर डेटा स्ट्रीम को स्कैन करता है और अपने आप वर्तमान में हो रही घटना लिए एक प्रासंगिक घटना का सारांश बनाता है। यह उस विशेष घटना से संबंधित महत्वपूर्ण उप-घटनाओं का पता लगाता है और उन्हें कालानुक्रमिक क्रम में व्यवस्थित करता है। जब इस घटना से संबंधित कोई महत्वपूर्ण अपडेट या प्रगति होती है, तो यह इस सारांश को अतिरिक्त जानकारी प्रदान करता है। जिससे यह डेटाबेस प्रासंगिक खोज को आसान और अधिक सटीक बनाता है। अधिकांश वास्तविक समय की घटनाओं में घटनाओं के मुख्य अनुक्रम के अलावा कई पहलू या तथ्य होते हैं, जो उससे जुड़े होते हैं। 'कंटेक्सटुअल इवेंट सर्च'  ऐसे पहलुओं की पहचान करता है और प्रत्येक पहलू से बड़ी संख्या में संबंधित संदेशों को प्रस्तुत करता है, जो कि घटना के अनुसार आयोजित किए जाते हैं।

सभी खोजी गई घटनाओं के लिए सारांश डेटाबेस को लगातार अपडेट करना संगणना संसाधनों के संदर्भ में बहुत महँगा है, इसलिए शोधकर्ता इसे ‘लेज़ी अपडेट विधि’ के रूप में उपयोग करते हैं, जहाँ केवल लोकप्रिय घटनाओं के लिए सारांश अपडेट किए जाते हैं क्योंकि वे तेजी से बदलते हैं। इन परिवर्तनों को व्यवस्थित किया जाता है ताकि एक घटना के बारे शुरू से आख़िरी तक सुयोजित क्रम (ईवेंट थ्रेड) में पता लगाया जा सके। ईवेंट थ्रेड संबंधित 'घटना विषय' के बारे में संदेशों को पहचानने और संबद्ध करने में मदद करता है, जो अन्यथा बहुत चुनौतीपूर्ण है।

इस खोज तंत्र की एक महत्वपूर्ण विशेषता यह है कि यह अनावश्यक और गैर-प्रासंगिक डेटा, (जो सोशल मीडिया स्ट्रीम में बहुतायत से उपलब्ध होती है) को छोड़ने में सक्षम है। डॉ अग्रवाल बताते हैं - “जब कोई घटना घटित होती है, तब  तेजी से बढ़ते डेटा स्ट्रीम में से महत्वपूर्ण हिस्सों की पहचान करने के लिए हम इसे एक रूपरेखा प्रदान करते हैं। यह डेटा की मात्रा को नियंत्रण में रखता है, जो इस प्रणाली को मापनीय बनाता है"।

यह देखना दिलचस्प होगा कि एक घटना जैसे "नैरोबी आतंकवादी हमले" के बारे में विवरण खोजने में यह प्रणाली  कैसे मदद कर सकती है। शोधकर्ताओं ने यह प्रदर्शित किया कि उनके खोज परिणाम के सूत्र में १३ उप-घटनाओं का एक समूह मिला। इसकी शुरुआत एक मॉल पर हमले के बारे में ट्वीट के साथ हुई, इसके बाद हमलावरों पर कार्रवाई, अधिकारियों और नागरिकों द्वारा अफवाहों, दावों और जवाबी दावों के बारे में ट्वीट, आदि स्पष्ट रूप से सबसे प्रासंगिक संदेश थे, जो सभी वास्तविक समय में १६४००० से अधिक बार खोजे गए थे। यदि हम क्वेरी "नैरोबी वेस्टगेट" खोजते है, तो परिणामों में "केन्याई मॉल पर हमला शुरू होने के लगभग एक पूरा दिन बाद, बंदूकधारी और बंधक अभी भी मॉल के अंदर हैं", जैसे ट्वीट दिखते है जो यह दिखाता है कि क्वेरी कीवर्ड न होते हुए भी प्रासंगिक हैं। इस प्रकार, इस प्रणाली का उपयोग लाइव डेटा स्ट्रीम में घटनाओं को जोड़कर एक कहानी बनाने के लिए किया जा सकता है।

वर्तमान में यह तकनीक प्रयोगशाला तक ही सीमित है और शोधकर्ताओं ने इसे बड़े वैज्ञानिक मंचों जैसे इंटरनेशनल कॉन्फ्रेंस ऑन एक्स्टेंडिंग डेटाबेस टेक्नोलॉजी, इंटरनेशनल कॉन्फ्रेंस ऑन वेरी लार्ज डेटाबेस और आईआईटी मुंबई में प्रदर्शित किया है।

डॉ. अग्रवाल कहते हैं कि “हमारी योजना इसे और व्यापक बनाने की है। व्यावसायिक उपयोग के लिए डेटा अधिग्रहण की लागत के लिए वित्त पोषण और मानव संसाधनों की उपलब्धता सुनिश्चित होने पर हम इसे ६ महीने की अवधि में व्यावसायिक रूप से उपलब्ध करा सकते हैं |”