बिग डेटा कैसे बदल रहा है दैनिक जीवन अमेरिका के पार?

'बड़ा डेटा' का विचार सर्वव्यापी हो गया है, ख क्या है और यह हमारे जीने के तरीके को कैसे बदल रहा है? हम डेटा वैज्ञानिक, हार्वर्ड पीएचडी और नेशनल बुक अवार्ड के लिए नामित कैथी ओ'नील के साथ बैठ गए।

सीटी: आइए मूल बातों से शुरू करें - वास्तव में 'बड़ा डेटा' क्या है?

CO: बिग डेटा चीजों की भविष्यवाणी करने का एक नया तरीका है। अधिक विशेष रूप से, 'बड़ा डेटा' संयोग से एकत्रित डेटा का उपयोग है - जैसे आप अपने ब्राउज़र के माध्यम से कैसे खोजते हैं या आप फेसबुक पर क्या करते हैं - आपके बारे में चीजों का पता लगाने के लिए, जैसे कि आप क्या खरीदने जा रहे हैं या आपकी राजनीतिक संबद्धताएं क्या हैं। यह लोगों को पता लगाने का एक अप्रत्यक्ष तरीका है। उदाहरण के लिए, एक कैमरा जो हमें सर्वेक्षण कर रहा है वह यह नहीं पूछता है कि आप क्या कर रहे हैं? - यह सिर्फ यह देखने के लिए मिलता है कि हम क्या कर रहे हैं।

CT: और एक एल्गोरिथ्म क्या है?

CO: एल्गोरिथ्म कम्प्यूटेशन हैं कि [डेटा] की व्याख्या करें जो भविष्यवाणी करने के लिए आपके बारे में इकट्ठा हुए हैं। इसे एक गणितीय समीकरण की तरह समझें जो एक सवाल का जवाब देने की कोशिश करता है जिसे भविष्यवाणी के रूप में तैयार किया गया है, जैसे: 'क्या यह व्यक्ति कुछ खरीदने के बारे में है?' या 'क्या यह व्यक्ति किसी को वोट देने वाला है?'

CT: मैं अभी इसके बारे में इतना क्यों सुन रहा हूँ?

CO: 'बड़े डेटा' से पहले, सांख्यिकीविद लोगों को भविष्य का पता लगाने के लिए मतदान जैसी महंगी चीजें करेंगे। उदाहरण के लिए, लोगों से सीधे सवाल पूछना जैसे: 'आप किसे वोट देने जा रहे हैं?' अब, हम तेजी से 'डेटा एग्जॉस्ट' पर भरोसा करते हैं, जो कि मैं आपके बारे में लगातार बातें करने के लिए लगातार आपके बारे में एकत्रित किए गए डेटा को कॉल करता हूं।

'बड़े डेटा' से पहले, कंपनियों के पास बनाने के लिए केवल जंगली अनुमान थे। अब, हमारे पास जंगली अनुमानों से बेहतर है। आश्चर्य की बात यह है कि अधिकांश बड़े डेटा एल्गोरिदम बेतहाशा गलत हैं, और यह सोचने का कोई कारण नहीं है कि वे सही हैं। लेकिन वे जंगली अनुमानों से बेहतर हैं। और यही कारण है कि बड़े डेटा ने इसे बंद कर दिया है।

CT: यदि वे गलत हैं, तो वे क्या दर्शा रहे हैं?

CO: त्रुटिपूर्ण डेटा सेट करता है कि हम उन्हें फ़ीड करते हैं। एल्गोरिदम कुछ भी नहीं जानते कि हम उन्हें क्या बताते हैं। इसलिए जब हमारे पास असमान डेटा होता है और हम उसे एल्गोरिथ्म या पक्षपाती डेटा को खिला रहे हैं, तो वह सोचेंगे कि यह वास्तविकता है।

आइला जॉनसन / © संस्कृति ट्रिप

CT: इसका वास्तविक विश्व उदाहरण क्या है?

CO: एक उदाहरण हो सकता है कि संयुक्त राज्य अमेरिका में, काले लोगों को सफेद लोगों की तुलना में धूम्रपान के बर्तन के लिए गिरफ्तार किए जाने की अधिक संभावना है। ऐसा इसलिए नहीं है क्योंकि काले लोग बर्तन को अधिक बार धूम्रपान करते हैं - दोनों समूह एक ही दर पर धूम्रपान करते हैं। अश्वेत लोगों को इसके लिए गिरफ्तार किए जाने की संभावना है। यदि आप एक एल्गोरिथ्म को सौंपते हैं, जो हम करते हैं, तो यह सही ढंग से अनुमान लगाएगा कि काले लोगों को धूम्रपान करने वाले बर्तन के लिए भविष्य में गिरफ्तार होने की अधिक संभावना है। और फिर यह काले लोगों को आपराधिकता के लिए उच्च जोखिम स्कोर देगा, जिसका आपराधिक सजा पर प्रभाव पड़ता है।

एक अन्य उदाहरण एक सोचा प्रयोग है। मैं फॉक्स न्यूज का उपयोग करूंगा, क्योंकि फॉक्स न्यूज में हाल ही में लिंगभेद की आंतरिक संस्कृति से संबंधित विस्फोट हुए हैं। प्रयोग है 'अगर भविष्य में लोगों को काम पर रखने के लिए मशीन लर्निंग एल्गोरिदम बनाने के लिए फॉक्स न्यूज ने अपने स्वयं के डेटा का उपयोग करने की कोशिश की तो क्या होगा?'

उदाहरण के लिए, हम फॉक्स न्यूज में सफल रहे लोगों की तलाश कर रहे हैं। यह निर्भर करता है कि आप सफलता को कैसे परिभाषित करेंगे, लेकिन आमतौर पर आप ऐसे लोगों को देखते हैं, जो लंबे समय तक उठते हैं, पदोन्नति पाते हैं या रहते हैं। उन उपायों में से कोई भी, डेटा प्रतिबिंबित करेगा कि महिलाएं फॉक्स न्यूज में सफल नहीं होती हैं। यदि इसे काम पर रखने वाले एल्गोरिदम के रूप में उपयोग किया जाता है, तो यह उस समस्या का प्रसार करेगा। यह आवेदकों के एक पूल को देखेगा और यह कहेगा कि 'मैं किसी भी महिला को काम पर रखना नहीं चाहता, क्योंकि वे यहां सफल नहीं हैं। वे अच्छे यात्री नहीं हैं। ' और यह सिर्फ फॉक्स न्यूज होना जरूरी नहीं है - हर कॉर्पोरेट संस्कृति में पूर्वाग्रह हैं। जब आप एक एल्गोरिथ्म डेटा खिलाते हैं, तो एल्गोरिथ्म पूर्वाग्रह तब प्रचारित करता है। यह समाज में पहले से मौजूद पूर्वाग्रहों को मजबूत करता है।

सीटी: पूर्वाग्रह जानबूझकर हैं?

CO: मुझे नहीं लगता कि डेटा वैज्ञानिक सेक्सिस्ट या नस्लवादी एल्गोरिदम बनाने की कोशिश कर रहे हैं। लेकिन मशीन सीखने के एल्गोरिदम असाधारण रूप से अपेक्षाकृत बारीक पैटर्न को उठाते हैं, और फिर उन्हें प्रचारित करते हैं। यह कुछ ऐसा नहीं है जो डेटा वैज्ञानिक जानबूझकर कर रहे हैं, लेकिन यह पूर्वाग्रह है।

सीटी: हमारे दैनिक जीवन में गलत एल्गोरिदम की क्या भूमिका है?

CO: वे लोगों के जीवन के लिए सभी प्रकार के निर्णयों में उपयोग किए जा रहे हैं - कॉलेज प्रवेश से लेकर नौकरी पाने तक सब कुछ।

ऐसे एल्गोरिदम हैं जो यह तय करते हैं कि पुलिस, पड़ोस के साथ-साथ एल्गोरिदम कैसे तय करेंगे कि न्यायाधीश कैसे प्रतिवादियों को सजा देंगे। ऐसे एल्गोरिदम हैं जो तय करते हैं कि आप बीमा के लिए कितना भुगतान करेंगे, या आपके क्रेडिट कार्ड पर किस तरह की एपीआर [ब्याज दर] मिलती है। ऐसे एल्गोरिदम हैं जो तय करते हैं कि आप अपनी नौकरी पर कैसे काम कर रहे हैं, जिनका उपयोग वेतन वृद्धि निर्धारित करने के लिए किया जाता है। जन्म की तिल मृत्यु से, हर कदम पर एल्गोरिदम हैं।

CT: तो यह हमें कहाँ छोड़ता है?

CO: हमने बड़े डेटा युग में छलांग लगाई है और हर एक समस्या पर एल्गोरिदम फेंका है, जो हमें लगता है कि उन एल्गोरिदम को मनुष्यों की तुलना में अधिक उचित होना चाहिए - लेकिन वास्तव में वे मनुष्यों के समान अनुचित हैं। हमें बेहतर करना होगा।

डॉ। ओ'नील के साथ हमारे साक्षात्कार के दूसरे भाग को पढ़ने के लिए यहां क्लिक करें। उनकी किताब, द वेपन्स ऑफ मैथ डिस्ट्रक्शन: हाउ बिग डेटा इनक्रीसिटी और थ्रेट्स डेमोक्रेसी अब उपलब्ध है।