hello guys, आज मैं आपको इस article में what is data preprocessing in Hindi (डाटा प्रीप्रोसेसिंग क्या है?) मैंने data mining के और भी बहुत सारें posts डाले हुए है आप चाहे तो उन्हें भी पढ़ सकते है:-
what is data preprocessing in Hindi
data preprocessing एक data mining तकनीक है जिसका प्रयोग raw data को महत्वपूर्ण और प्रभावी format (रूप) में बदलने के लिए किया जाता है.
Real world में जो data होता है वह अकसर incomplete (अधूरा), noisy, और inconsistent होता है.
incomplete का मतलब है कि उसमें attributes की कमी होती है. noisy का मतलब है कि इसमें errors होती है. inconsistent का अर्थ है कि डेटा में विसंगतियाँ और डेटा duplicate होता है.
Data preprocessing steps in hindi
data preprocessing में निम्नलिखित steps होते हैं:-
- D.ata cleaning
- Data transformation
- Data Reduction
1:- data cleaning
डाटा जो है वह irrelevant (असंगत) हो सकता है और इसके कुछ parts (हिस्से) missing हो सकते है. इसके लिए data cleaning की आवश्यकता पड़ती है. इसके अंतर्गत missing data, noisy data आदि को handle किया जाता है.
a). Missing data:- यह स्थिति तब उत्पन्न होती है जब डाटा में से कुछ डाटा missing होता है. इसको हम निम्नलिखित प्रकार handle कर सकते है:-
- tuples को ignore करना:- यह approach तभी उपयुक्त होती है जब हमारे पास बहुत बड़ी मात्रा में dataset होता है. और एक tuple के अंदर बहुत सारी values missing रहती है.
- missing values को fill करना:– इसको fill करने के बहुत सारें तरीके होते है. आप इसे manually भी fill कर सकते हो.
b). Noisy data:- noisy data जो है वह useless (बेकार) डाटा होता है. तथा इसे machine के द्वारा interpret नहीं किया जा सकता. दोषपूर्ण (faulty) डाटा को collect करने से एवं data entry में errors आने आदि से noisy data उत्पन्न हो जाता है. इसे निम्नलिखित तरीकों से handle किया जा सकता है:-
- binning method:- इस विधि का प्रयोग sorted data पर किया जाता है. इसमें पूरे data को एकसमान size के segments में विभाजित कर लिया जाता है और विभिन्न methods का प्रयोग task को पूरा करने के लिए किया जाता है. प्रत्येक segment को अलग अलग handle किया जाता है.
- Regression:- इस विधि में regression function का प्रयोग किया जाता है. regression दो प्रकार का होता है. linear और multiple.
linear regression में एक variable का प्रयोग किया जाता है जबकि multiple में दो से ज्यादा variables का प्रयोग किया जाता है. - Clustering:- इसके द्वारा समान प्रकार के data को एक cluster में रखा जाता है. और जो noisy data होता है वह cluster के बाहर हो जाता है.
इसे पूरा पढ़ें:- clustering क्या है?
2:- Data transformation
इस step के द्वारा, data को data mining की प्रक्रिया के लिए उपयोगी form में बदला जाता है. इसके निम्नलिखित तरीके होते हैं:-
- Normalization:- data values को एक विशिष्ट range में मापने के लिए इसका प्रयोग किया जाता है. यह range है- (-1.0 से 1.0 या 0.0 से 1.0).
- attribute section:– इस तरीके में, नए attributes को दिए गये attributes के set से निर्मित किया जाता है.
- Discretization:– इसका प्रयोग numeric attributes की raw values को replace करने के लिए किया जाता है.
- Hierarchy generation:– इसमें low-level के attributes को high level attributes में बदल दिया जाता है. जैसे:- attribute “city” को attribute “country” में बदल दिया जाता है.
3:- Data reduction
data mining एक ऐसी प्रक्रिया है जिसका प्रयोग बहुत बड़े मात्रा के data को handle करने के लिए किया जाता है. बड़े मात्रा के data के साथ काम करने के कारण कभी कभी analysis करना बहुत कठिन हो जाता है. इस परेशानी को दूर करने के लिए हम data reduction technique का प्रयोग करते है. इस technique का मुख्य उद्देश्य storage क्षमता को बढ़ाना और analysis costs को कम करना होता है.
d.ata reduction के steps निम्नलिखित है:-
- Data Cube Aggregation:- data cube को निर्मित करने के लिए aggregation operation को data पर apply किया जाता है.
- Attribute Subset Selection:- इसमें उचित attributes का प्रयोग किया जाता है और बाकी के attributes को discard (रद्द) कर दिया जाता है.
- Numerosity Reduction:- इसके द्वारा पूरे data को स्टोर करने की बजाय हम केवल data के model को स्टोर करते है.
- Dimensionality Reduction:- encoding विधियों के द्वारा यह data के size को कम कर देता है. यह lossy या lossless दोनों में से कोई भी हो सकता है. Dimensionality Reduction के दो प्रभावी methods है:- wavelet transforms और PCA (principal component analysis).
निवेदन:- मुझे उम्मीद है कि what is data preprocessing in hindi की यह post आपके लिए useful रही होगी. इसे अपने दोस्तों के साथ अवश्य share कीजिये. और आपके कोई भी questions है उन्हें comment के माध्यम से अवश्य बताइए. धन्यवाद.
Bahut use ful hai mere liye.
Thankyou sir
Sir please Data science ke bhi notes banaiye na,mein baki saare subjects apki hi site se padhti hu,apke notes bahot hi ache se samjh me aa jate hain,aur abhi Mera data science ka paper hai aur iske Hindi notes nahi mil raheinsir please help kariye.