தரவுச் செயலாக்கம்
தரவுச் செயலாக்கம் என்பது தரவில் இருந்து குறிப்பிட்ட வடிவங்களைப் பிரித்தெடுக்கும் செயல்முறை ஆகும். ஒவ்வொரு மூன்று ஆண்டுகளுக்கும் தரவு இரட்டிப்பு அடைவதுடன்,[1] அதிகப்படியான தரவு திரட்டப்பட்டதன் காரணமாக, இந்த தரவைத் தகவல்களாக மாற்றுவதற்கு தரவுச் செயலாக்க கருவிகள் மிகவும் பயன்படுகின்றன.
பயன்பாடுகள்
விற்பனை, கடுமையான மேற்பார்வை, மோசடிகளைக் கண்டுபிடித்தல் மற்றும் அறிவியல் கண்டுபிடிப்பு போன்ற மிகவும் பரவலான ஆய்வு நடைமுறைகள் உள்ள துறைகளில் பொதுவாக இவை பயன்படுத்தப்படுகின்றன.
வெளிப்படையான வடிவங்களை உடைய தரவு மாதிரிகளில் தரவுச் செயலாக்கத்தைப் பயன்படுத்தும் போது, அதில் தரவின் விவரிக்கப்படாத மாதிரிகளைப் பயன்படுத்துவதனால் தேவைப்படும் துறைக்குத் தொடர்பில்லாத வெளியீடுகள் உண்டாக்கப்படலாம் என்பதையும் முக்கியமாக கவனத்தில் கொள்ள வேண்டும். அதே போல, ஒரு வேளை குறிப்பிட்ட வடிவங்கள் "செயலாக்கம்" செய்யப்பட்ட மாதிரியில் இடம்பெறவில்லை என்றால், தரவுச் செயலாக்கத்தில் தேவைப்படும் துறையில் குறிப்பிட்ட வடிவங்களை தேடிப்பெற முடியாது. போதுமான அனுபவமற்ற "நுகர்வோர்கள்" "வியக்கத்தக்க திறன்கொண்டதாக" தரவுச் செயலாக்கத்தை நினைக்கும் மனப்பாங்கு உடையோராக உள்ளனர், மேலும் அவர்கள் இந்த தொழில்நுட்பத்தை அனைத்தையும் பார்க்க முடியக்கூடிய ஸ்படிகப் பந்தாக நினைக்கிறார்கள். மற்ற கருவிகளைப் போல, பொருத்தமான மூலப்பொருளுடன் இணைந்தால் மட்டுமே இது செயல்படும், இந்த நிலையில் பயனர் முதலில் குறிப்பிட்ட மற்றும் சுட்டிக்காட்டப்பட்ட தரவைச் சேகரிக்க வேண்டும். மேலும், குறிப்பிட்ட தரவுத் தொகுப்பில் குறிப்பிட்ட வடிவங்களைக் கண்டறிவது, தரவு உருவாக்கப்பட்டதில் இருந்து ஒட்டு மொத்த குறிப்பிட்ட வடிவத்தைச் சுட்டிகாட்டுவதையே குறிக்கும் என்ற கட்டாயம் இல்லை. இதனால், செயல்பாட்டின் முக்கிய பகுதியாக மற்ற தரவு மாதிரிகளின் குறிப்பிட்ட வடிவங்களுடன் சரிபார்த்தல் மற்றும் உறுதிப்படுத்துதல் இருக்கிறது.
தரவுச் செயலாக்கம் என்ற பெயர் தொடர்புடையதாகவும் ஆனால் எதிர்மறையாக உள்ள அர்த்தத்திலும் பயன்படுத்தப்படுகிறது, அதாவது அதிக எண்ணிக்கையிலான தரவில், சுட்டிக்காட்டப்படாமலும் இருக்க வாய்ப்புள்ள ஆனால் அவ்வாறு தோன்றக்கூடிய குறிப்பிட்ட வடிவங்களை ஆழ்ந்து தேடுவததக் குறிக்கவே இவ்வவறு பயன்படுத்தப்படுகிறது. மற்ற அர்த்தத்தில் இதனைப் பயன்படுத்தும் குழப்பத்தைத் தவிர்க்க, டேட்டா டிரெட்ஜிங் மற்றும் டேட்டா ஸ்னூப்பிங் போன்ற பெயர்களும் அடிக்கடி பயன்படுத்தப்படுகின்றன. எனினும், கற்பிதக் கொள்கையின் உருவாக்கம் மற்றும் தெளிவுப்படுத்தலின் போது இந்த டிரெட்ஜிங் மற்றும் ஸ்னூப்பிங் கண்டுபிடிப்பு ரீதியான ஆய்வுக்கு பயன்படும் கருவியாக இருக்கலாம் (சில நேரங்களில் பயன்படுத்தப்படும்) என்பது குறிப்பிடத்தக்கது.
பின்புலம்
பல நூற்றாண்டுகளாக மனிதர்கள் தரவிலிருந்து குறிப்பிட்ட வடிவங்களை "கைமுறையாகப்" பிரித்தெடுத்து வந்தனர், ஆனால் நவீன காலங்களில் அதிகரித்து வரும் தரவின் அளவு அதிகப்படியான தானியங்கு அணுகு முறைகளை அவசியமாக்கியது. பேயீஸ் தேற்றம் (1700கள்) மற்றும் ரெக்ரஸ்ஸன் பகுப்பாய்வு (1800கள்) உள்ளிட்ட முந்தைய முறைகள் தரவில் குறிப்பிட்ட வடிவங்களைக் கண்டறிய பயன்படுத்தப்பட்டன. விரைவான வளர்ச்சி, எங்கும் நிறைந்திருக்கும் இயல்பு மற்றும் கணினி தொழில்நுட்பத்தின் அதிகரித்துவரும் ஆற்றல் போன்றவை தரவு சேகரித்தல் மற்றும் சேமித்து வைத்தலை அதிகரித்தன. தரவுத் தொகுப்புகள் அளவிலும் சிக்கலான தன்மையிலும் வளர்ச்சி அடைந்துவிட்டதால், மறைமுகமான மற்றும் தானியங்கு தரவு செயல்முறையுடன் நேரடியாக செயல்படும் தரவு ஆய்வுகளும் அதிகரித்துவருகிறது. இது கணினி அறிவியலில் நிகழ்ந்த நியூரல் நெட்வொர்க்ஸ், க்ளஸ்டரிங், ஜெனிடிக் வழிமுறைகள் (1950கள்), முடிவெடுத்தல் கிளையமைப்புகள்(1960கள்) மற்றும் சப்போர்ட் வெக்டார் மெசின்ஸ் (1980கள்) போன்ற மற்ற கண்டுபிடிப்புகளால் துணையுதவி செய்யப்பட்டது. தரவுச் செயலாக்கம் என்பது, இந்த முறைகளை பயன்படுத்தும் செயல்பாடாகும், இவை மறைந்த நிலையிலுள்ள வகைகளைக் கண்டறியும் நோக்கத்தில் செயல்படுத்தப்படுகிறது நடைமுறை உடன் தரவுக்கு செயபடுத்தப்படும்.[2] இது விமான பயணிகளின் பயணத்தகவல்கள், மக்கள் தொகைக் கணக்கெடுப்புத்தரவு மற்றும் பல்பொருள் அங்காடி ஸ்கேனர் தரவுகளைப் பயன்படுத்தி சந்தை ஆராய்ச்சி அறிக்கைகள் வழங்குவது போன்ற அதிக அளவிலான தரவுகளை ஆராய்வதற்கு தொழிற்துறை, அறிவியல் அறிஞர்கள் மற்றும் அரசுத்துறைகள் போன்றவற்றில் பல வருடங்களாக உபயோகப் படுத்தப்படுகிறது. (எனினும், இந்த அறிக்கைகள் எல்லா நேரங்களிலும் தரவுச் செயலாக்கமாகக் கருதப்படுவதில்லை என்பது குறிப்பிடத்தக்கது).
திரளான பண்புகளைக் கூர்ந்து கவனித்துப் பகுத்தாய்வதற்கு உதவியாக இருப்பதே தரவுச் செயலாக்கத்தை பயன்படுத்துவதன் முதன்மையான காரணமாகும். இதைப்போன்ற தரவுகள் தெரியப்படாத இடைத் தொடர்புகளைக் கொண்டுள்ளதால் நேரிடைத் தொடர்பு சிக்கலுக்கு உட்பட்டவையாகும். தரவுச் செயலாக்கத்தின் தவிர்க்க முடியாத உண்மை என்னவெனில் ஆய்வுசெய்யப்படும் தரவின் (உப-)தொகுப்பு(கள்) குறிப்பிட்ட துறையின் முழுமையான வெளிப்பாடாக இல்லாமல் இருக்கலாம், மேலும் அதன்காரணமாக துறைகளின் மற்ற பகுதிகளில் உள்ள முக்கியமான தொடர்புகள் மற்றும் பண்புகளின் எடுத்துக்காட்டுகள் இல்லாமல் இருக்கலாம். இந்த வகையான சிக்கலை அணுக, இந்த ஆய்வுகள் மனிதர்களால் உருவாக்கப்பட்ட தரவுகளுக்கான சாய்ஸ் மாடலிங் போன்ற பரிசோதனை சார்ந்த மற்றும் பிற அணுகுமுறைகளைப் பயன்படுத்தி மிகுதியாக்கப்படலாம். இது போன்ற சூழ்நிலைகளில், பரிசோதனை வடிவமைப்பை உருவாக்கும் போது உள்ளார்ந்த தொடர்புகள் ஒட்டுமொத்தமாக கட்டுப்படுத்தப்படலாம் அல்லது நீக்கப்படலாம்.
தரவுச் செயலாக்கத்தின் தரத்தை விளக்க சில முயற்சிகள் எடுக்கப்பட்டன, எடுத்துக்காட்டாக 1999 ஐரோப்பியன் க்ராஸ் இண்டஸ்ட்ரி ஸ்டாண்டர்ட் ப்ராசஸ் ஃபார் டேட்டா மைனிங் (CRISP-DM 1.0) மற்றும் 2004 ஜாவா டேட்டா மைனிங் தரம்(JDM 1.0) ஆகியவற்றைக் குறிப்பிடலாம். இவை வளர்ந்துவரும் தரநிலைகளாகும்; இந்தத் தரநிலைகளின் பிந்தைய பதிப்புகள் உருவாக்கத்தில் உள்ளன. இந்த தர நிர்ணய முயற்சிகளைச் சார்பின்றி, இலவசமாக கிடைக்கும் ஒப்பன் சோர்ஸ் மென்பொருள் முறைமைகளான ரேபிட்மைனர், வேக்கா, KNIME மற்றும் R திட்டப்பணிகள் போன்றவை தரவுச் செயலாக்கச் செயல்பாடுகளை வரையறுக்கும் முறை சாரா தரநிலைகளாக பயன்பாட்டில் உள்ளன. பெரும்பாலான இந்த முறைகள் PMML (பிரெடிக்டிவ் மாடல் மார்க்அப் லேங்க்வேஜ்) இல் இறக்குமதி மற்றும் ஏற்றுமதி செய்யத்தக்க திறன் பெற்ற மாதிரிகளாக இருக்கின்றன, அவை தரமான வழிகளில் தரவுச் செயலாக்க மாதிரிகளை வெளிப்படுத்துவதாக உள்ளன, அதனால் இவற்றை வெவ்வேறு புள்ளி விவர பயன்பாடுகளுக்கு இடையில் பங்கிட முடியும். PMML என்பது டேட்டா மைனிங் க்ரூப்பினால் (DMG)[3] உருவாக்கப்பட்ட ஒரு XML அடிப்படையிலான மொழி ஆகும், DMG பல தரவுச் செயலாக்க நிறுவனங்களால் உருவாக்கப்பட்ட ஒரு சார்பற்ற குழு ஆகும். PMML பதிப்பு 4.0 ஜூன் 2009 இல் வெளியிடப்பட்டது.[3][4][5]
ஆராய்ச்சி மற்றும் பரிணாமம்
தொழில் துறை ஏற்பட்ட செயல்முறையில் தரநிலைகள் மற்றும் இடைச் செயல் திறனுடன் கூடுதலாக, தொழில் ரீதியான மற்றும் கலை சார் நடவடிக்கைகளும், தோற்றுவித்தலிலும் கடுமையான முறைகள் மற்றும் மாதிரிகளிலும் மிகுதியான பங்களிப்புக்களைக் கொண்டுள்ளன; இண்டர்நேஷனல் ஜர்னல் ஆஃப் இன்ஃபர்மேஷன் அண்ட் டெக்னாலஜி அண்ட் டெசிஷன் மேக்கிங் பத்திரகையின் 2008 பதிப்பின் ஒரு கட்டுரையில் இந்த பரிணாமத்தை முழுதும் விவரித்து ஆய்வு செய்த ஒரு இலக்கியம் சார்ந்த மதிப்பீடின் வெளியீடு சுருக்கமான வெளியிடப்பட்டிருந்தது.[6]
த அசோசியேசன் ஃபார் கம்ப்யூட்டிங் மெசினரி'ஸ் ஸ்பெசல் இண்ட்ரஸ்ட் க்ரூப் ஆன் நாலெட்ஜ் டிஸ்கவரி அண்ட் டேடா மைனிங் (SIGKDD) இந்த துறையில் முதன்மையான தொழில்ரீதியான அமைப்பாக இருக்கிறது. 1989 இலிருந்து அவர்களால் வருடாந்திர சர்வதேச மாநாடு நடத்தப்படுகிறது, மேலும் அதன் செயல்முறைகள் வெளியிடப்படுகிறது,[7] மற்றும் 1999 இலிருந்து "SIGKDD ஆய்வுகள்" என்ற தலைப்பில் ஆண்டிற்கு இரண்டு முறை கலை சார் செய்திப்பத்திரிகை வெளியிடப்படுகிறது.[8] தரவுச் செயலாக்கம் தொடர்பான மற்ற கணினி அறிவியல் மாநாடுகள் பின்வருமாறு:
- DMIN - தரவுச் செயலாக்கத்திற்கான சர்வதேச மாநாடு;[9]
- DMKD - தரவுச் செயலாக்கம் மற்றும் நுண்ணறிவு கண்டுபிடிப்பு தொடர்பான ஆராய்ச்சி வெளியீடுகள்;
- ECML-PKDD - தரவுத்தளத்தில் இயந்திரம் கற்றுக்கொள்ளலும் கொள்கைகளும் மற்றும் நுண்ணறிவு கண்டுபிடிப்புப் பயிற்சிக்கான ஐரோப்பிய மாநாடு;
- ICDM - IEEE தரவுச் செயலாக்கத்திற்கான சர்வதேச மாநாடு;[10]
- MLDM - குறிப்பிட்ட வடிவ கண்டுணர்தலில் இயந்திரம் கற்றுக்கொள்ளலும் தரவுச் செயலாக்கமும்;
- SDM - தரவுச் செயலாக்கத்திற்கா SIAM சர்வதேச மாநாடு
செயலாக்கம்
1989 இல் க்ரிகோரி பயடெட்ஸ்கி-ஷபிரோ தரவுத்தளங்களில் நுண்ணறிவுக் கண்டுபிடிப்பு (KDD) என்ற வாக்கியத்தைப் பயன்படுத்தினார், அவர் ஆர்வமான, மாற்றம் செய்யப்பட்ட, பயனுள்ள புதிய தரவவக் கண்டறியும் செயல்பாட்டை விவரிக்க இதனைப் பயன்படுத்தினார். இந்த செயல்பாட்டில் பல நுட்பமான வேறுபாடுகள் இருக்கின்றன, ஆனால் தோராயமாக மூலத் தரவின் முன்-செயலாக்கம், தரவைத் தேடி எடுத்தல் மற்றும் முடிவுகளைப் புரிந்துணர்தல் போன்ற படிநிலைகளைக் கொண்டதாக அவை உள்ளன.[11]
முன்-செயலாக்கம்
KDD செயலாக்கத்திற்கான நோக்கம் தெரிந்தவுடன், ஒரு இலக்குத் தரவுத் தொகுப்பு திரட்டப்பட வேண்டும். தரவுச் செயலாக்கம் ஏற்கனவே தரவில் உள்ள வெளிப்படையான குறிப்பிட்ட வடிவ வகைகளை மட்டுமே கண்டறிய முடியும் என்பதால், இலக்குத் தரவுத் தொகுப்பு இந்த குறிப்பிட்ட வடிவங்களை உள்ளடக்கும் அளவுக்கு பெரியதாக இருக்க வேண்டும், மேலும் இதில் மீதமுள்ள தரவு ஏற்கத்தக்க நேர இடைவெளியில் எடுத்துக்கொள்ள முடிவதாக இருக்க வேண்டும். தரவுக்கான ஒரு பொதுவான மூலம் டேட்டா மார்ட் அல்லது டேட்டா வேர் ஹவுஸ் ஆகும்.
இலக்குத் தொகுப்பு பின்னர் தூய்மைப்படுத்தப்படுகிறது. தூய்மைப்படுத்துதல் முக்கியமற்ற மற்றும் இழந்த தரவுகளைக் கண்டறிந்த அறிதல்களை நீக்கிவிடும்.
ஒரு உய்த்தறிதலுக்கு ஒரு வெக்டர் என்ற அளவில், தூய்மைப்படுத்தப்பட்ட தரவானது பின்னர் அம்ச வெக்டர்களாகக் குறைக்கப்படுகிறது. ஒரு அம்ச வெக்டார் என்பது ஒரு மூலத் தரவு உய்த்தறிதலின் சுருக்கப்பட்ட பதிப்பாகும். எடுத்துக்காட்டாக, முகத்தைக் கொண்டுள்ள 100px க்கு 100px அளவுள்ள ஒரு கருப்பு வெள்ளை படம் 10,000 பிட்டுகள் மூலத் தரவைக் கொண்டிருக்கும். அந்தப் படத்தில் கண்கள் மற்றும் வாயைக் இடமறிவதன் மூலம் இது ஒரு அம்ச வெக்டாராக மாற்றப்படலா. தொடர்ந்த செயல்பாடு ஒவ்வொரு வெக்டாருக்குமான தரவை 10,000 பிட்டுகளிலிருந்து இடங்களுக்கான மூன்று குறியீடுகள் என்ற அளவில் குறைக்கும், மேலும் எடுப்பதற்கான தரவுத்தொகுப்பின் அளவு குறிப்பிடுமளவு குறையும், இதனால் செயலாக்க சிரத்தையும் குறையும். தேர்ந்தெடுக்கப்படும் அம்சம்(ங்கள்), என்ன நோக்க(ம்)ங்கள் இருக்கின்ற(து)ன என்பதைச் சார்ந்தது; வெளிப்படையாக, "சரியான" அம்சம்(கள்) தேர்ந்தெடுப்பு வெற்றிகரமான தரவுச் செயலாக்கத்திற்கு அடிப்படை ஆகும்.
அம்ச வெக்டார்கள் இரண்டு தொகுப்புகளாக பிரிக்கப்படுகின்றன, அவை "பயிற்சித் தொகுப்பு" மற்றும் "பரிசோதனைத் தொகுப்பு" ஆகும். பயிற்சித் தொகுப்பு தரவுச் செயலாக்க நெறிமுறை(களின்) "பயிற்சிக்கு" பயன்படுத்தப்படுகிறது, பரிசோதனைத் தொகுப்பு கண்டறியப்பட்ட குறிப்பிட்ட வடிவத்தின் துல்லியத்தன்மையைச் சோதிப்பதற்கு பயன்படுத்தப்படுகிறது.
தரவுச் செயலாக்கம்
தரவுச் செயலாக்கம் பொதுவாக பின்வரும் நான்கு பிரிவுகளிலான பணிகளைக் கொண்டுள்ளது:[11]
- வகைப்படுத்துதல் - முன்வரையறுக்கப்பட்ட குழுக்களாக தரவை வரிசைப்படுத்துவது. எடுத்துக்காட்டாக ஒரு மின்னஞ்சல் நிரலானது மின்னஞ்சலை உண்மையான மின்னஞ்சல் அல்லது ஸ்பேம் அஞ்சல் என வகைப்படுத்தலாம். முடிவெடுத்தல் கிளையமைப்பைக் கற்றல், நெருங்கிய அருகாமை மதிப்பு, எளிய பேயிசியன் வகைப்படுத்துதல் மற்றும் நியூரல் நெட்வொர்க் போன்ற பொதுவான வழிமுறைகள் இதில் அடங்கு.
- கொத்தாக்கல் - இது வகைப்படுத்துதல் போன்றதே, ஆனால் குழுக்கள் முன்வரையறுக்கப்பட்டவை அல்ல, அதனால் வழிமுறையானது ஒத்த உருப்படிகளள ஒன்று சேர்த்து குழுவாக்க முயற்சிக்கும்.
- பின்னடைதல் - மிகவும் குறைவான பிழை உடைய தரவு மாதிரிக்கான செயல்பாட்டைக் கண்டறிவதற்கான முயற்சி.
- தொடர்பு விதி கற்றல் - மாறும் மதிப்புகளுக்கு இடையில் தொடர்புகளை தேடல். எடுத்துக்காட்டாக ஒரு பல் பொருள் அங்காடி நுகர்வோரின் வாங்கும் மனப்பாங்குத் தரவைச் சேகரிக்கலாம். தொடர்பு விதி கற்றலைப் பயன்படுத்தி, அந்த பல்பொருள் அங்காடி, எந்தெந்த பொருட்கள் அடிக்கடி ஒன்று சேர்த்து வாங்கப்படுகின்றன என்று கண்டறிந்து அந்த தகவலை விற்பனைத் தேவைகளுக்காகப் பயன்படுத்திக் கொள்ளலாம். இது சில நேரங்களில் "மார்க்கெட் பேஸ்கட் அனாலிசிஸ்" எனக் குறிப்பிடப்படுகிறது.
முடிவுகள் செல்லுபடியாக்கம்
தரவிலிருந்து நுண்ணறிவு கண்டுபிடித்தலின் இறுதிப் படிநிலை, பரவலான தரவுத் தொகுப்புகளில் நிகழும் தரவுச் செயலாக்க வழிமுறைகளால் உருவாக்கப்படும் குறிப்பிட்ட வடிவங்களை சோதனை செய்தல் ஆகும். தரவுச் செயலாக்க வழிமுறைகளால் கண்டறியப்படும் அனைத்து வடிவங்களும் சரியானதாக இருக்க வேண்டிய அவசியமில்லை. பொதுவான தரவுத் தொகுப்பில் இல்லாத வடிவங்களை பயிற்சித் தொகுப்பில் தரவுச் செயலாக்க வழிமுறைகள் கண்டறிவது என்பது மிகவும் பொதுவானதாகும், இது மேற்பொருந்துதல் என அழைக்கப்படுகிறது. இதைச் சரிசெய்ய, மதிப்பீட்டில் தரவுச் செயலாக்க நெறிமுறை பயிற்சியில் அல்லாத தரவுத் தொகுப்பின் பரிசோதனைத் தொகுப்பு பயன்படுத்தப்படும். கற்றுக் கொள்ளப்பட்ட வடிவங்கள் இந்த பரிசோதனைத் தொகுப்பில் ஈடுபடுத்தப்படும், மேலும் வெளியான வெளியீடு எதிர்பார்க்கப்படும் வெளியீட்டுடன் ஒப்பிடப்படும். எடுத்துக்காட்டாக, ஒரு தரவுச் செயலாக்க வழிமுறை உண்மையான அஞ்சலில் இருந்து ஸ்பேம் அஞ்சலை வேறுபடுத்த முயற்சிப்பதற்கு மாதிரி மின்னஞ்சல்களின் பயிற்சித் தொகுப்பின் மூலம் பயிற்சி பெற்றிருக்க வேண்டும். பயிற்சி பெற்றவுடன், பயிற்சி பெற்றிராத கற்றுக் கொள்ளப்பட்ட வடிவங்கள் பரிசோதனைத் தொகுப்பு மின்னஞ்சல்களில் ஈடுபடுத்தப்படும், இந்த வடிவங்களின் பிழையின்மையை எத்தனை மின்னஞ்சல்களை அவை சரியாக வகைப்படுத்தி உள்ளன என்பதை வைத்து கணக்கிடலாம். ROC வளைவுகள் போன்ற பல புள்ளியியல் முறைகள் நெறிமுறையை மதிப்பீடு செய்யப் பயன்படுத்தப்படலாம்.
கற்றுக் கொள்ளப்பட்ட வடிவங்கள் எதிர்பார்க்கப்பட்ட தரத்தை அடையவில்லை என்றால், அதன் முன்-செயலாக்கத்திலும் தரவுச் செயலாக்கத்திலும் மாற்றங்கள் செய்து மறு மதிப்பீடு செய்யப்பட வேண்டும். கற்றுக் கொள்ளப்பட்ட வடிவங்கள் எதிர்பார்க்கப்பட்ட தரத்தை எட்டினால், இறுதிப் படிநிலை கற்றுக் கொள்ளப்பட்ட வடிவங்களை மாற்றம் செய்து அவற்றை நுண்ணறிவாக மாற்றுவதாகும்.
குறிப்பிடத்தக்க பயன்பாடுகள்
விளையாட்டுகளில்
1960 களின் முற்பகுதியில் இருந்து, சில ஒருங்கிணைந்த விளையாட்டுக்களுக்கான முன்கணிப்புகள் கிடைத்தன, அவை மேசை அடித்தளங்கள் (எடுத்துக்காட்டு 3x3-செஸ்) எனவும் அழைக்கப்பட்டன, அவை ஏதேனும் ஒரு தொடக்க அமைவடிவத்துடன், சிறிய அட்டை புள்ளிகளும் பெட்டிகளும், சிறிய அட்டை ஹெக்ஸ் மற்றும் செஸ்ஸில் சில முடிவு விளையாட்டுகள், புள்ளிகளும் பெட்டிகளும் மற்றும் ஹெக்ஸ் கொண்டவையாக இருந்தன; தரவுச் செயலாக்கத்தில் ஒரு புதிய பகுதி ஆரம்பமானது. இவை இந்த முன்கணிப்புகளிலிருந்து மூலம் மனிதன் பயன்படுத்தக் கூடிய பயன்பாடுகளாக பிரித்தெடுக்கப்பட்டவை. தற்போதுள்ள குறிப்பிட்ட வடிவம் கண்டறியும் அணுகுமுறைகள் இதில் வெற்றிகரமாக ஈடுபடுவதற்கான முழுமையான தேவைப்படும் உயர் நிலை பிரித்தெடுத்தலாக இல்லை. மாறாக, முந்தைய கலை அறிவுடன், அதாவது முன்-அட்டவணை அடிப்படையிலான அறிவுடன் நன்கு வடிவமைக்கப்பட்ட சிக்கல்களுக்கு அட்டவணை அடிப்படையிலான பதில்களின் ஆழமான ஆய்வுடன் இணைந்து தரவுத்தளத்திலான விரிவான ஆய்வு பயன்படுத்தப்படுகிறது, இதில் இணக்கமான ஆழமான வடிவங்கள் கிடைக்கின்றன. புள்ளிகள் மற்றும் பெட்டிகளில் பெர்ல்கேம்ப் மற்றும் பல மற்றும் செஸ் முடிவு விளையாட்டுகளில் ஜான் நன் போன்றவை இந்தப் பணியில் ஈடுபடும் ஆராய்ச்சியாளர்களுக்கான குறிப்பிடத்தக்க எடுத்துக்காட்டுகளாகும், எனினும் அவர்கள் அட்டவணை அடிப்படையிலான உருவாக்கத்தில் ஈடுபட்டிருக்கவில்லை ஈடுபடுவதும் இல்லை.
வணிகம்
வாடிக்கையாளர் உறவு மேலாண்மை பயன்பாடுகளில் தரவுச் செயலாக்கம் மிகவும் முக்கியமாக பங்களிக்கிறது. ஒரு வெற்றி நிகழ்வாய்ப்பு அல்லது வாடிக்கையாளரை அழைப்பு மையம் அல்லது மின்னஞ்சல் அனுப்புவதன் மூலமாக சீரற்ற முறையில் தொடர்புகொள்வதை விட, ஒரு வழங்கலுக்கு பதில்வினை புரியக்கூடிய வாய்ப்பு அதிகம் உள்ளதாக முன்கணிக்கப்பட்ட வேய்ப்புகளில் ஒரு நிறுவனம் கவனம் செலுத்தி அதன் முயற்சிகளைச் செய்யலாம். வாய்ப்புள்ள அனைத்து சலுகைகளிலும் எந்த வழியில் மற்றும் எந்த சலுகை ஒரு தனிநபர் மிகவும் விரும்பி, பதில்வினை புரியத் தூண்டுவதாக உள்ளது என முன்கணிக்க உதவும்படியாக, திட்டமிட்ட நடவடிக்கைகளுக்கு இடையில் வளங்களை மேம்படுத்த பல நுண்ணிய முறைகள் உள்ளன. கூடுதலாக, சிக்கலான பயன்பாடுகள் அஞ்சல் தானியங்குவதற்குப் பயன்படுத்தப்படலாம். தரவுச் செயலாக்கத்தில் இருந்து (வாய்ப்புள்ள வெற்றி நிகழ்வாய்ப்பு/வாடிக்கையாளர் மற்றும் தொடர்பு ஏற்படும் வழி/சலுகை) வெளியீடுகள் கிடைக்கப்பெற்ற பிறகு இந்த "சிக்கலான செயல்பாடு" தானே மின்னஞ்சலை அல்லது சாதாரண அஞ்சலை அனுப்புகிறது. இறுதியாக, சிலநேரங்களில் பல மக்கள் சலுகை இல்லாமல் செயலை மேற்கொள்ளும் போது, சலுகை கொடுக்கப்பட்டால் எந்த மக்கள் மிகவும் அதிகமாக செயலாற்றுவார்கள் என்பதைத் தீர்மானிக்க உதவியாதரவளிக்கும் மாதிரியாக்கபயன்படுத்தப்படலாம். வாடிக்கையாளர் தரவுத் தொகுப்பில் தானாகவே கூறுகளை அல்லது குழுக்களைக் கண்டறிய தரவுக் கொத்தாக்கலும் பயன்படுத்தப்படலாம்.
தரவுச் செயலாக்கத்தைப் பயன்படுத்தப்படும் வணிகங்களுக்கு முதலீடு திரும்ப வரக்கூடும், எனினும் குறிப்பிட்ட எண்ணிக்கையிலான முன்கணிப்பு மாதிரிகள் விரைவில் மிகவும் அதிகமாகலாம் எனவும் அவை உணர்ந்துள்ளன. எந்தெந்த வாடிக்கையாளர்கள் மாறுவார்கள் என முன்கணிப்பதற்கு மாறாக, ஒரே மாதிரி இருக்கும், ஒரு வணிகம்ஒவ்வொரு மண்டலத்திற்கும் மற்றும் வாடிக்கையாளர் வகைக்கும் தனித்தனியாக மாதிரி உருவாக்க முடியும். பின்னர் எந்தெந்த வாடிக்கையாளர்கள் மாறுவார்கள் என்ற பட்டியலில் உள்ள அனைத்து மக்களுக்கும் சலுகையை அனுப்புவதற்கு பதிலாக, எந்த வாடிக்கையாளர்களுக்கு சலுகை வேண்டும் என்பதைப் பொருத்து அவர்களுக்கு மட்டும் அவை அனுப்பப்படலாம். மேலும் இறுதியாக, எந்தெந்த வாடிக்கையாளர்கள் குறிப்பிட்ட காலத்திற்கு பிறகு நன்மை அடைவார்கள் மற்றும் எந்தெந்த வாடிக்கையாளர்கள் சலுகைகள் அனுப்பப்பட்ட உடன் நன்மை அடைவார்கள் என்பதும் தீர்மானிக்கப்பட வேண்டும். இந்த அளவுள்ள மாதிரிகளைப் பராமரிப்பதற்காக, அவர்கள் மாதிரி பதிப்புகளை பராமரிக்க வேண்டும், மேலும் தானியங்கு தரவுச் செயலாக்கத்தை பயன்படுத்த வேண்டும்.
தரவுச் செயலாக்கம் மனித வளங்கள் துறைகளில் மிகவும் வெற்றிகரமான பணியாளர்களின் சிறப்பியல்புகளைக் கண்டறிய உதவிகரமாக இருக்க முடியும். மிகவும் வெற்றிகரமான பணியாளர்கள் எந்தப் பல்கலைக்கழகங்களில் இருந்து வந்துள்ளனர் என்பது போன்ற தகவல் கிடைப்பதால், HR அவற்றைக் கருத்தில் கொண்டு பணியமர்த்தல் செயலைச் செய்யல. கூடுதலாக, உத்தியியல் தொழிற்துறை மேலாண்மைப் பயன்பாடுகள் இலாபம் மற்றும் குறை வரம்புப் பங்கீடு இலக்குகள் போன்ற பெருநிறுவன அளவிலான குறிக்கோள்களை உற்பத்தித் திட்டங்கள் மற்றும் மனிதவள நிலைகள் போன்ற செயல்முறைசார்ந்த முடிவுகளாக மாற்றுவதற்கு உதவுகிறது.[12]
தரவுச் செயலாக்கத்தின் மற்றொரு எடுத்துக்காட்டு, அதன் சில்லறை விற்பனை பயன்பாட்டுடன் தொடர்புடையது, இது மார்கெட் பேஸ்கட் அனாலிசிஸ் என பொதுவாக அழைக்கப்படுகிறது. ஒரு துணிக்கடை வாடிக்கையாளர் வாங்கிய பொருள்களைப் பதிவு செய்வதாகக் கொண்டால், ஒரு தரவுச் செயலாக்க அமைப்பினால் அந்த வாடிக்கையாளர்களில் யாரெல்லாம் காட்டன் சட்டைகளை விட பட்டுச் சட்டைகளை விரும்புகிறார்கள் எனக் கண்டறிய முடியும். எனினும் சில தொடர்புகளுக்கான விளக்கங்கள் சிக்கலாக இருக்கலாம், இருப்பினும் அதன் நன்மைகளை மட்டும் எடுத்துக்கொள்வது எளிதாகும். இந்த எடுத்துக்காட்டு பரிமாற்றம் சார்ந்த தரவில் இணைப்பு விதிகளைக் கையாளுகிறது. அனைத்து தரவுகளும் பரிமாற்றம் சாந்தவையாக இருப்பதில்லை, மேலும் தர்க்க ரீதியான அல்லது தெளிவற்ற விதிகளும் தரவுத்தளத்தில் இருக்கலாம். ஓர் உற்பத்திப் பயன்பாட்டில், ஒரு தெளிவற்ற விதி, தயாரிப்பில் 73% குறிப்பிட்ட குறைபாடு அல்லது சிக்கல் இருந்தால் அடுத்த ஆறு மாதங்களில் இரண்டாம் நிலை சிக்கல் ஏற்படலாம் எனக் குறிக்கும்.
மார்கெட் பேஸ்கட் அனாலிசிஸ் ஆல்ஃபா நுகர்வோரின் வாங்கும் முறைகளைக் கண்டறியவும் பயன்படுத்தப்பட்டுவருகிறது. ஆல்ஃபா நுகர்வோர்கள் என்பவர்கள் ஒரு பொருளுக்குப் பின்னணியில் உள்ள தொடர்பில் முக்கிய பங்கு வகிக்கக்கூடிய, பொருட்களை ஏற்றுக்கொள்ளும் மக்களாவர், மேலும் அவர்கள் இறுதியாக மீதியுள்ள சமூகத்திடம் அந்த பொருள் பற்றிய மதிப்பைப் பரப்புவர். இந்த வகைப் பயனர்களைப் பற்றி சேகரிக்கப்பட்ட தரவின் பகுப்பாய்வுகள் நிறுவனங்களுக்கு எதிர்கால விற்பனைப் போக்கை முன்கணிக்கவும், கையிருப்புத் தேவைகளை முன்கூட்டியே மதிப்பிடுவதற்கும் உதவுகின்றன.
தரவுச் செயலாக்கம் வகைப்படுத்திய வணிகத் துறையில் மிகவும் பயனுள்ள கருவியாக இருக்கிறது. வகைப்படுத்திகள் பல ஆண்டுகள் முன்பிருந்து, மில்லியன் கணக்கில் உள்ள வாடிக்கையாளரின் பரிமாற்றங்களின் வரலாற்றைக் கொண்டிருப்பன. தரவுச் செயலாக்கக் கருவிகளால், வாடிக்கையாளர்களுக்கு இடையில் வடிவங்களைக் கண்டறிய முடியும், மேலும் அவை நிகழவிருக்கிற அஞ்சல் பிரசாரங்களுக்கு பதில்வினை புரியக்கூடிய வாய்ப்பு அதிகம் உள்ள வாடிக்கையாளரைக் கண்டறிய உதவுகின்றன.
ஒருங்கிணைப்புச் சுற்று உற்பத்தி வரிசையுடன் தொடர்புடைய தரவுச் செயலாக்கத்தின் எடுத்துக்காட்டு "மைனிங் IC டெஸ்ட் டேட்டா டு ஆப்டிமைஸ் VLSI டெஸ்டிங்" தாளில் விவரிக்கப்படுகிறது.[13] இந்த தாளில் இறப்பு நிலை செயல்முறை பரிசோதனை சிக்கலுக்கு தரவுச் செயலாக்கம் மற்றும் முடிவு பகுப்பாய்வு ஆகியவற்றின் பயன்பாடுகள் விவரிக்கப்பட்டிருக்கின்றன. இந்த தாளில் குறிப்பிடப்பட்டிருந்த பரிசோதனைகள், இறப்புத் தோல்வியின் வகைகளின் நிகழ்தகவியல் மாதிரிகளை உருவாக்க வரலாற்று ரீதியான இறப்பு-சோதனைத் தரவு எடுப்பதற்கு ஒரு முறைமையைப் பயன்படுத்துவதனால் கிடைக்கும் செயல்திறனை விவரித்திருந்தன, மேலும் அவை பின்னர் அடுத்ததாக சோதனைக்கு எது இறப்புத் தோல்வியடையும் என்பதையும் சோதனையை எப்போது முடிக்க வேண்டும் என்பதையும் முடிவு செய்வதற்கு பயன்படுத்தப்படுகிறது. வரலாற்று ரீதியான சோதனைத் தரவின் பரிசோதனைகள் சார்ந்துள்ள இந்த முறை, முதிர்ந்த IC பொருட்களில் இலாபத்தை அதிகரித்ததாக நிரூபிக்கப்பட்டதுஆற்றலைக் காண்பிக்கும்.
அறிவியல் மற்றும் பொறியியல்
சமீபத்திய ஆண்டுகளில், தரவுச் செயலாக்கம் அறிவியல் மற்றும் பொறியியலின் உயிர் தகவல் தொழில்நுட்பம், மரபியல், மருத்துவம், கல்வி மற்றும் மின்னாற்றல் பொறியியல் போன்ற பகுதிகளில் பரவலாகப் பயன்படுத்தப்படுகிறது.
மனித மரபியல் பகுதி ஆய்வில், முக்கியமான நோக்கம் மனித DNA தொடர்வரிசையின் உள்-தனிப்பட்ட மாறுபாடுகளுக்கும் எளிதில் நோய் பாதிப்படைதலுக்கான வாய்ப்புக்கும் இடையே உள்ள தொடர்பைப் புரிந்து கொள்ளுதல் ஆகும். எளிமையான மொழியில் கூறுவதானால், தனிநபரின் DNA தொடர்வரிசையில் ஏற்படும் மாற்றங்கள் எவ்வாறு புற்று நோய் போன்ற பொதுவான நோய்களை உருவாக்குவதில் பாதிப்பை ஏற்படுத்துகின்றன என்று இதன் மூலம் கண்டறியப்படுகிறது. இது நோய் அறுதியிடல், நோய்களைத் தடுத்தல் மற்றும் சிகிச்சை அளித்தல் ஆகியவற்றை மேம்படுத்த உதவுவதற்கு மிகவும் முக்கியமாக இருக்கிறது. இந்தப் பணியை மேற்கொள்வதற்கு பயன்படுத்தப்படும் தரவுச் செயலாக்கத் தொழில்நுட்பம் பல்-காரணி பரிணாமவியல் குறைத்தல் என அழைக்கப்படுகிறது.[14]
மின்னாற்றல் பொறியியல் துறையில், தரவுச் செயலாக்கத் தொழில்நுட்பங்கள் பரவலாக உயர் மின்னழுத்தக் கருவிகளில் கட்டுப்பாட்டுக் கண்காணிப்புக்காக பயன்படுத்தப்படுகிறது. கட்டுப்பாட்டு கண்காணிப்பின் நோக்கம் கருவியின் கடத்தாப் பொருளின் செயல்பாட்டு நிலையில் முக்கியத் தகவலைப் பெறுவதாகும். செல்ஃப் ஆர்கனைசிங் மேப் (SOM) போன்ற தரவுக் கொத்தாக்கல் முறைகள் மின்மாற்றியின் ஆன்-லோட் டேப்-சேஞ்சர்ஸ்(OLTCS) அதிர்வு கண்காணித்தல் மற்றும் பகுப்பாய்வில் பயன்படுத்தப்படுகிறது. அதிர்வு கண்காணித்தலைப் பயன்படுத்தும் போது, டேப் சேஞ்சர் தொடர்புகள் மற்றும் இயக்க இயந்திர நுட்பத்தின் கட்டுப்பாடுகள் பற்றிய தகவல் அடங்கிய சமிக்ஞையை உருவாக்கும் டேப் சேஞ்ச் செயல்பாட்டை இதனால் கண்காணிக்க முடியும். ஐயத்திற்கிடமின்றி, வெவ்வேறு டேப் நிலைகள் வெவ்வேறு சமிக்ஞைக உருவாக்கும். எனினும், துல்லியமாக ஒரே டேப் நிலைக்கான சாதாரண கட்டுப்பாட்டு சமிக்ஞைகளுக்கு இடையில் குறிப்பிடத்தகுந்த வேறுபாடுகள் இருக்கும். SOM அசாதரணக் கட்டுப்பாடுகளை கண்டறிவதற்கும், அசாதாரண நிலைகளின் இயல்பை மதிப்பிடுவதற்கும் பயன்படுத்தப்படுகிறது.[15]
தரவுச் செயலாக்க தொழில்நுட்பங்கள் ஆற்றல் மின் மாற்றிகளுக்கான மறைந்துவிடும் வாயுப் பகுப்பாய்வுகளில் (DGA) பயன்படுத்தப்படுகிறது. DGA பல ஆண்டுகளாக ஆற்றல் மின்மாற்றிகளுக்கான பகுப்பாய்வாக இருக்கிறது. SOM போன்ற தரவுச் செயலாக்க தொழில்நுட்பங்கள் தரவை பகுப்பாய்வு செய்யப் பயன்படுத்தப்படுகின்றன, மேலும் இரட்டை முக்கோணம் போன்ற தரநிலையான DGA விகித தொழில்நுட்பத்துக்கு தெளிவற்றதாக இருக்கும் போக்குகளைத் தீர்மானிப்பதற்கும் பயன்படுகின்றன.[15]
அறிவியல்/பொறியியலில் தரவுச் செயலாக்கம் பயன்படுத்தப்படும் நான்காவது பகுதி கல்வி சார்ந்த ஆராய்ச்சி ஆகும், இதில் தரவுச் செயலாக்கம் மாணவர்களின் நடவடிக்கைகளில் எந்த நடவடிக்கைகளின் காரணமாக அவர்களது கற்றுக்கொள்ளும்[16] திறன் குறைகிறது என்பதை ஆராயும் காரணிகளிலும், மேலும் பல்கலைக்கழக மாணவர்களின் தொடர்ந்து நினைவில் வைத்திருக்கும் திறன் காரணமான காரணிகளைப் புரிந்து கொள்வதற்கும் பயன்படுகிறது.[17]. சமூக பயன்பாட்டில் இதே போன்ற ஒரு எடுத்துக்காட்டாக நிபுணத்துவம் கண்டறியும் முறைமைகளில் தரவுச் செயலாக்கம் பயன்படுத்தப்படுகிறது, அதில் குறிப்பாக அறிவியல் மற்றும் தொழில்நுட்பத் துறைகளில், தனித்திறன் வாய்ந்த விவரிப்பாளர்கள் பிரித்தெடுக்கப்படுவார்கள், நெறிப்படுத்தப்படுவார்கள் மற்றும் வகைப்படுத்தப்படுவார்கள், அதனால் வல்லுநர்களை எளிதாகக் கண்டறிவதற்கு இது பயன்படுத்தப்படுகிறது. இவ்வாறாக, தரவுச் செயலாக்கம் கல்வி சார் நினைவுத்திறனை வளப்படுத்துகிறது.
தரவுச் செயலாக்கத் தொழில்நுட்பப் பயன்பாடுகளைப் பயன்படுத்துவதற்கான மற்ற எடுத்துக்காட்டுகள், துறை உள்ளார்ந்த இயல்புகளைக் கொண்டு எளிதாக்கப்படும் உயிர் மருத்துவவியல் தரவு [18] மருத்துவ சோதனைத் தரவை எடுத்தல்,[19] SOM பயன்படுத்தி போக்குவரத்துப் பகுப்பாய்வு[20] செய்தல் ஆகியவையும் மற்றும் பலவுமாகும்.
தீங்கு விளைவிக்கும் மருந்தின் விளைவின் கடுமையான கண்காணிப்பில், உப்சாலா கண்காணிப்பு நிலையம் 1998 இலிருந்து தரவுச் செயலாக்க முறைகளை, WHO உலகளாவிய தரவுத்தளத்தில் இருந்த 4.6 மில்லியன் சந்தேகத்திற்குரிய தீங்கு விளைவிக்கும் மருந்தின் விளைவு நிகழ்வுகளில்[21], நெருக்கடி நிலையில் மருந்து பாதுகாப்பு விசயங்களின் அறிக்கை வடிவங்களை தொடர்ந்து கண்காணிப்பதற்கு பயன்படுத்தி வருகிறது. சமீபத்தில், இதுபோன்ற முறை, அதிகளவிலான மின்னணு உடல்நலப் பதிவுகளின் சேர்கரிப்புகளை எடுப்பதற்கு உருவாக்கப்பட்டது, அந்த பதிவுகள் மருத்துவ ரீதியாக நோய் மூலம் கண்டறிவதில் தொடர்புடைய உடலியல் சார்ந்த வடிவங்களுக்கானது[22].
இடம் சார் தரவுச் செயலாக்கம்
இடம் சார் தரவுச் செயலாக்கம் இடம் சார் தரவுக்கான தரவுச் செயலாக்கத் தொழில்நுட்பத்தின் பயன்பாடாகும். இடம் சார் தரவுச் செயலாக்கம் தரவுச் செயலாக்கத்தில் உள்ள அதே செயல்முறையையே பின்பற்றுகிறது, இதன் இறுதி நோக்கம் புவியியலில் வடிவங்களைக் கண்டறிவதாகும். இது வரை, தரவுச் செயலாக்கம் மற்றும் புவிசார் தகவல் முறைகள் (GIS) ஆகிய இரண்டும் இரண்டு தனித்தனி தொழில்நுட்பங்களாக இருக்கின்றன, அவற்றில் ஒவ்வொன்றும் காட்சி மற்றும் தரவுப் பகுப்பாய்வுக்கும் அதன் சொந்த முறைகளையும், கலாச்சாரத்தையும் மற்றும் தனித்த அணுகுமுறைகளையும் கொண்டுள்ளன. குறிப்பாக, மிகவும் வழக்கமான GIS மிகவும் அடிப்படையான இடம் சார் ஆய்வு செயல்முறைகளை மட்டுமே கொண்டுள்ளது. IT, டிஜிட்டல் மேப்பிங், தொலைநிலை உணர்தல் மற்றும் GIS இன் உலகளாவிய பரவல் போன்றவற்றின் முன்னேற்றத்தால், புவியியல் ரீதியாக குறிப்பிடப்பட்ட தரவில் அளவற்ற அதிகரிப்புகள் ஏற்பட்டுள்ளது, இது புவி சார் ஆய்வுகள் மற்றும் மாதிரிப்படுத்தலுக்கு தரவால் இயக்கப்படும் தூண்டும் அணுகுமுறைகளின் உருவாக்கத்தின் முக்கியத்துவத்தை வற்புறுத்துகின்றன.
தரவுச் செயலாக்கம், மிகப்பெரிய தரவுத்தளத்தில் மறைந்த வடிவங்களில் பகுதியளவு தானியங்கு தேடுதலாக இருக்கிறது, இது GIS சார்ந்த முடிவு எடுத்தலில் பயன்படுத்தும் போது மிகவும் ஆற்றல் வாய்ந்த ஆதாயங்களை வழங்குகிறது. சமீபத்தில், இந்த இரு தொழில்நுட்பத்தையும் இணைக்கும் பணி மிகவும் முக்கியமானதாக இருந்தது, குறிப்பாக பல்வேறு தனியார் மற்றும் பொதுத்துறை நிறுவனங்கள் வைத்திருந்த குறிப்பிட்ட கருப்பொருள் சார்ந்த மற்றும் புவியியல் சார்பான குறிப்புகளையுடைய அதிகளவிலான தரவுத்தளங்களில் அதிகளவிலான தகவல்கள் மறைந்திருந்தது உணரப்பட்டது. பின்வருவனவும் அந்த நிறுவனங்களில் அடங்கும்இடையில்:
- புவியியல் ரீதியான-குறிப்புகளையுடைய புள்ளியியல் தரவின் பகுப்பாய்வு அல்லது பரவலாய்வுக்கான தேவை கொண்ட நிறுவனங்கள்
- நோய்த் தொகுப்புகளுக்கான விளக்கங்களைத் தேடும் பொது உடல் நல சேவைகள்
- நிலப்பயன்பாட்டு வகைகளால் காலநிலை மாற்றங்கள் எவ்வாறு பாதிக்கப்படுகின்றன என மதிப்பிடும் சுற்றுச் சூழல் நிறுவனங்கள்
- புவியியல் இருப்பிடத்தைச் சார்ந்து வாடிக்கையாளரைப் பிரிக்கும் புவியியல்-ரீதியான விற்பனை நிறுவனங்கள்
சவால்கள்
புவியியல் சார் தரவுக் களஞ்சியங்கள் மிகவும் அதிகமாக இருக்கின்றன. மேலும், ஏற்கனவே உள்ள GIS தரவுத் தொகுப்புகள் அவ்வப்போது அம்சம் மற்றும் பண்புக்கூறு சார் கூறுகளாக பிரிக்கப்படுகின்றன, அவை வழக்கமாக கலப்பினத் தரவு மேலாண்மை முறைமைகளில் காப்பகப்படுத்தப்படுகின்றன. தொடர்பு ரீதியான (பண்புக்கூறு) தரவு மேலாண்மை மற்றும் பிரதேசவியல் ரீதியான (அம்சம்) தரவு மேலாண்மை ஆகியவற்றுக்கான வழிமுறையியல் தேவைகள் குறிப்பிடத்தக்க அளவில் மாறுபடுகின்றன[23]. புவியியல் தரவு வடிவமைப்புகளின் இந்த வரம்பு மற்றும் மாறுபட்ட தன்மையுடன் தொடர்புள்ளதாக இருக்கும் நிலையில், தனித்த சவால்களும் இருக்கின்றன. டிஜிட்டல் புவியியல் தரவுப் புரட்சியானது, பழைய "வெக்டார்" மற்றும் "ராஸ்ட்டர்" வடிவங்களையும் தாண்டி புதிய வகை தரவு வடிவமைப்புகளை உருவாக்குகிறது. புவியியல் தரவுக் களஞ்சியத்தில் படம் சார் மற்றும் புவியியல் ரீதியான-குறிப்புகளையுடைய மல்டி மீடியா போன்ற கட்டமைப்பற்ற தரவுகளும் அதிக அளவில் இருக்கின்றன [24].
புவியியல் அறிவுக் கண்டுபிடிப்பு மற்றும் தரவுச் செயலாக்கத்தில் ஆராய்ச்சி தொடர்பான பல முக்கிய சவால்கள் இருக்கின்றன. மில்லர் மற்றும் ஹேன் [25] ஆகியோர் இந்தத் துறையில் வளர்ந்துவரும் ஆராய்ச்சித் தலைப்புகளை பின்வரும் பட்டியலில் வெளியிட்டிருக்கிறார்கள்:
- புவியியல் டேட்டா வேர்ஹவுசஸ் உருவாக்கம் மற்றும் ஆதரவு - இடம்சார் பண்புகள் போன்றவை பிரதான டேட்டா வேர்ஹவுஸ்களில் பெரும்பாலும் சாதாரண ஆஸ்பேசியல் பண்புக்கூறுகளாக குறைக்கப்படுகின்றன. ஓர் தொகுப்பு GDW ஐ உருவாக்க, இடம்சார் மற்றும் பௌதிகவியல் தரவுக்கிடையிலான இடைசெயலம்சத்திலுள்ள சிக்கல்களைத் தீர்ப்பது அவசியமாகிறது, இதில் பொருள்கொள்ளலில் உள்ள வேறுபாடுகள், குறிப்பிடும் முறைமைகள், வடிவியல், துல்லியத்தன்மை மற்றும் இடநிலை உள்ளிட்டவை அடங்கும்.
- புவியியல் சார் அறிவுக் கண்டறிதலில் சிறந்த இடம்சார்-நிலையற்ற சுட்டிக்காட்டுதல்கள் - தற்போதுள்ள புவியியல் சார் அறிவுக் கண்டறிதல் (GKD) தொழில்நுட்பங்கள், பொதுவாக புவியியல்சார் பொருட்கள் மற்றும் இடம் சார் தொடர்புகளின் மிகவும் சாதாரணமான சுட்டிக்காட்டுதல்களைப் பயன்படுத்துகின்றன. புவியியல் சார் தரவுச் செயலாக்க தொழில்நுட்பங்கள் மிகவும் சிக்கலான புவியியல் சார் பொருட்கள் (கோடுகள் மற்றும் பல்கோணங்கள்) மற்றும் தொடர்புகள் (நான்-ஈக்லிடியன் தொலைவுகள், திசை, இணைப்புத் தன்மை மற்றும் பரந்த நிலப்பரப்பு போன்ற தனிச்சிறப்பு புவியியல் சார் வெளி வழியாக ஒன்றுக்கொன்று தொடர்பு கொள்ளல்) போன்றவை கண்டறியப்பட வேண்டும். இந்த புவியியல் சார் சுட்டிக்காட்டுதல்கள் மற்றும் தொடர்புகளில் நேரம் முழுமையாக உள்ளிணைந்து இருக்க வேண்டும்.
- பல்வேறு வகையான தரவு வகைகளைப் பயன்படுத்தி நிகழ்த்தப்படும் புவியியல் சார் அறிவுக் கண்டறிதல் - GKD தொழில்நுட்பங்கள் பழைய ராஸ்ட்டர் மற்றும் வெக்டார் மாதிரிகளையும் தாண்டி, படத் தன்மை கொண்ட மற்றும் புவியியல் ரீதியான-குறிப்புகளையுடைய மல்டிமீடியா செயல்மிகு தரவுவகைகள் (வீடியோ ஸ்ட்ரீம்ஸ், அனிமேஷன்) உள்ளிட்ட பல்வேறு வகையான தரவு வகைகளையும் ஏற்றுக்கொள்ளும் வகையில் மேம்படுத்தப்பட வேண்டும்.
தீவிரமான கண்காணிப்பு
மொத்த தகவல் விழிப்புணர்வு (TIA) திட்டம், பாதுகாப்பான விமானம் (கணினி-துணை கொண்டு பயணிகள் முன்கண்காணிப்பு முறை (CAPPS II) என்று முன்னர் அழைக்கப்பட்டது), பகுப்பாய்வு, பரவல், காட்சியாக்கம், அப்பாலறிதல், பொருள் சார்ந்த மேம்பாடு (ADVISE[26]) மற்றும் பன் மாகாண தீவிரவாதத்திற்கெதிரான தகவல் பரிமாற்றம் (MATRIX) உள்ளிட்ட முந்தைய தரவுச் செய்லாக்க செயல்திட்டங்கள் அமெரிக்க அரசால் தீவிரவாதத்தை நிறுத்துவதற்காக மேற்கொள்ளப்பட்டன.[27] அமெரிக்க அரசியலமைப்பின் 4 ஆம் சட்டத்திருத்தத்துக்கு எதிராக இவை இருப்பதாய் எழுந்த சர்ச்சையின் காரணமாக இந்த செயல்திட்டங்கள் தொடரப்படவில்லை, எனினும் பல செயல்திட்டங்கள் வெவ்வேறு நிறுவனங்களால் நிதியளிக்கப்பட்டு வேறு வடிவங்களில் அல்லது வேறு பெயர்களில் தொடர்கின்றன.[28]
தீவிரவாதத்திற்கு எதிராகப் போரிடும் சூழலில் இரண்டு நம்பத்தகுந்த தரவுச் செயலாக்கத் தொழில்நுட்பங்கள் "வகை செயலாக்கம்" மற்றும் "பொருள் சார் தரவுச் செயலாக்கம்" ஆகியவை ஆகும்.
வகை செயலாக்கம்
"பேட்டர்ன் மைனிங்" ஒரு தரவுச் செயலாக்க தொழில்நுட்பம், அவை ஏற்கனவே உள்ள குறிப்பிட்ட வகைகளைத் தேடுகின்றன. இந்தச் சூழலில் வகைகள் பொதுவாக தொடர்பு விதிகள் எனப்படுகின்றன. தொடர்பு விதிகளைத் தேடுவதற்கான முதல் நோக்கம், பல் பொருள் அங்காடி பரிமாற்றத் தரவில் ஆய்வு செய்ய விரும்புவதிலிருந்து வந்தது, இது வாடிக்கையாளர் வாங்கிய பொருட்களை வைத்து அவர்களின் பண்புகளை ஆராய்தல் என்பதே அதன் நோக்கமாக இருந்த். எடுத்துக்காட்டாக, "பீர் => முறுக்குகள் (80%)" என்ற தொடர்பு விதி, பீர் வாங்கும் ஐந்து வாடிக்கையாளர்களில் நான்கு பேர் முறுக்குகளையும் வாங்குகிறார்கள் என்பதைக் குறிப்பிடுகிறது.
தீவிரவாத நடவடிக்கையைக் கண்டறிவதற்காண ஒரு கருவியாக வகை செயலாக்கத்தைக் கருதும் சூழலில், தேசிய ஆராய்ச்சி கவுன்சில் பின்வரும் வரையறையை வெளியிட்டது: "வகை-சார் தரவுச் செயலாக்கம் தீவிரவாத நடவடிக்கைக்கு தொடர்புடைய வகைகளை (முரண்பட்ட தரவு வகைகளும் சேர்த்து) பார்க்க வேண்டும், இந்த வகைகள் இரைச்சலான பெருங்கடலில் இருந்து வரும் சிறிய சமிக்ஞையாகக் கூட இருக்கலாம்." [29][30][31] இசைத் தகவல் மீட்பு (MIR) போன்ற புதிய துறைகளிலும் பேட்டர்ன் மைனிங் பயன்படுத்தப்படுகிறது, இவற்றில் பௌதிக மற்றும் அதற்கு மாறான தன்மை கொண்ட களங்களில் பெறப்படும் வகைகள் கண்டறியப்பட்டு, அவை செம்மை அறிவுக் கண்டறிதல் தேடல் தொழில்நுட்பத்துக்கு வழங்கப்படுகின்றன.
பொருள்-சார் தரவுச் செயலாக்கம்
"பொருள்-சார் தரவுச் செயலாக்கம்" ஒரு தரவுச் செயலாக்கத் தொழில்நுட்பம், தரவில் இரு தனிநபர்களுக்கு இடையில் உள்ள தொடர்புகளைத் தேடுவதுடன் தொடர்புடையது. தீவிரவாதத்திற்கு எதிராக போரிடும் சூழலில், தேசிய ஆராய்ச்சி கவுன்சில் பின்வரும் வரையறையை வெளியிட்டது: "பொருள்-சார் தரவுச் செயலாக்கம் மற்ற தகவலைச் சார்ந்து கண்காணிக்க மற்றும் கருதப்பட வேண்டிய ஒரு தொடக்கநிலைத் தனிநபர் அல்லது மற்ற தரவுப் பரிமாற்றப் புள்ளி தரவைத் தொடங்குவதைப் பயன்படுத்துகிறது, இதில் அதிக சாதக நிலையைக் கருதுகிறது, தொடக்கநிலைத் தரவுடன் மற்ற நபர்கள் யார் அல்லது நிதிப் பரிமாற்றங்கள் அல்லது மற்ற இயக்கங்கள் அல்லது வேறு ஏதேனும் தொடர்புள்ளனவா என்பதைக் கண்டறிவதே இதன் நோக்கமாக உள்ளது." [30]
தனியுரிமை சிக்கல்களும் நன்னெறியும்
தரவுச் செயலாக்கம் என்பது அறநெறி ரீதியில் நடுநிலையானது என சில நபர்கள் நம்புகிறார்கள்..[32] இருப்பினும், தரவுச் செயலாக்கத்தைப் பயன்படுத்தக்கூடிய வழிகள் தனியுரிமை, சட்ட இணக்கம் மற்றும் அறநெறிகள் சம்பந்தமாக கேள்விகளை எழுப்பலாம்.[33] குறிப்பாக, தரவுச் செயலாக்கத்தில், மொத்த தகவல் விழிப்புணர்வு திட்டம் அல்லது ADVISE போன்றவற்றிலுள்ளது போல, தேசிய பாதுகாப்பு அல்லது சட்ட அமலாக்க நோக்கங்களுக்கான அரசாங்க அல்லது வர்த்தக ரீதியான தரவுத் தொகுதிகள் தனியுரிமை விவகாரங்களை எழுப்பியுள்ளன.[34][35]
தரவுச் செயலாக்கத்திதிற்கு தரவு தயாரிப்பு தேவைப்படும், இது நம்பகத்தன்மை மற்றும் தனியுரிமைக் கடமைகளைக் கொண்டிருக்க வேண்டிய தகவல் அல்லது வகைகளை வெளிக்கொண்டு வரலாம். இது நடைபெறுவதற்குரிய பொதுவான வழி தரவு ஒன்று சேர்த்தலாகும். தரவானது அவ்வப்போது மாறக்கூடியதாகவும், வெவ்வேறு மூலங்களிலிருந்து கிடைக்கக்கூடியதாகவும் இருக்கும்பட்சத்தில் அவற்றை பகுப்பாய்வு செய்ய வசதியாக ஒன்றிணைக்கையில் இந்த தரவு ஓன்று சேர்த்தல் என்ற செயல் நிகழ்கிறது.[36] இது இயல்பில் தரவுச் செயலாக்கமல்ல, ஆனால் பகுப்பாய்வு நோக்குக்காவும் அதற்கு முன்னரும் செய்யப்படும் தரவு தயாரிப்பின் விளைவாக இருக்கும். ஒரு தனிநபரின் தனியுரிமைக்கு அச்சுறுத்தலானது தரவை ஒன்று சேர்க்கும்போது தரவு சேகரிப்பவர் அல்லது புதிதாக ஒன்றாக்கப்பட்ட தரவு தொகுப்பிற்கான அணுகல் உள்ளவர் குறிப்பிட்ட தனிநபர்களை, குறிப்பாக தரவு உண்மையில் இனம்காணப்படாததாக இருந்தபோது, அடையாளம் காணக்கூடியவராகும்போது வருகிறது.
தரவைச் சேகரிக்கும் முன்னர் ஒரு தனிநபருக்கு பின்வருவனவற்றை அறியச் செய்ய வேண்டும் என பரிந்துரைக்கப்படுகிறது:
- தரவு சேகரிப்பு மற்றும் தரவுச் செயலாக்க பணித்திட்டத்தின் நோக்கம்
- தரவு எவ்வாறு பயன்படுத்தப்படும்,
- எவரெல்லாம் தரவை ஆராயவும் பயன்படுத்தவும் முடியும்
- தரவை அணுகுவதைச் சுற்றியுள்ள பாதுகாப்பு, மேலும்,
- சேகரிக்கப்பட்ட தரவை எவ்வாறு புதுப்பிக்க முடியும்..[36]
HIPAA போன்ற ஒழுங்குமுறைக் கட்டுப்பாடுகளின் பத்திகளின் மூலம் அமெரிக்க உயர் சட்டப்பேரவையின் மூலம் இந்தத் தனியுரிமை விவகாரங்களுக்கு ஓரளவு கவனமளிக்கப்பட்டுள்ளன. சுகாதாரக் காப்பீட்டு நகர்த்தலுக்கான இணக்கத்தன்மை மற்றும் உத்தரவாத சட்டமானது (HIPAA), தரவைக் கொடுக்கின்ற நபர்களுக்கு, அவர்கள் வழங்கும் தகவல் மற்றும் அந்தத் தகவலைப் பெறுகின்ற அமைப்புகளால் அவை எதிர்காலத்தில் எவ்வாறு பயன்படுத்தப்படலாம் என்பது பற்றிய "தெரியப்படுத்தப்படும் அனுமதி" வழங்கப்படவேண்டும் என்பதைக் கட்டாயமாக்குகிறது. பயோடெக் பிசினஸ் வீக்கின் ஒரு கட்டுரையின் படி, “நடைமுறையில் HIPAA சட்டமானது நீண்டகாலமாக இந்த ஆராய்ச்சித் துறையில் உள்ள ஒழுக்கக் கட்டுப்பாடுகளை விடச் சிறப்பான பாதுகாப்பு எதையும் வழங்குவதில்லை என AAHC கூறுகிறது. மிகவும் முக்கியமாக, தெரியப்படுத்தப்பட்ட அனுமதியின் மூலம் பாதுகாப்பை வழங்குவதான இந்த விதியின் குறிக்கோளானது நோயாளிகள் மற்றும் பங்கேற்பவர்களுக்கு வழங்கப்படும் அனுமதிப் படிவங்களை நிரப்புவதில் உள்ள சிக்கலான தன்மையால் சிதைந்துள்ளது, இது சராசரி மனிதர்களின் புரியும் திறனுக்கு அப்பாற்பட்டதாக உள்ளது.” (40) தரவு ஒன்று சேர்த்தல் செயல்களின் போது, தரவு எவருடையது என்பதைத் தெரியாமல் பார்த்துக்கொள்வதன் அவசியத்தை மேலும் வலியுறுத்துகிறது.
தரவானது எவருடையது என்பது தெரியாமல் போகும் வகையில், ஒருவர் கூடுதலாக தரவை மாற்றியமைக்கலாம், இதனால் நபர்கள் யார் என்பது எளிதாகத் தெரிந்துகொள்ளப்படாது.[36] இருப்பினும், இந்த அடையாளம் நீக்கப்பட்ட தரவுத் தொகுப்புகளிலேயே ஒருவர் யாரென அடையாளம் காண போதுமான தகவல்கள் இருக்கலாம், AOL நிறுவனம் தற்செயலாக வெளியிட்ட தேடல் வரலாறுகளின் தொகுப்பை அடிப்படையாகக் கொண்டு, பத்திரிகையாளர்கள் பல நபர்களைக் கண்டுபிடிக்க முடிந்தது இதற்கு ஒரு எடுத்துக்காட்டாகும்.[37][37]
சந்தை இட கணக்கெடுப்புகள்
ஒவ்வொரு ஆண்டும், பல நிறுவனங்கள் சந்தை இடங்களைச் சார்ந்த கணக்கெடுப்புகளை நிகழ்த்தி, தற்போதைய தரவுச் செயலாக்க சந்தை இடத்தின் தேவைகள் மற்றும் அவற்றைக் கையாளும் கருவிகள் மற்றும் விற்பனையாளர்களின் ஒப்பீடுகள் ஆகியவை தொடர்பான அறிக்கைகளை உருவாக்கி வெளியிடுகின்றன. இது போன்ற வருடாந்தர அறிக்கைகளில் சில, பின்வருமாறு:
குழுக்கள் மற்றும் சங்கங்கள்
- SIGKDD, என்பது அறிவுக் கண்டுபிடிப்பு மற்றும் தரவுச் செயலாக்கத்திற்கான ACM சிறப்பு ஆர்வக் குழு ஆகும்.
மேலும் காண்க
பயன்பாடுகள்
- Surveillance / Mass surveillance
- National Security Agency
- Quantitative structure-activity relationship
- Customer analytics
- Police-enforced ANPR in the UK
- Stellar wind (code name)
முறைகள்
- Association rule learning
- Cluster analysis
- Structured data analysis (statistics)
- Screen scraping
- Java Data Mining
- Data analysis
- Predictive analytics
- Knowledge discovery
குறிப்புகள்
- Lyman, Peter; Hal R. Varian (2003). "How Much Information". பார்த்த நாள் 2008-12-17.
- Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. பன்னாட்டுத் தரப்புத்தக எண்:0471228524. இணையக் கணினி நூலக மையம்:50055336.
- த டேட்டா மைனிங் குரூப் (DMG). DMG என்பது, பிரிடிக்டிவ் மாடல் மார்க்-அப் லாங்குவேஜ் (PMML) போன்ற தரவுச் செயலாக்கத் தரநிலைகளை உருவாக்குகின்ற குழுவை வழிநடத்தும் ஒரு சுயசார்புள்ள வெண்டராகும்.
- PMML ப்ராஜெக்ட் பக்கம்
- அலெக்ஸ் குயாஸ்செல்லி, மிச்சல் செல்லர், வென்-சிங்க் லின், கிரஹாம் வில்லியம்ஸ். PMML: அன் ஓபன் ஸ்டேண்டர்டு பார் ஷேரிங் மாடல்ஸ். த R ஜேர்னல் , தொகுதி 1/1, மே 2009.
- Y. Peng, G. Kou, Y. Shi, Z. Chen (2008). "A Descriptive Framework for the Field of Data Mining and Knowledge Discovery". International Journal of Information Technology and Decision Making, Volume 7, Issue 4 7: 639 – 682. doi:10.1142/S0219622008003204.
- புரசீடிங்க்ஸ், இண்டர்நேஷனல் கான்பரன்சஸ் ஆன் நாலேட்ஜ் டிஸ்கவரி அண்ட் டேட்டா மைனிங், ACM, நியூயார்க்.
- SIGKDD எக்ஸ்புளோரேஷன்ஸ், ACM, நியூயார்க்.
- இண்டர்நேஷனல் கான்பரன்ஸ் ஆன் டேட்டா மைனிங்: 5 ஆவது (2009); 4 ஆவது (2008); 3 ஆவது (2007); 2 ஆவது (2006); 1 ஆவது (2005)
- IEEE இண்டர்நேஷனல் கான்பரன்ஸ் ஆன் டேட்டா மைனிங்: ICDM09, மியாமி, FL; ICDM08, பைசா (இத்தாலி); ICDM07, ஓமாஹா, NE; ICDM06, ஹாங்காங்; ICDM05, ஹவுஸ்டன், TX; ICDM04, பிரிக்டன் (UK); ICDM03, மெல்ர்போர்ன், FL; ICDM02, மயேபாஷி சிட்டி (ஜப்பான்); ICDM01, சான் ஜோஸ், CA.
- Fayyad, Usama; Gregory Piatetsky-Shapiro, and Padhraic Smyth (1996). "From Data Mining to Knowledge Discovery in Databases". பார்த்த நாள் 2008-12-17.
- Ellen Monk, Bret Wagner (2006). Concepts in Enterprise Resource Planning, Second Edition. Thomson Course Technology, Boston, MA. பன்னாட்டுத் தரப்புத்தக எண்:0-619-21663-8. இணையக் கணினி நூலக மையம்:224465825.
- டோனி பவுண்டன், தாமஸ் டைட்டரிக் & பில் சுதிகா (2000) மைனிங் IC டெஸ்ட் டேட்டா டு ஆப்டிமைஸ் VLSI டெஸ்ட்டிங் , இன் புரசீடிங்க்ஸ் ஆப் த சிக்ஸ்த் ACM SIGKDD இண்டர்நேஷனல் கான்பரன்ஸ் ஆன் நாலேட்ஜ் டிஸ்கவரி அண்ட் டேட்டா மைனிங். (ப. 18-25). ACM பிரஸ்.
- Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New Your. பக். 18. பன்னாட்டுத் தரப்புத்தக எண்:978-159904252-7.
- A.J. McGrail, E. Gulski et al.. "Data Mining Techniques to Asses the Condition of High Voltage Electrical Plant". CIGRE WG 15.11 of Study Committee 15.
- R. Baker. "Is Gaming the System State-or-Trait? Educational Data Mining Through the Multi-Contextual Application of a Validated Behavioral Model". Workshop on Data Mining for User Modeling 2007.
- J.F. Superby, J-P. Vandamme, N. Meskens. "Determination of factors influencing the achievement of the first-year university students using data mining methods". Workshop on Educational Data Mining 2006.
- Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New York. பக். 163–189. பன்னாட்டுத் தரப்புத்தக எண்:978-159904252-7.
- ibid. ப. 31–48.
- Yudong Chen, Yi Zhang, Jianming Hu, Xiang Li. "Traffic Data Analysis Using Kernel PCA and Self-Organizing Map". Intelligent Vehicles Symposium, 2006 IEEE.
- படே ஏ, லிண்ட்கொய்ஸ்ட் எம், எட்வர்ட்ஸ் ஐ.ஆர், ஓல்சன் எஸ், ஓர்ரே ஆர், லான்ஸ்னெர் ஏ, டே ப்ரெயிடாஸ் ஆர்.எம். ஏ பயேசியன் நியூரல் நெட்வொர்க் மெத்தேட் பார் அட்வெர்ஸ் ட்ரக் ரியாக்ஷன் சிக்னல் ஜெனரேஷன். ஏர் ஜே க்ளின் பர்மாகோல். 1998 ஜூன்;54(4):315-21.
- நோரன் ஜிஎன், படே ஏ, ஹோப்ஸ்டடியஸ் ஜே, ஸ்டார் கே, எட்வர்ட்ஸ் ஐஆர். டெம்ப்போரல் பேட்டர்ன் டிஸ்கவரி பார் ட்ரெண்ட்ஸ் அண்ட் டிரான்சியண்ட் எஃபெக்ட்ஸ்: இட்ஸ் அப்ளிகேஷன் டூ பேஷண்ட் ரெக்கார்ட்ஸ். புரசீடிங்க்ஸ் ஆப் த போர்டீன்த் இண்டர்நேஷனல் கான்பரன்ஸ் ஆன் நாலேட்ஜ் டிஸ்கவரி அண்ட் டேட்டா மைனிங் SIGKDD 2008 , பக்கங்கள் 963-971. லாஸ் வேகாஸ் NV, 2008.
- ஹீலே, ஆர்., 1991, டேட்டாபேஸ் மேனேஜ்மெண்ட் சிஸ்டம்ஸ். இன் மாக்யூர், டி., குட்சைல்டு, எம்.எஃப். மற்றும் ரீஹிண்ட், டி., (பதிப்புகள்.), ஜியோகிராபிக் இன்பர்மேஷன் சிஸ்டம்ஸ்: பிரின்சிபல்ஸ் அண்ட் அப்ளிகேஷன்ஸ் (இலண்டன்: லாங்மேன்).
- கேமரா, ஏ. எஸ். மற்றும் ரேபர், ஜே., (பதிப்புகள்.), 1999, ஸ்பாடியல் மல்டிமீடியா அண்ட் விர்ச்சுவல் ரியலிட்டி, (லண்டன்: டெய்லர் அண்ட் பிரான்சிஸ்).
- மில்லர், எச். மற்றும் ஹான், ஜே., (பதிப்புகள்.), 2001, ஜியோகிராபிக் டேட்டா மைனிங் அண்ட் நாலேட்ஜ் டிஸ்கவரி, (இலண்டன்: டெய்லர் & பிரான்சிஸ்).
- கவர்மெண்ட் அக்கவுண்டபிலிட்டி ஆபிஸ், டேட்டா மைனிங்: ஏர்லி அட்டென்ஷன் டூ டெவலப்பிங் எ கீ DHS புரோகிராம் குட் ரெட்யூஸ் ரிஸ்க்ஸ் , GAO-07-293, வாஷிங்டன், D.C.: பிப்ரவரி 2007.
- செக்யூர் ப்ளைட் புரோகிராம் ரிப்போர்ட், MSNBC.
- "Total/Terrorism Information Awareness (TIA): Is It Truly Dead?". Electronic Frontier Foundation (official website) (2003). பார்த்த நாள் 2009-03-15.
- ஆர். அகர்வால் எட் ஆல்., பாஸ்ட் டிஸ்கவரி ஆப் அசோசியேஷன் ரூல்ஸ் , இன் அட்வான்சஸ் இன் நாலேட்ஜ் டிஸ்கவரி அண்ட் டேட்டா மைனிங் ப. 307-328, MIT பிரஸ், 1996.
- நேஷனல் ரீசர்ச் கவுன்சில், புரடெக்டிங் இண்டிவிசுயல் பிரைவசி இன் த ஸ்ட்ரக்கிள் அகய்ன்ஸ்ட் டெரரிஸ்ட்: எ பிரேம்வொர்க் பார் புரோகிராம் அஸ்செஸ்மெண்ட் , வாசிங்க்டன், DC: நேஷனல் அகாடெமியஸ் பிரஸ், 2008.
- Stephen Haag et al. (2006). Management Information Systems for the information age. Toronto: McGraw-Hill Ryerson. பக். 28. பன்னாட்டுத் தரப்புத்தக எண்:0-07-095569-7. இணையக் கணினி நூலக மையம்:63194770.
- William Seltzer. The Promise and Pitfalls of Data Mining: Ethical Issues. http://www.amstat.org/committees/ethics/linksdir/Jsm2005Seltzer.pdf.
- Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Washington Spectator. http://www.washingtonspectator.com/articles/20070315surveillance_1.cfm.
- K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Columbia Science and Technology Law Review 5 (2). SSRN 546782 / OCLC 45263753. http://www.stlr.org/cite.cgi?volume=5&article=2.
- John Resig, Ankur Teredesai (2004). "A Framework for Mining Instant Messaging Services". In Proceedings of the 2004 SIAM DM Conference. http://citeseer.ist.psu.edu/resig04framework.html.
- திங் பிபோர் யூ டிக்: பிரைவசி இம்ப்ளிகேஷன்ஸ் ஆப் டேட்டா மைனிங் & அக்ரிகேஷன் , NASCIO ரீசர்ச் பிரீஃப், செப்டம்பர் 2004.
- AOL சர்ஜ் டேட்டா இடெந்திபைடு இண்டிவிசுவல்ஸ் , செக்யூரிட்டிபோகஸ், ஆகஸ்ட் 2006.
- கரேத் ஹெர்செல் (1 ஜூலை 2008) மேஜிக் கோட்ரண்ட் பார் கஸ்டமர் டேட்டா-மைனிங் அப்ளிகேஷன்ஸ் , கார்ட்னர் இன்க்.
- கார்ல் ரெக்ஸர், பால் கீரன், & ஹீத்தர் ஆலென் (2008) 2008 டேட்டா மைனர் சர்வே சம்மரி , SPSS டைரக்சன்ஸ் மாநாடு, அக்டோபர். 2008, மற்றும் ஆரக்கிள் BIWA சம்மிட், நவம்பர். 2008 ஆகியவற்றில் அளிக்கப்பட்டது.
- MineBench பதிவிறக்கத் தளம்: http://cucis.ece.northwestern.edu/projects/DMS/MineBench.html
- MineBench பேப்பர்: http://www.eecs.northwestern.edu/~ran310/minebench.pdf
40. பயோடெக் பிசினஸ் வீக் எடிட்டர்ஸ். (ஜூன் 30, 2008). BIOMEDICINE; HIPAA பிரைவசி ரூல் இம்பெட்ஸ் பயோமெடிக்கல் ரீசர்ச். பயோடெக் பிசினஸ் வீக். லெக்ஸிச்நெக்ஸிஸ் அகடெமிக்கில் இருந்து 17 நவம்பர் 2009 இல் பெறப்பட்டது.
கூடுதல் வாசிப்பு
- பாகத், பிரோஸ் பேட்டர்ன் ரெகக்னைஷன் இன் இண்டஸ்ட்ரி , எல்சேவியர், ISBN 0-08-044538-1.
- கேபெனா, பீட்டர், பப்லோ ஹட்ஜ்னியன், ரோல்ஃப் ஸ்டாட்லெர், ஜாப் வர்ஹீஸ் மற்றும் அலெஸ்ஸாண்ட்ரோ ஜானசி (1997) டிஸ்கவரிங் டேட்டா மைனிங்: ப்ரம் கான்செப்ட் டூ இம்ப்ளிமெண்டேஷன் , ப்ரெண்டைஸ் ஹால், ISBN 0-13-743980-6.
- டம்மர், ஸ்டீபன் டபள்யூ., பால்ஸ் பாஸிட்டிவ்ஸ் அண்ட் செக்யூர் ஃப்ளைட் யூஸிங் டேட்டாவெயிலன்ஸ் வென் வியூடு த்ரோ த எவர் இன்க்ரீஸிங் லைக்லிஹூட் ஆப் ஐடெண்டிட்டி தெஃப்ட் , 11 ஜெ. ஆப் டெக். லா & பாலி 259 (2006).
- டம்மர், ஸ்டீபன் டபள்யூ., கமெண்ட்: செக்யூர் ஃப்ளைட் யூஸிங் டேட்டாவெயிலன்ஸ், எ நியூ டைப் ஆப் சிவில் லிபர்டீஸ் ஐரோசன்: ஸ்ட்ரிப்பிங் யுவர் ரைட்ஸ் வென் யூ டோண்ட் ஈவன் நோ இட் , 75 மிஸ். எல்.ஜே. 583 (2005).
- பெல்டுமேன், ரோனென் அண்ட் ஜேம்ஸ் சன்ஜெர் த டெக்ஸ்ட் மைனிங் ஹேண்ட்புக் , கேம்ப்ரிட்ஜ் யுனிவர்சிட்டி பிரஸ், ISBN 978-0-521-83657-9.
- க்யோ, யைக் மற்றும் ராபர்ட் கிராஸ்மேன், பதிப்பாசிரியர்கள் (1999) ஹை பெர்பார்மன்ஸ் டேட்டா மைனிங்: ஸ்கேலிங் அல்காரிதம்ஸ், அப்ளிகேஷன்ஸ் அண்ட் சிஸ்டம்ஸ் , க்ளுவெர் அகாடமிக் பப்ளிஷர்ஸ்.
- ஹாஸ்டி, ட்ரேவர், ராபர்ட் டிப்ஷிரணி அண்ட் ஜெரோம் ப்ரைட்மேன் (2001). தி எலமெண்ட்ஸ் ஆப் ஸ்டேட்டிஸ்டிகல் லேர்னிங்: டேட்டா மைனிங், இன்ப்ரென்ஸ் அண்ட் பிரிடிக்சன் , ஸ்பிர்ங்ஜெர், ISBN 0-387-95284-5.
- ஹார்னிக், மார்க் எப்., எரிக் மார்கேட் அண்ட் சுனில் வெங்கயலா ஜாவா டேட்டா மைனிங்: ஸ்ட்ரேடஜி, ஸ்டேண்டர்டு அண்ட் பிராக்டீஸ்: எ பிராக்டிகல் கைடு பார் ஆர்க்கிடெக்சர், டிசைன் அண்ட் இம்ளிபெண்டேஷன் (Broché).
- பிங் லியூ (2007). வெப் டேட்டா மைனிங்: எக்ப்ளோரிங் ஹைபர்லிங்க்ஸ், கன்டண்ட்ஸ் அண்ட் யூசேஜ் டேட்டா. ஸ்பிர்ங்ஜெர், ISBN 3-540-37881-2.
- மியர்ஸ்வா, இங்கோ, மைக்கேல் வுர்ஸ்ட், ரால்ப் க்ளிகென்பெர்க், மார்ட்டின் ஸ்கால்ஸ் மற்றும் டிம் யூலெர் (2006) YALE: ரேபிட் புரோட்டோடைப்பிங் பார் காம்ப்ளக்ஸ் டேட்டா மைனிங் டாஸ்க்ஸ் , இன் புரசீடிங்க்ஸ் ஆப் த 12த் ACM SIGKDD இண்டர்நேஷனல் கான்ப்ரன்ஸ் ஆன் நாலேட்ஜ் டிஸ்கவரி அண்ட் டேட்டா மைனிங் (KDD-06).
- நிஸ்பெட், ராபர்ட், ஜான் எல்டர், காரி மைனர், 'ஹேண்ட்புக் ஆப் ஸ்டேட்டிஸ்டிகல் அனலைசிஸ் & டேட்டா மைனிங் அப்ளிகேஷன்ஸ், அகாடமிக் பிரஸ்/எல்சேவியர், ISBN 9780123747655 (2009)
- பொன்செலட், பாஸ்கல், ப்ளோரண்ட் மாஸ்சேக்லியா மற்றும் மாகுயலோன்னே டேய்ஸ்ஸெயர், பதிப்பாசிரியர்கள் (அக்டோபர் 2007) டேட்டா மைனிங் பேட்டர்ன்ஸ்: நியூ மெத்தட்ஸ் அண்ட் அப்ளிகேஷன்ஸ் , இன்பர்மேஷன் சயின்ஸ் ரெபரன்ஸ், ISBN 978-1-59904-162-9.
- பாங்-நிங் டான், மைக்கல் ஸ்டெயின்பாக் மற்றும் விபின் குமார், இண்ட்ரடக்சன் டூ டேட்டா மைனிங் (2005), ISBN 0-321-32136-7
- வாங், எக்ஸ்.இஸட்.; மேடசனி, எஸ்.; மர்ஹூன், எப்; அல்-பஸ்ஸாஸ், எச். (2004) மல்ட்டிடைமென்ஷனல் விசுவலைசேஷன் ஆப் பிரின்சிபல் காம்போனெண்ட் ஸ்கோர்ஸ் பார் ஹிஸ்டாரிக்கல் டேட்டா அனாலிசிஸ் , இண்டஸ்ட்ரியல் & இன்ஜினியரிங் கெமிஸ்டரி ரீசர்ச், 43(22), பக். 7036–7048.
- வேங்க், எக்ஸ்.இஸட். (1999) டேட்டா மைனிங் அண்ட் நாலேட்ஜ் டிஸ்கவரி பார் பிராசஸ் மானிட்டரிங் அண்ட் கண்ட்ரோல் . ஸ்பிரிங்ஜெர், இலண்டன்.
- வேயிஸ் அண்ட் இந்தூர்கியா பிரிடிக்டிவ் டேட்டா மைனிங் , மோர்கன் காஃப்மேன்.
- விட்டென், இயன் அண்ட் எபி ஃப்ராங்க் (2000) டேட்டா மைனிங்: பிராக்டிக்கல் மெஷின் லேர்னிங் டூல்ஸ் வித் ஜாவா இம்ப்ளிமெண்டேஷன்ஸ் , ISBN 1-55860-552-5. (மேலும் ஃப்ரீ வேகா சாஃப்ட்வேர் என்பதையும் காண்க.)
புற இணைப்புகள்
- ACM SIGKDD, அறிவுக் கண்டுபிடிப்பு மற்றும் தரவுச் செயலாக்கத்திற்கான தொழில்முறைக் கூட்டமைப்பு
- Data Mining திறந்த ஆவணத் திட்டத்தில்