آشنايي با مفاهيم انباره هاي داده (Data warehouse)

انباره داري / تحليل زنده / داده کاوي

مقدمه

هدف از ارايه اين مقاله آشنايي خواننده با مفاهيم انباره هاي داده (Data warehouse) و فن آْوري هاي مرتبط مي باشد. انباره هاي داده پايه گذار فن آوري لازم براي ساخت و بهره برداري از برنامه هاي هوشمندي هستند که بعضا در برخي فيلم هاي تخيلي با آنها آشنا شده ايم. برنامه هايي که اطلاعات را براي صاحبان خود جمع آوري نموده و پس از تجزيه و تحليل با آنها به مشاوره مي پردازند.

OLTP چيست؟

فقط در سال 2000 ميزان ظرفيت نصب شده جهت ذخيره سازي اطلاعات از کل ظرفيت موجود در دهه 1990 بيشتر بوده است.
حيات بازرگاني نوين مبتني بر داده هاست. در حال حاضر تقريبا حجم کل اطلاعات در کامپيوترها هر 5 سال دو برابر مي شود و با توجه به سرعت ايجاد برنامه هاي چند رسانه اي و بانکهاي اطلاعاتي پيش بيني مي شود که شتاب رشد اطلاعات به دو برابر در سال برسد.
توليد کنندگان اين اطلاعات موسسات و شرکت هاي جديدي هستند که امور خود را توسط کامپيوترها هدايت مي کنند. سيستم هاي توليد مکانيزه اي که داده ها را جمع آوري نموده و به مصرف مي رسانند سيستم هايOLTP ناميده مي شوند. اين سيستم ها توليد کنندگان واقعي داده ها هستند.
برنامه هاي کاربردي خادم و مخدوم بدو دسته تقسيم مي شوند:
" سيستم هاي پشتيباني تصميم گيري (DSS)
" سيستم هاي پردازش زنده (OnLine) اطلاعات
اين دو دسته هر يک راه هاي کاملا متفاوتي را جهت حل مسايل تجاري ارايه مي کنند. قبل از آنکه به ارزش انباره هاي داده پي ببريم لازم است تفاونهاي اين دو را بشناسيم.
سيستم هاي OLTP در کليه خدمات بازرگاني ديده مي شوند از جملع سيستم هاي رزرواسيون، دستگاه هاي فروش ، کنترل انبار، سهام و فروش و … . اين سيستم ها غالبا به زمان پاسخي بين 1 تا 3 ثانيه در 100 در صد اوقات نياز دارند. تعداد کاربران آنها در ساعات مختلف روز ، هفته و ماه مي تواند بشدت متغير باشد و درتمامي اين اوقات به همان زمان پاسخ قبلي نياز دارند. در اين گونه سيستم ها معمولا مخدومين بجاي ارتياط با بانکهاي اطلاعاتي(Database Servers) به خادمين تعاملي (Transaction Servers) متصل مي شوند. البته اين گونه ارتباط لازمه دستيابي به سرعت مورد نياز مخدومين (Clients) است.
OLTP خود نيز به دو نوع عادي (Lite) و قوي (Heavy) تقسيم مي گردد. خادمين عادي قادرند تعامل را در غالب پردازش هاي ثبت شده در بانک اطلاعاتي (StoredProcedures) به اجرا بگذارند و خادمين قوي از (TP Monitor) براي اجراي دستورات استفاده ميکنند.در OLTP براي دستيابي به سرعت، سربار ارتباطي شبکه ها در حداقل ممکن نگاه داشته مي شود و غالبا ارتباطات در حد انتقال يک دستور ((SQL سيکويل هستند.
امروزه حتي کوچکترين تجارتها هم قادرند بسرعت پايگاه هاي اطلاعاتي بزرگي يا با جمع آوري اطلاعات صندوق هاي فروش ايجاد کنند چه رسد به وب سرور ها که مي توانند ظرف مدت بسيار کوتاهي چندين گيگا بايت اطلاعات جمع آوري نمايند.
زماني براي هر کار مکانيزه اي نياز به ميليونها پول و ده ها متخصص بود . اما امروزه هر کسي بسادگي با خريد چند کامپيوتر شخصي و استخدام يک برنامه نويس مي تواند از امکانات رايانه اي بهره مند گردد. بعبارت ديگر دسترسي به خدمات رايانه اي براي ايجاد پايگاه هاي خصوصي از داده ها براي همگان آسانتر شده است.
در مجموع داده هايي که توسط سيستم هاي OLTP جمع آوري مي شود مستقيما مورد استفاده افراد ايجاد کننده آن قرار دارد. آنها دقيقا مي دانند اين داده ها چيستند و همچنين مي دانند چگونه نياز هاي اطلاعاتي لحظه اي خود را که بطور روزمره بوجود مي آيد حل کنند.
سوالي که مطرح است اينست که اگر کسي خارج از مجموعه OLTP به اين اطلاعات نياز داشته باشد چه بايد کرد. اين افراد از کجا مي دانند چه داده اي موجود است؟ کجا بايستي آنرا پيدا کرد و چگونه به آن دسترسي پيدا کنند؟ داده ها به چه شکلي (Format) است ؟ چه معنايي دارد؟ آخرين چيزي که افراد OLTP به آن رضايت خواهند داد آنست که اجازه دهند ديگران به اطلاعات گرانبهاي آنان دسترسي داشته باشند. کساني که حتي نمي دانند چه مي خواهند، درخواستهاي سيکويل زمانگيري را بر روي بانکهاي اطلاعاتي اجرا مي کنند که سرعت و قابليت سيستم توليد کننده داده ها را پايين مي آورد.
در گذشته افراد بيرون از سيستم ، از همکاران MIS خود مي خواستند با همکاران مشابه خود در سيستم مربوطه تعامل داشته و نهايتا اطلاعات مورد نظر را از سيستم استخراج نمايند. اما امروزه حتي مجموعهMIS خود هم بدرستي نمي داند چه اطلاعاتي در سازمان موجود است. اطلاعات بشدت توزيع شده و پراکنده است و تقريبا روي هر کامپيوتري بخشي از اطلاعات سازمان وجود دارد.
يکي از ويژگيهاي کامپيوتر هاي شخصي و همچنين معماري خادم/مخدوم موجب شده است که افراد اکثرا به اطلاعات سازماني و کاربرد اطلاعات در سازمان علاقه اي نداشته و ترجيح مي دهند اطلاعات را تحت مالکيت شخصي اداره کنند به اين ترتيب بين اطلاعات سازمان و شخصي (يا واحد هاي متشکله) شکاف وجود خواهد داشت. از طرف ديگر بين داده هاي سيستمي و اطلاعات استخراج شده نيز شکاف ديگري مشاهده مي شود. کساني که از بيرون به اين اطلاعات نگاه مي کنند افرادي هستند که بدنبال يافتن طرحها، روالها و تمايلات در داده ها هستند بطوريکه بتوانند تصميمات بهتري بگيرند. تنيدن حصار بدور اطلاعات بمعني تنيدن حصار در برابر تجارت ديگران است و خيلي زود همگان بازنده جنگ اين حصارها خواهند بود.
چگونه اطلاعات را در اختيار داريم اگر بديگران اجازه دسترسي به آنرا بدهيم.
سولات زيادي مطرح هستند که بايستي پاسخ داده شوند و از آن جمله اند:
چگونه مطمين شويم که عملکرد بيروني ها (غريبه ها) عملکرد سيستم ما را کند نمي کند؟
چه اطلاعاتي را بايستي در اختيار بيروني ها قرار دهيم؟
چه اطلاعاتي دروني و شخصي (فقط مربوط به سيستم توليد کننده داده) است؟
چه کسي مالک اطلاعات به اشتراک گذاشته شده است؟
چه کسي اين اطلاعات را بروز ميکند؟
آيا بايستي بگذاريم دسترسي به اطلاعات مستقيم باشد يا آنرا در بانک ديگري کپي کنيم؟
اطلاعات استخراج شده چگونه نگهداري شده و چگونه بروز مي شود؟
براي پاسخ به سوالات فوق بايستي نياز هاي استفاده کنندگان از اين اطلاعات را بشناسيم و تفاوتهاي ميان سيستمهاي پشتيبان تصميم گيري و OLTP را درک کنيم.

چه کساني از اين داده ها استفاده ميکنند؟

بياييد نامي براي اين دسته از افراد انتخاب کنيم. اين افراد مصزف کنندگان اطلاعات هستند( کساني هستند که تصميمات استراتژيک مي گيرند) فعلا نام اين افراد را شکارچي اطلاعات مي گذاريم چون اين نام معرف هر کسيست که به يکPC دسترسي دارد و نيازمند اطلاعات است. البته بازرگانان و صنعتگران اولين دسته از اين افراد هستند.

سيستم پشتيباني تصميم گيري چيست؟

يک سيستم کارآمد، ابزاريست براي تحليل داده ها ، يافتن ارتباط بين داده ها، توليد گزارش هاي کارآمد، دسترسي منعطف به داده ها، راهکار هاي نمايش اطلاعات در انواع ممکن، قابليت پاسخ به سوالات اگر … چه ، چاپ اطلاعات،انتقال داده ها به صفحات گسترده .
در مقايسه با سيستم هاي توليد داده، اين ابزارها از انعطاف بيشتري در زمان پاسخگويي برخوردار هستند. معمولا کنترل يکپارچگي در آنها رعايت نشده است و قابليت دسترسي همزمان کاربران به آن غالبا محدود است. جستجوي اطلاعات و يا بروز رساني اطلاعات غالبا بمعني پردازش روي تمامي اطلاعات خواهد بود. اين برنامه ها براي غير برنامه نويسان تهيه شده و بيشتر فعاليت ها در آن از طريق نشان بده و کليک کن (Point and Click) انجام مي شود.

سيستم هاي اطلاعات مديران اجرايي (Executive Information Systems)

اين دسته از برنامه ها از ابزارهاي DSS قوي تر، ساده تر و کار آمدتر هستند. همچنين به يک زمينه تجاري خاص نزديکتر و طبيعتا گرانتر هم هستند. البته اختلاف بين DSS و EIS بتدريج کم رنگ شده است. ابزارهاي EIS بتازگي دامنه عمل خو.د را گسترش داده و در سطح سازمان (Enterprise) خود را مطرح کرده اند بطوريکه مديران و تحليلگران نيز از اين ابزار ها استفاده مي کنند
.ابزارهاي DSS/ESS بطور خلاصه ابزارهاي (OLAP) OnLine Analytical Processing يا ابزارهاي(MDA) Multidimensional Analysis ناميده مي شوند و در لايه هاي بالاتر به آنها ابزارهاي داده کاوي (Data Mining) و کارآگاهان شخصي (Intelligent Agent) گفته مي شود.

مقايسه سيستم هاي DSS و OLTP

در جدول زير تفاوت هاي دو نوع سيستم DSS و OLTP را مي بينيم:
قابليت نياز بانک اطلاعاتي OLTP نياز بانک اطلاعاتي DSS
چه کسي از آن استفاده مي کند کارکنان سيستم توليد کننده اطلاعات شکارچي اطلاعات
ارزش زماني اطلاعات به مقدار فعلي اطلاعات نياز دارد و گزارش ها قابل باز سازي نيستند به اطلاعات پايدار نياز دارد . اطلاعات هر از گاه به وقت مي شوند. گزارش ها قابل بازسازي هستند
تعداد دسترسي ها به اطلاعات پيوسته در طول روز کاري با نقاط پيک کاري هر از گاه
شکل داده داده خام است. استخراج و تبديلي صورت نگرفته در چندين لايه تبديل صورت گرفته است. استخراج و فشرده سازي داده ها انجام شده
جمع آوري داده ها از يک برنامه از چندين محل داخلي و خارجي
آيا محل توليد داده مشخص است بلي بيشتر داده توسط يک برنامه توليد مي شود خير از برنامه هاي مختلف و بانک هاي اطلاعات و وب مي آيد
آيا اطلاعات نگارش بندي شده هستند خير. داده ها پيوسته و در يک نگارش هستند بلي هر مجموعه از داده داراي تاريخ برداشت است
نوع دسترسي به داده چندين کاربر اطلاعات را به وقت مي کنند بيشتر اوقات يک کاربر
آيا داده قابل به وقت رساني است مقدار کنوني مدام در حال تغيير است فقط خواندنيست
انعطاف در دسترسي انعطاف ندارد. فقط از طريق برنامه ها ممکن است. منعطف از طريق يک توليد کننده درخواست و OLAP
راندمان سرعت پاسخ بالا مورد نياز است. فعاليت ها همگي مکانيزه و سريع نسبتا کند
نيازهاي اطلاعاتي بخوبي فهميده شده اند ناپايدار و نسبي. به مقدار زيادي کار کشف و تحقيق و جستجوي موضوعي نياز است.
دامنه اطلاعات محدود. آن چيزي که در بانک موجود است داده ها ممکن است از هر جايي بيايند
رکورد هاي پردازش شده کمتر از 10 رکورد صدها / هزاران و ميليونها رکورد

انباره داده (DatawareHouse)

در محيط خادم/مخدوم انباره داده يعني انباره (Repository) اطلاعات براي مصرف سيستم هاي پشتيباني تصميم گيري.انباره داده بک مخزن فعال و هوشمند از اطلاعات است که قادر است اطلاعات را از محيط هاي گوناگون جمع آوري و مديريت کرده و نهايتا پخش نمايد و در صورت لزوم نيز سياست هاي تجاري را روي آنها اجرا نمايد.

عناصر انباره داري

انباره يک محل است و انباره داري يک فرآيند.
اين فرآيند از عناصر زير تشکيل شده است :
1. مديريت انتشار اطلاعات انباره که وظيفه نسخه برداري و توزيع اطلاعات را بر روي بانک هاي مختلف (آنگونه که شکارچي اطلاعات تعريف مي کند) به عهده دارد. شکارچي اطلاعاتي را که بايستي کپي شود، مبدا و مقصد اطلاعات، تعداد بوقت رساني ها و تبديلات لازم روي اطلاعات را تعريف مي کند. اصطلاح تازه سازي (Refresh) بمفهوم کپي کامل آخرين وضعيت اطلاعات و اصطلاح بوقت رساني (Update) بمفهوم اعمال آخرين تغييرات بکار گرفته شده اند. همه کارها مي تواند بصورت خودکار و يا دستي انجام پذيرد. اطلاعات ممکن است از بانکهاي رابطه اي و غير رابطه اي تهيه شود. توجه کنيد که کليه اطلاعات خارجي قبل از ورود به سيستم، تبديل شده و پاک سازي مي شوند.
2. بانک اطلاع رساني يک بانک اطلاعاتي رابطه ايست که وظيفه سازماندهي و ذخيره نمودن يک نسخه از اطلاعات و همچنين تبديلات و جمع بندي و افزودن ارزش به اطلاعات حاصله از منابع مختلف و با فرمت هاي مورد نظر بعهده دارد. نگهداري فراداده (اطلاعات در مورد اطلاعات) نيز به عهده اين بانک است . فراداده هاي سيستمي روابط بين جداول و ايندکس ها و غيره را بيان مي کنند و فراداده هاي محتوايي (semantic) ارزش اطلاعات را براي يک شکارچي اطلاعات روشن مي سازند.
3. راهنماي اطلاعات (Informational Directory) ترکيبي از يک راهنماي فني و راهنماي تجاري و يک پويشگر اطلاعات است. هدف اصلي اين راهنما کمک به شکارچي براي دانستن محل وجود اطلاعات ،شکل آن و روش دسترسي به آن است
4. پشتيباني ابزارهاي DSS/EIS از طريق انواع دستورات SQL انجام مي گيرد. بسياري از فروشندگان پروتکل ODBC و سايرين انواع ديگر پروتکل ها را سرويس مي دهند.

سلسله مراتب انباره ها (غرفه هاي داده (DataMarts))

انواع کوچکتري از انباره هاي داده هستند. در عمل غرفه هاي داده دپارتماني و غرفه هاي داده همراه (mobile) از ابتدا برنامه ريزي نمي شوند بلکه ابتدايا بوجود آمده و در صورت موفقيت تکثير شده و در نهايت مدير بانک اطلاعاتي سازمان ممکن است بتواند يک فدراسيون آزاد ار اين غرفه ها تشکيل دهد و نهايتا يک انباره داده را پايه گذاري نمايد.
ابزارهاي DSS/EIS از خواسته ها (Queries) تا تحليل زنده (OLAP) و تا داده کاوي (DataMining)

ابزارهاي گزارش گيري

ابزارهاي تحليل داده و خواسته پردازها بما اجازه ساختن يک دستور سيکويل را مي دهند بدون آنکه مجبور باشيم برنامه اي بنويسيم يا سيکويل ياد بگيريم. با چند نشانه و کليک عبارت هاي سيکويل مناسب براي گرد آوري اطلاعات و نمايش آن بشکل يک گراف / جدول و يا گزارش آماده مي شود. ابزارهاي برجسته تر در اين زمينه امکان کنترل ميزان نتايج برگشته از يک خواسته را مي دهند و به اين ترتيب مي توان جلوي درخواستهايي را که ممکن است ميليونها رکورد را برگردانند گرفت. در سال 1998 بيش از 150 نوع از اين ابزارها در بازار وجود داشته است که Microsoft Access, Oracle Reports, Business Objects از آن جمله اند.

OLAP و اطلاعات چند بعدي

به ساختار OLAP مثل يک مکعب روبيک از داده ها نگاه کنيد که مي توانيد آنرا در جهات مختلف بچرخانيد تا بتوانيد سناريو هاي "قبلا چه شده" و "چه مي شد اگر …" را بررسي کنيد.
اين ابزارها ديدگاههاي چند بعدي از داده ها را توسط بانکهاي اطلاعاتي دو بعدي (و يا بانکهاي خاص چند بعدي) توليد کرده و در اختيارما مي گذارند. توان دسترسي چند بعدي به داده ها در OLAP قدرت فرموله کردن خواسته هاي پيچيده تر را بما مي دهد.
براي سادگي فرض کنيد OLAP يک صفحه گسترده با چند محور است (در صفحات گسترده متعارف فقط دو محور افقي با اختصار A, B, C, … و عمودي با ايندکس هاي 1و2و3,… داريم) در اين صورت مثلا مي توانيم اطلاعات فروش يک سازمان را از ديدگاه هاي منطقه فروش، تاريخ، مشتري، فروشگاه، قيمت و ميزان فروش بررسي کنيم. و پاسخ سولاتي نظير ميزان فروش به ازاي يک محصول و فروشگاه در يک ماه مشخص را خواهيم داشت.
مدل چند بعدي OLAP طريقه نمايش دادن داده ها را در مقايسه با بانک هاي اطلاعاتي رابطه اي تسهيل مي کند.ROLAP با ايجاد يک لايه محافط روي يک بانک اطلاعاتي رابطه اي سرويس فوق را ارايه ميدهد. از ديدگاه فني OLAP فقط راهي براي ذخيره سازي و محاسبه اطلاعات چند بعدي براي پاسخوگويي به سناريوهاي کاربر است. يک خادم OLAP، داده ها را از پيش روي چندين محور جمع مي زند. توجه کنيد که اطلاعات قبل از وارد شدن به OLAP بايستي پاک سازي شوند . غالبا OLAP داده ها را از يک انباره داده استخراج مي کند.
ابزارهاي OLAP را به چند دسته تقسيم مي کنند:
OLAP رو ميزي:
ابزارهاي ساده و مستقل که روي کامپيوتر هاي شخصي نصب شده و مکعب هاي کوچکي مي سازند و آنها را نيز بر روي سيستم به شکل فايل ذخيره مي کنند. بيشتر اين ابزارها با صفحات گسترده اي نظير Excel کار مي کنند.به اين ترتيب کساني که در سفر هستند قادر به استفاده از اين دسته از محصولات هستند.(در حال حاضر Web OLAP در حال جايگزين کردن اين محصولات است)
MOLAP چند بعدي
بجاي ذخيره کردن اطلاعات در رکورد هاي کليد دار، اين دسته از ابزارهاي بانکهاي اطلاعاتي خاصي را براي خود طراحي کرده اند بطوريکه داده ها را به شکل آرايه هاي مرتب شده بر اساس ابعاد داده ذخيره مي کنند (HyperCubes) در حال حاضر نيز دو استاندارد براي اين تيپ ابزار وجود دارد. سرعت اين ابزار بالا ولي سايز بانک اطلاعاتي آن نسبتا کوچک است.
OLAP رابطه اي (ROLAP)
اين ابزار ها با ايجاد يک بستر روي بانکهاي رابطه اي اطلاعات را ذخيره و بازيابي مي کنند. بطوريکه اساس بهينه سازي برخي بانکهاي اطلاعاتي رابطه اي مانند Red Brick, MicreoStrategyبر همين اساس استوار است.
اندازه بانک اطلاعاتي اين ابزار قابل توجه مي باشد.
Hybrid OLAP (HOLAP)
در اينجا منظور از hybrid ترکيبي از ROLAP و MDBMS (طرح شده در MOLAP) است
ابزار داراي بانک اطلاعاتي بزرگ و رادمان بالاتر نسبت به ROLAP مي باشد.

استانداردهاي OLAP

جامعه OLAP با دو استاندارد مواجه است، از يک طرف گروه OLAP با استاندارد MD-API و از طرف ديگر Microsoft با استاندارد OLE DB for OLAP (Tensor) اولي از حمايت Oracle و دومي از حمايت فروشندگان کوچکتري برخوردار است که اميدوارند فروش MS-SQL7 برنامه هاي آنان را در ابعاد فروش ويندوز مطرح کند.

داده کاوي(Data Mining)

ابزارهاي داده کاوي با جستجوي حجم عظيم داده هاي ما مي توانند تکه طلاي کوچکي را که در گوشه اي پنهان شده بيابند.
بازگشت هزينه صرف شده در اين ابزارها غالبا بسيار سريع است. مثلا در بررسي داده هاي يک واحد ار يک فروشگاه متوجه شدند که ميزان سرقت حين فروش از باتريها و فيلمها و قلم هاي با قيمت متوسط ماهانه حدود 60000 دلار براي فروشگاه هزينه داشته است که به اين ترتيب با جابجاکردن اقلام و قرار دادن در قسمتهاي با ديد بهتر سالانه حدود 700000 دلار صرفه جويي بدنبال داشته است.
ابزارهاي داده کاوي بدنبال طرحها و گروه بندي هايي در داده ها مي گردد که ممکن است از ديد ما پنهان مانده باشد.. ابزار تقريبا از کاربر هيچ کمکي نمي گيرد. بر خلاف ابزارهاي OLAP که استفاده کنندگان راهنما و سازمان دهنده اطلاعات هستند در داده کاوي اين ابزار است که استفاده کننده را هدايت مي کند. ابزار فرض مي کند که شما خود نيز دقيقا نمي دانيد که چه مي خواهيد. بيشتر اين ابزار ها از روش هاي جستجوي زير استفاده ميکنند:
1- ارتباطات که اصطلاحا تحليل سبد بازار خوانده مي شود. ابزار بدنبال اثبات اين موضوع است که وجود چيزي بمعني وجود چيز ديگريست. مثلا بيشتر خريداران لوازم غواصي به تعطيلات تابستاني در استراليا مي روند. يا مصرف کننده يک کالاي مشخص مصرف کرده خريدار کا لاي ديگري نيز هست.
2- ارتباطات متوالي ابزار بدنبال روابط متوالي بين موضوعات مي گردد مثلا وقتي قيمت طلا 10 درصد بالا مي رود يک هفته بعد قيمت سهام 15 درصد پايين مي آيد.
3- دسته بندي بدنبال دسته بندي و طبقه بندي سطح بالاي اطلاعات هستند. مثلا 70 درصد راي دهندگاني که تصميم نگرفته اند به که راي دهند درآمدي بالاي 60000 دلار دارند بين 40 تا 50 سال سن دارند و در منطقه X اقامت دارند.
اگر اطلاعات جدول زير در يک گراف دو بعدي به تصوير در آيد متوجه مي شويم که بنظر مي رسيد افراد بين 23 تا 29 به مکزيک و بين 30 تا 51 به کانادا سفر مي کنند
سن مشتري کشوري که به آن سفر کرده
23 مکزيک
45 کانادا
32 کانادا
47 کانادا
46 کانادا
34 کانادا
51 کانادا
28 مکزيک
49 کانادا
29 مکزيک
26 مکزيک
31 کانادا
يک نکته جالب ديگر که بسادگي قابل ديدن نيست آنستکه افراد بين 35 تا 44 اصلا سفر نمي کنند بعبارت ديگر دو دسته آدم به کانادا سفر مي کنند آنها که بين 30 تا 34 و آنها که بين 45 تا 51 سال سن دارند. گروه بندي در اين مجموعه اطلاعات کوچک و دو بعدي بسادگي قابل رويت است . چنانچه ابعاد اطلاعات و حجم آن افزايش يابد موضوع به سادگي گذشته نخواهد بود. گفتني است تعداد نمونه ها، تعداد ستونهاي اطلاعاتي و مقاديري که هر يک از ستونها مي گيرند در سرعت پردازش داده کاوي موثر هستند. مثلا براي پردازش 1000000 نمونه با 200 ستون اطلاعاتي که هر يک مي توانند 25 مقدار مختلف به خود بگيرند به حدود 2 ساعت وقت نيازاست .
اين ابزار ها در زمينه هاي مختلف کاربرد يافته اند.از جمله محققين بهداشت براي کشف ميزان موفقيت جراحيها . بانکها براي ارزيابي اعتبار مشتريان، بورس بازان براي تشخيص جابجايي قيمتهاي سهام و تشخيص طرحهاي تجاري ، شرکتهاي بيمه براي تشخيص ريسک مشتريان و رفتارهايشان و هتل ها براي تشخيص مشتريان بازگشتي خود از آن استفاده ميکنند. همانطوريکه بنظر مي آيد ابزارهاي داده کاوي از مجميعه ابزارهاي يک رده بالاتر هستند که استفاده هاي قابل توجهي براي آنها در صنعت قابل تصور است.
برخي از انواع تجاري اين ابزار عبارتند از :
Intelligent Miner, Darwin, MineSet, KnowledgeStudio, DataMind, Clementine

کارآگاهان شخصي

اين مامورين برنامه هاي قابل حملي هستند که با اتصال به انباره هاي داده اطلاعات مورد نياز را استخراح کرده و به کارفرمايان خود اطلاع مي دهند. در حال حاضر اين ابزارها بر اساس قوانين تعريف شده از طرف کارفرماي خود به جستجوي تغييرات در اطلاعات رفته و در صورت مشاهده تغيير پيغام مناسب را مي دهند.
هنوز کار هاي زيادي در اين قسمت بايستي صورت پذيرد که از آن جمله اند :
درک داده ها بر اساس دانش درون ابزار (هوشمند شدن)، درک علايق کارفرما و جستجو دربانکهاي اطلاعاتي مختلف براي اعلام تغييرات به کارفرما.
برنامه هاي کاريابي روي اينترنت با توجه به رزومه کاربر و يا برنامه هاي همسر يابي با توجه به مشخصات. برنامه هايي که تغييرات را در سايتهاي Microsoft و ساير شرکتها اعلام مي کنند و …. مثالهاي ساده اي از اين نوع برنامه ها هستند
منبع:http://www.academist.ir
/خ