خانه / مقالات / داده کاوی و اکتشاف دانش Data Mining

داده کاوی و اکتشاف دانش Data Mining

 

 داده کاوی و اکتشاف دانش

Data Mining

مقدمه :

امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کردواطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .

با استفاده ار پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است .

از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش[۱] بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند .

داده کاوی[۲] یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند .

در داده کاوی از بخشی از علم آمار به نام تحلیل اکتشافی داده ها[۳] استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود . علاوه بر این داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد ، بنابراین می توان گفت در داده کاوی تئوریهای پایگاه داده ها ، هوش مصنوعی ، یادگیری ماشین و علم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود .

باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها ، در حد مگا یا ترابایت ، مواجه باشیم . در تمامی منابع داده کاوی بر این مطلب تاکید شده است .

هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکلتر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ، روشن تر می گردد .

 

مفاهیم پایه در داده کاوی

در داده کاوی معمولا به کشف الگوهای مفید از میان داده ها اشاره می شود . منظور از الگوی مفید ، مدلی در داده ها است که ارتباط میان یک زیر مجموعه از داده ها را توصیف می کند و معتبر ، ساده ، قابل فهم و جدید است .

 

تعریف داده کاوی

در متون آکادمیک تعاریف گوناگونی برای داده کاوی ارائه شده است . در برخی از این تعاریف داده کاوی در حد ابزاری که کاربران را قادر به ارتباط مستقیم با حجم عظیم داده ها می سازد معرفی گردیده است و در برخی دیگر ، تعاریف دقیقتر که درآنها به کاوش در داده ها توجه می شود موجود است . برخی از این تعاریف عبارتند از :

  • داده کاوی عبارت است از فرایند استخراج اطلاعات معتبر ، از پیش ناشناخته ، قابل فهم و قابل اعتماد از پایگاه داده های بزرگ و استفاده از آن در تصمیم گیری در فعالیت های تجاری مهم.
  • اصطلاح داده کاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه داده های بزرگ به منظور یافتن الگوهای مفید اطلاق می شود
  • داده کاوی یعنی جستجو در یک پایگاه داده ها برای یافتن الگوهایی میان داده ها .
  • داده کاوی یعنی استخراج دانش کلان ، قابل استناد و جدید از پایگاه داده ها ی بزرگ .
  • داده کاوی یعنی تجزیه و تحلیل مجموعه داده های قابل مشاهده برای یافتن روابط مطمئن بین داده ها .

همانگونه که در تعاریف گوناگون داده کاوی مشاهده می شود ، تقریبا در تمامی تعاریف به مفاهیمی چون استخراج دانش ، تحلیل و یافتن الگوی بین داده ها اشاره شده است .

 

تاریخچه داده کاوی

اخیرا داده کاوی موضوع بسیاری از مقالات ، کنفرانس ها و رساله ها ی عملی شده است ، اما این واژه تا اوایل دهه نود مفهومی نداشت وبه کار برده نمی شد .

در دهه شصت و پیش از آن زمینه هایی برای ایجاد سیستم ها ی جمع آوری و مدیریت داده ها ایجاد شد و تحقیقاتی در این زمینه انجام پذیرفت که منجر به معرفی و ایجاد سیستم های مدیریت پایگاه داده ها گردید .

ایجاد و توسعه مدلهای داده ای برای پایگاه سلسله مراتبی ، شبکه ای و بخصوص رابطه ای در دهه هفتاد ، منجر به معرفی مفاهیمی همچون شاخص گذاری و سازماندهی داده ها و در نهایت ایجاد زبان پرسش SQL در اوایل دهه هشتاد گردید تا کاربران بتوانند گزارشات و فرمهای اطلاعاتی مورد نظر خود را ، از این طریق ایجاد نمایند .

توسعه سیستم های پایگاهی پیشرفته در دهه هشتاد و ایجاد پایگاه های شی گرا ، کاربرد گرا و فعال باعث توسعه همه جانبه و کاربردی شدن این سیستم ها در سراسر جهان گردید . بدین ترتیب DBMS هایی همچون DB2 ، Oracle ، Sybase ، … ایجاد شدند و حجم زیادی از اطلاعات با استفاده از این سیستم ها مورد پردازش قرار گرفتند . شاید بتوان مهمترین جنبه در معرفی داده کاوی را مبحث کشف دانش از پایگاه داده ها (KDD) دانست بطوری که در بسیاری موارد DM و KDD بصورت مترادف مورد استفاده قرار می گیرند .

برای اولین بار مفهوم داده کاوی در کارگاه IJCAI در زمینه KDD توسط Shapir مطرح گردید . به دنبال آن در سالهای ۱۹۹۱ تا ۱۹۹۴ ، کارگاههای KDD مفاهیم جدیدی را در این شاخه از علم ارائه کردند بطوری که بسیاری از علوم و مفاهیم با آن مرتبط گردیدند.

برخی از کاربردهای داده کاوی در محیطهای واقعی عبارتند از :

  1. خرده فروشی : از کاربردهای کلاسیک داده کاوی است که می توان به موارد زیر اشاره کرد :
    • تعیین الگوهای خرید مشتریان
    • تجزیه و تحلیل سبد خرید بازار
    • پیشگویی میزان خرید مشتریان از طریق پست(فروش الکترونیکی)
  2. بانکداری :
    • پیش بینی الگوهای کلاهبرداری از طریق کارتهای اعتباری
    • تشخیص مشتریان ثابت
    • تعیین میزان استفاده از کارتهای اعتباری بر اساس گروههای اجتماعی
  3. بیمه :
    • تجزیه و تحلیل دعاوی
    • پیشگویی میزان خرید بیمه نامه های جدید توسط مشتریان
  4. پزشکی :
    • تعیین نوع رفتار با بیماران و پیشگویی میزان موفقیت اعمال جراحی
    • تعیین میزان موفقیت روشهای درمانی در برخورد با بیماریهای سخت

 

مراحل فرایند کشف دانش از پایگاه داده ها

فرایند کشف دانش از پایگاه داده ها شامل پنج مرحله است که عبارتند از :

  1. انبارش داده ها
  2. انتخاب داده ها
  3. تبدیل داده ها
  4. کاوش در داده ها
  5. تفسیر نتیجه

همانگونه که مشاهده می شود داده کاوی یکی از مراحل این فرایند است که به عنوان بخش چهارم آن نقش مهمی در کشف دانش از داده ها ایفا می کند .انبارش داده ها

وجود اطلاعات صحیح و منسجم یکی از ملزوماتی است که در داده کاوی به آن نیازمندیم . اشتباه و عدم وجود اطلاعات صحیح باعث نتیجه گیری غلط و در نتیجه اخذ تصمیمات ناصحیح در سازمانها می گردد و منتج به نتایج خطرناکی خواهد گردید که نمونه های آن کم نیستند .

اکثر سازمانها دچار یک خلا اطلاعاتی هستند . در اینگونه سازمانها معمولا سیستم های اطلاعاتی در طول زمان و با معماری و مدیریت های گوناگون ساخته شده اند ، به طوری که سازمان اطلاعاتی یکپارچه و مشخصی مشاهده نمی گردد . علاوه بر این برای فرایند داده کاوی به اطلاعات خلاصه و مهم در زمینه تصمیم گیریهای حیاتی نیازمندیم .

هدف از فرایند انبارش داده ها فراهم کردن یک محیط یکپارچه جهت پردازش اطلاعات است . در این فرایند ، اطلاعات تحلیلی و موجز در دوره های مناسب زمانی سازماندهی و ذخیره می شود تا بتوان از آنها در فرایند های تصمیم گیری که از ملزومات آن داده کاوی است ، استفاده شود . به طور کلی تعریف زیر برای انبار داده ها ارائه می گردد :

انبار داده ها ، مجموعه ای است موضوعی، مجتمع ، متغیر در زمان و پایدار از داده ها که به منظور پشتیبانی از فرایند مدیریت تصمیم گیری مورد استفاده قرار می گیرد .

انبارش داده ها خود موضوع مفصلی است که مقاله ها و رساله ها ی گوناگونی در مورد آن نگاشته شده اند . در این فصل به منظور آشنایی با این فرایند به آن اشاره ای شد .

 

  • انتخاب داده ها

انبار داده ها شامل انواع مختلف و گوناگونی از داده ها است که همه آنها در داده کاوی مورد نیاز نیستند . برای فرایند داده کاوی باید داده ها ی مورد نیاز انتخاب شوند . به عنوان مثال در یک پایگاه داده های مربوط به سیستم فروشگاهی ، اطلاعاتی در مورد خرید مشتریان ، خصوصیات آماری آنها ، تامین کنندگان ، خرید ، حسابداری و … وجود دارند . برای تعیین نحوه چیدن قفسه ها تنها به داده ها یی در مورد خرید مشتریان و خصوصیات آماری آنها نیاز است . حتی در مواردی نیاز به کاوش در تمام محتویات پایگاه نیست بلکه ممکن است به منظور کاهش هزینه عملیات ، نمونه هایی از عناصر انتخاب و کاوش شوند .

 

  • تبدیل داده ها

هنگامی که داده های مورد نیاز انتخاب شدند و داده ها ی مورد کاوش مشخص گردیدند ، معمولا به تبدیلات خاصی روی داده ها نیاز است . نوع تبدیل به عملیات و تکنیک داده کاوی مورد استفاده بستگی دارد : تبدیلاتی ساده همچون تبدیل نوع داده ای به نوع دیگر تا تبدیلات پیچیده تر همچون تعریف صفات جدید با انجام عملیاتهای ریاضی و منطقی روی صفات موجود .

 

  • کاوش در داده ها

داده های تبدیل شده با استفاده از تکنیکها و عملیاتهای داده کاوی مورد کاوش قرار می گیرند تا الگوهای مورد نظر کشف شوند .

 

  • تفسیر نتیجه

اطلاعات استخراج شده با توجه به هدف کاربر تجزیه و تحلیل و بهترین نتایج معین می گردند . هدف از این مرحله تنها ارائه نتیجه (بصورت منطقی و یا نموداری) نیست ، بلکه پالایش اطلاعات ارایه شده به کاربر نیز از اهداف مهم این مرحله است .

 

عملیاتهای داده کاوی

در داده کاوی ، چهار عمل اصلی انجام می شود که عبارتند از

  1. مدلسازی پیشگویی کننده
  2. تقطیع پایگاه داده ها
  3. تحلیل پیوند
  4. تشخیص انحراف

از عملیاتهای اصلی مذکور ، یک یا بیش از یکی از آنها در پیاده سازی کاربرد های گوناگون داده کاوی استفاده می شوند . به عنوان مثال برای کاربرد های خرده فروشی معمولا از عملیات تقطیع و تحلیل پیوند استفاده می شود در حالی که برای تشخیص کلاهبرداری ، می توان از هر یک از چهار عملیات مذکور استفاده نمود . علاوه برا ین می توان از دنباله ای از عملیاتها برای یک منظور خاص استفاده کرد . مثلا برای شناسایی مشتریان ، ابتدا پایگاه تقطیع می شود و سپس مدلسازی پیشگویی کننده در قطعات ایجاد شده اعمال می گردد .

تکنیکها ، روشها و الگوریتمهای داده کاوی ، راههای پیاده سازی عملیاتهای داده کاوی هستند . اگر چه هر عملیات نقاط ضعف و قوت خود را دارد ، ابزارهای گوناگون داده کاوی عملیاتها را بر اساس معیارهای خاصی ، انتخاب می کنند . این معیارها عبارتند از :

  • تناسب با نوع داده های ورودی
  • شفافیت خروجی داده کاوی
  • مقاومت در مقابل اشتباه در مقادیر داده ها
  • میزان صحت خروجی
  • توانایی کار کردن با حجم بالای داده ها

 

مدلسازی پیشگویی کننده

مدلسازی پیشگویی کننده ، شبیه تجربه یادگیری انسان در به کار بردن مشاهدات برای ایجاد یک مدل از خصوصیات مهم پدیده ها است . در این روش از تعمیم دنیای واقعی و قابلیت تطبیق داده های جدید با یک قالب کلی ، استفاده می شود .

در این مدل ، می توان با تحلیل یک پایگاه داده های موجود ، خصوصیات مجموعه های داده را تعیین کرد . این مدل با استفاده از روش یادگیری نظارت شده، شامل دو فاز آموزش و آزمایش ایجاد شده است . در فاز آموزش با استفاده از نمونه های عظیمی از داده های سابقه ای ، مدلی ساخته می شود که به آن مجموعه آموزشی می گویند . در فاز آزمایش این مدل روی داده هایی که در مجموعه آموزشی قرار ندارند ، اعمال می شود تا صحت و خصو صیات آن تایید گردد .

از کاربردهای عمده این مدل می توان به مدیریت مشتریان ، تصویب اعتبار ، بازاریابی مستقیم در خرده فروشی و … اشاره کرد .

 

تقطیع پایگاه داده ها

هدف از تقطیع پایگاه داده ها ، تقسیم آن به تعداد نامعینی از قطعات یا خوشه هایی از رکوردهای مشابه است ، یعنی رکوردهایی که خصوصیاتی مشابه دارند و می توان آنها را همگن فرض کرد . پیوستگی داخلی این قطعات بسیار زیاد است در حالی که همبستگی خارجی میان آنها کم می باشد .

در این مدل بر خلاف مدل قبل ، از یادگیری نظارت نشده برای تعیین زیرشاخه های ممکن از جمعیت داده ای استفاده می شود . دقت تقطیع پایگاه داده ها از روشهای دیگر کمتر است ، بنابراین در مقابل خصوصیات نامربوط و افزونگی ، حساسیت کمتری از خود نشان می دهد .

از کاربردهای این روش می توان به شناسایی مشتریان ، بازاریابی مستقیم و … اشاره کرد .

 

تحلیل پیوند

در این روش پیوند هایی مرسوم به بستگی میان رکوردها و یا مجموعه ای از رکوردها بازشناسی می شوند . سه رده ویژه از تحلیل پیوند وجود دارند که عبارتند از :

  1. کشف بستگی
  2. کشف الگوهای متوالی
  3. کشف دنباله های زمانی مشابه

 

تشخیص انحراف

داده کاوی فرآیندی است که طی آن با استفاده از انواع مختلف ابزار تحلیل داده به دنبال کشف الگوها و ارتباطات میان داده های موجود که ممکن است منجر به استخراج اطلاعات جدیدی از پایگاه داده گردند می باشد.

اولین وساده ترین گام تحلیل داده در داده کاوی توضیح و شرح مشخص داده (از جمله معنی داده وانحراف استاندارد کلمه)می باشد که این کار می تواند به وسیله نمودارها و گراف ها وهمچنین کلماتی که با این کلمه ارتباط معنایی نزدیکی دارند انجام گردد در نتیجه جمع آوری، جستجو و انتخاب داده درست در این بخش بسیار مهم و حیاتی می باشد.

اما این کار به تنهایی کار خاصی انجام نمی دهد شما باید یک مدل پیش بینی کننده بر اساس الگوهایی که از نتایج دانش به دست آورده شده بسازید سپس آزمایش کنید که آیا آن مدل با نمونه اصلی سازگار است. یک مدل خوب نباید با جهان واقع تفاوت چندانی داشته باشد

آخرین گام نیز تشخیص صحت وسقم عملکرد مدل بصورت تجربی می باشد. برای مثال از یک بانک مربوط به مشتریان وپاسخ هایی که به یک پیشنهاد خاص داده اند یک مدل می سازید که بر اساس آن مشخص می شود که کدام حدس وانتظار بیشترین نزدیکی را با یک پیشنهاد مانند پیشنهاد قبلی دارد و اینکه آیا شما می توانید بر این حدس اعتماد کنید یا نه؟

 

الگوریتمهای داده کاوی

حال بیایید برخی از الگوریتمها و مدلهایی را که برای کاوش داده استفاده می شود را بررسی کنیم. اغلب محصولات از انواع گوناگونی از الگوریتمها که در علم کامپیوتر یا مقالات آماری ارائه شده به همراه پیاده سازی خاص آنها که جهت رسیدن به هدف فروشنده  می باشد استفاده می نمایند. برای مثال بسیاری از فروشندگان نسخه هایی از درختهای تصمیم CART یا CHAID را به همراه امکاناتی برای کار بر روی کامپیوترهای موازی  می فروشند. برخی از فروشندگان الگوریتمهای مختص خود دارند که گرچه ممکن است وابستگی ها یا امکانات اضافی نداشته باشد اما می تواند خوب کار کند.

شاید مهمترین نکنه ای باشد که هیچ مدل یا الگوریتمی نمی تواند و نباید به تنهایی استفاده شود. برای هر مساله داده شده  طبیعت داده استفاده شده بر روی انتخاب مدلها و الگوریتمهایی که شما بر می گزینید تاثیر خواهد گذاشت. نمی توان هیچ مدل یا الگوریتمی را در این زمینه بهترین نامید. نتیجتا شما به یک سری ابزار و تکنولوژی جهت یافتن بهترین مدل ممکنه نیاز خواهید داشت.

 

شبکه های عصبی

شبکه های عصبی به طور خاصی مورد استفاده اند چرا که آنها ابزاری موثر برای مدلسازی مسائل بزرگ و پیچیده که ممکن است در آنها صدها متغیر پیش بینی کننده که فعل و انفعالات زیادی دارند وجود داشته باشد.(شبکه های عصبی زیستی بطور غیر قابل مقایسه ای پیچیده تر هستند.)شبکه های عصبی می توانند در مسائل طبقه بندی یا حدسهای بازگشتی(که در آنها متغیر خروجی پیوسته است) استفاده شوند.

یک شبکه عصبی با یک لایه داخلی شروع می شود که در آن هر گره به یک متغیر پیشگو منسوب می گردد. این گره های ورودی به یک تعداد از گره ها در لایه پنهان متصل می شوند.گره ها در لایه پنهان می توانند به گره هایی در یک لایه پنهان دیگر یا به یک لایه خروجی متصل شود. لایه خروجی خود شامل یک یا بیشتر متغیرهای جواب می باشد.

یک شبکه عصبی با یک لایه پنهان
یک شبکه عصبی با یک لایه پنهان

 

درخت های انتخاب

درخت های انتخاب راهی برای نمایش یک سری از قوانین که به یک کلاس یا مقدار منجر می شود می باشند. برای مثال شما ممکن است بخواهید درخواستهای وام را برحسب ریسک اعتبار خوب یا بد طبقه بندی کنید. شکل بعد یک مدل ساده از یک درخت انتخاب به همراه توضیح در مورد تمام بسته های پایه آن یعنی گره انتخاب, شاخه ها و برگهای آن که این مساله را حل می کند نشان می دهد.

درخت های انتخاب

اولین بسته گره بالایی تصمیم یا ریشه می باشد که یک بررسی جهت برقراری شرط خاصی می نماید. گره ریشه در این مثال “Income>$40,000” می باشد. نتایج این بررسی منجر می شود که درخت به دوشاخه تقسیم گرددکه هر یک نشان دهنده جوابهای ممکن است.در این مورد بررسی شرط مذکور می تواند دارای جواب خیر یا بله باشد در نتیجه دو شاخه داریم.

براساس نوع الگوریتم هر گره می تواند دو یا تعداد بیشتری شاخه داشته باشد. برای مثال CART درختهایی با تنها دوشاخه در هر گره تولید می کند.چنین درختی یک درخت دودویی می باشد.

مدلهای مختلف درخت تصمیم بطور عمومی در داده کاوی برای کاوش داده و برای استنتاج درخت و قوانین آن که برای پیش بینی مورد استفاده قرار می گیرد استفاده می شوند. یک تعداد از الگوریتمهای مختلف می توانند برای ساخت درختهای تصمیم شامل CHAID, CART,Quest و C5.0 بکار روند.

اندازه درخت می تواند از طریق قوانین متوقف شونده که رشد درخت را محدود می کنند کنترل شود.

استنتاج قانون

استنتاج قانون روشی برای بدست آوردن یک سری از قوانین برای طبقه بندی موارد می باشد. اگرچه درختهای تصمیم می توانند یک سری قوانین تولید کنند روشهای استنتاج قانون یک مجموعه از قوانین وابسته که ضرورتا درختی تشکیل نمی دهند را تولید می نماید. چون استنتاج کننده قوانین لزوما انشعابی در هر سطح قرار نمی دهد و می تواند گام بعدی را تشخیص دهد گاهی اوقات می تواند الگوهای مختلف و بهتری را برای طبقه بندی بیابد. برخلاف درختان قوانین تولیدی ممکن است تمام حالتهای ممکن را پوشش ندهند.

 

الگوریتمهای ژنتیک

الگوریتمهای ژنتیک برای یافت الگوها استفاده نمی شود بلکه بیشتر به منظور راهنمایی در مورد فرآیند یادگیری الگوریتمهای داده کاوی مانند شبکه های عصبی مورد استفاده قرار می گیرد. الگوریتمهای ژنتیک به عنوان یک متد جهت انجام یک جستجوی هدایت شده برای مدلهای خوب در فضای حل مساله عمل می کند.

این الگوریتمها, الگوریتمهای ژنتیک نامیده می شوند چون بطور بی قاعده ای الگوی تکامل زیستی که در آن اعضای یک نسل بر سر انتقال خصوصیات خود به نسل بعد رقابت می کنند تا نهایتا بهترین مدل یافت شود را دنبال می کنند. اطلاعاتی که باید انتقال داده شود در قالب کروموزمها که شامل پارامترهایی برای ساختن مدل می باشد قرار می گیرد.

 

مدل فرآیند دو سویه

مدل فرآیند دو سویه که در زیر توضیح داده شده است برخی از موارد پیش بینی را از مدل CRISP-DM به ارث می برد.

گامهای اصلی داده کاوی جهت کشف دانش عبارتند از:

  • تعریف مساله
  • ساختن پایگاه داده مربوط به داده کاوی
  • جستجوی داده
  • آماده ساختن داده برای مدل سازی
  • ساختن مدل
  • ارزیابی مدل
  • ساخت مدل ونتایج

به سراغ این گامها می رویم تا فرآیند کشف دانش را بهتر متوجه شویم.

 

۱-       تعریف مساله

در ابتدای امر پیش زمینه کشف دانش فهم درست داده و مساله می باشد. بدون این فهم درست هیچ الگوریتمی صرف نظر از خبره بودن آن نمی تواند نتیجه مطمئنی برای شما حاصل نماید و همچنین شما قادر نخواهید بود که مسائلی را که سعی در حل آن دارید تعریف کرده و همچنین داده را جهت کاوش آماده نموده و یا نتایج را به طور صحیح تفسیر نمائید. برای استفاده بهتر از داده کاوی شما باید یک بیان واضح از هدف خود داشته باشید.

ساختن یک پایگاه داده داده کاوی

این گام به همراه دو گام بعدی هسته آماده سازی داده را تشکیل می دهند. در مجموع گامهای گفته شده وقت و کار بیشتری از سایر گامها می برند. ممکن است شما گامهای تکراری در آماده سازی داده و ساختن مدل داشته باشید چرا که در هر مرحله ممکن است به نکته ای برسید که شما را بر آن دارد داده خود را بهبود بخشید. این گامهای آماده سازی داده می تواند ۵۰% تا ۹۰% وقت و کار از تمام فرآیند کشف دانش را به خود اختصاص دهد.

داده ای که می خواهد کاوش شود باید در یک پایگاه داده ذخیره شود. بر اساس مقدار داده, پیچیدگی داده و استفاده هایی که قرار است از آن شود یک فایل معمولی و یا یک SpreadSheet برای این کار کافی است.

به احتمال زیاد شما می خواهید داده موجود در انباره داده را تغییر دهید. به علاوه شما ممکن است بخواهید فیلدهای جدیدی که از فیلدهای موجود محاسبه شده است را به انبار داده خود بیافزایید.این یکی از دلایل استفاده از یک پایگاه داده جداگانه است.

دلیل دیگر برای این کار آن است که انبار داده های یکی شده ممکن است به آسانی انواع جستجوهایی را که شما برای فهم داده به آنها نیاز دارید انجام ندهد. مانند پرس و جوهایی که داده را خلاصه می کند, گزارشات چند بعدی و بسیاری از انواع دیگر از گرافها یا مصورات.

و دلیل آخر اینکه شما ممکن است بخواهید این داده را در یک سیستم مدیریت پایگاه داده به همراه یک طراحی فیزیکی متفاوت از انبار داده خود ذخیره کنید. مردم به طور روز افزونی در حال انتخاب پایگاه داده های خاص منظوره ای هستند که این نیازهای داده کاوی را به نحو مناسبی حمایت کند. به هرحال اگر داده موجود در انبار داده شما اجازه می دهد که مراکز منطقی داده ای ایجادکنید و اگر شما می توانید تقاضای داده کاوی را ارضا نمایید پایگاه داده شما به خوبی وظیفه خود را انجام می دهد.

مراحل لازم برای ساخت یک پایگاه داده داده کاوی به شکل زیر می باشد:

  • جمع آوری داده ها
  • توضیح داده ها
  • انتخاب داده ها
  • تعیین کیفیت داده ها و پاک کردن آن
  • تثبیت و یکپارچگی
  • ساختن فوق داده (داده هایی که خود بیانگر توضیحی در مورد داده های موجود می باشند.)
  • بارکردن پایگاه داده مربوط به داده کاوی
  • نگهداری پایگاه داده مربوط به داده کاوی

این کارها ممکن است لزوما به همین ترتیب گفته شده انجام نگردند.

 

جستجوی داده

به بخش توضیح داده برای داده کاوی که توضیح مختصری راجع به اشکال, تجزیه و تحلیل ارتباط و دیگر وسایل جستجوی داده می باشد نگاهی بیاندازید.

هدف شناسایی مهمترین فیلدها در پیش بینی نتیجه و تعیین اینکه کدام یک از داده های بدست آمده مفید می باشد است.

در یک مجموعه داده ای با صدها یا حتی هزاران ستون جستجوی داده می تواند کار و زمان بر باشد. یک واسط مناسب و جواب کامپیوتر سریع در این فاز مهم و حیاتی می باشند زیرا هنگامی که شما برای دریافت پاسخ برخی گراف ها مجبور باشید ۲۰ دقیقه صبر کنید ماهیت جستجوی شما به کلی تغییر خواهد کرد.

 

آماده سازی داده برای مدل سازی

این آخرین گام آماده سازی داده قبل از ساخت مدلهاست. چهار قسمت مهم در این مرحله وجود دارد:

  • انتخاب متغیرها
  • انتخاب سطرها
  • ساختن متغیرهای جدید
  • تغییر شکل متغیرها

ساختن مدل داده کاوی

مهمترین مساله برای یادآوری در مورد ساخت مدل آن است که این کار یک فرآیند تکراری است. شما برای جستجو به مدلهای جایگزین جهت یافتن سودمندترین آنها جهت حل مسائلتان نیاز دارید. آنچه که شما در جستجوی یک مدل مناسب یاد می گیرید می تواند شما را به بازگشتن به عقب و انجام برخی تغییرات در داده مورد استفاده خود و حتی بهبود بیان ساله راهنمایی کند.

هنگامی که شما در مورد نوع پیش بینی که می خواهید انجام دهید تصمیم گرفتید باید یک نوع مدل برای ساخت تصمیم خود انتخاب کنید.

آماده سازی و آزمایش مدل داده کاوی احتیاج به این دارد که داده به حداقل دو گروه شکسته شود: یکی برای آماده کردن مدل و دیگری جهت تست مدل مربوطه. اگر شما از آماده سازی و تست متفاوتی استفاده ننمائید دقت مدل   خواهد بود.

تائید اعتبارساده

پایه ای ترین روش تست داده تایید اعتبار ساده می باشد. برای انجام این کار چون درصدی از پایگاه داده را به عنوان یک تست پایگاه داده کنار بگذارید و به هر صورت از آن در برآورد و ساخت مدل استفاده ننمائید. این درصد معمولا بین ۵ تا ۳۳ می باشد.

ارزیابی و تفسیر

تایید اعتبار مدل

بعد از ساخت یک مدل شما باید نتایج آن را ارزیابی نموده و همچنین اهمیت آن را نیز توضیح دهید.

ایجاد معماری مدل و نتایج

هنگامی که یک مدل ساخته و تایید اعتبار می شود می تواند در دو راه اصلی مورد استفاده قرار گیرد. راه اول برای تحلیل گر است که اعمالی را بر اساس دید ساده از مدل و نتایج آن معرفی می کند. راه دوم بکاربردن مدلها در مجموعه داده ای مختلف است. این مدل می تواند برای مشخص نمودن رکوردها بر اساس گروه بندیشان و یا مقدار دهی یک امتیاز مثلا احتمال انجام یک عمل استفاده گردد.

هنگام به دست آوردن یک کاربرد پیچیده داده کاوی اغلب اگر چه بخش بحرانی اما کوچک پروژه نهایی به حساب می آید. برای مثال دانشی که از داده کاوی کشف می شود می تواند با دانش متخصصان داده و تراکنشهای ورودی ترکیب شود. در یک سیستم تشخیص فرآیند الگوهای موجود فرآیند می توانند با الگوهای کشف شده تلفیق شوند. هنگامی که موارد مفروض این فرآیند برای ارزیابی به بررسی کنندگان فرستاده می شوند بررسی کنندگان ممکن است نیاز داشته باشند که به رکوردهایی در پایگاه داده که مربوط به قسمتهای ادعا شده توسط یک سازنده است دسترسی پیدا کنند.

به طور کلی مراحلی که توضیح داده شد برای انجام هر فرآیند داده کاوی لازم به نظر می رسد.

 

نتیجه گیری

امروزه با گسترش بانکهای اطلاعاتی و حجم عظیم داده های ذخیره شده در این سیستمها، نیاز به ابزاری است که این داده های ذخیره شده را پردازش کند و تبدیل به یک سری اطلاعات مفید و سودمند کند که بتوان با توجه به این اطلاعات، تصمیمات مهم و حیاتی در سازمانها اتخاذ کرد تا به سود بیشتری دست یابند. بنابراین داده کاوی یک سری ابزار در اختیار دارد که به صورت نیمه خودکار و با حداقل دخالت کاربران اطلاعات سودمند و در اصطلاح الگوهای مفید (روابط منطقی بین داده ها) را از میان حجم انبوه داده ها کشف میکند.

از کاربردهای مهم داده کاوی می توان به خرده فروشی، بیمه، بانکها، و … اشاره کرد.

در فرایند داده کاوی از مدلها و الگوریتم هایی همانند: شبکه های عصبی، درختهای انتخاب، استنتاج قانون و الگوریتمهای ژنتیک استفاده می شود که با استفاده از تکنیکهایی همچون مدلسازی پیشگویی کننده، تقطیع پایگاه داده ها، تحلیل پیوند و تشخیص انحراف می توانیم الگوهای مفید در داده ها را با حداقل دخالت کاربر کشف کنیم.

در نتیجه هدف اصلی در داده کاوی کشف دانش نهفته در داده هاست که در بانکهای عظیم اطلاعاتی وجود دارند که برای دست یافتن به این دانش عظیم بایستی در ابتدا یک محیط یکپارچه از داده ها که پایگاه داده کاوی نامیده می شود فراهم شود سپس داده های مورد نظر جستجو شود آنگاه تبدیلاتی روی آنها صورت گیرد و در مرحله چهارم اکتشاف دانش که داده کاوی نامیده می شود با ابزارهای مورد استفاده در داده کاوی الگوهای موردنظر کشف گردد و در نهایت در مرحله آخر کشف دانش نتیجه به صورت کاملا  قابل فهم به کاربر ارائه گردد.

 

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیغام خود را ارسال نمایید

مدیریت همراهان سافت در کوتاه ترین زمان ممکن پاسخ سوال شما را خواهد داد

به همراهان سافت خوش آمدید لطفا پیغام خود را وارد نمایید

لطفا برای ورود متن کلیک نمایید