در هوش مصنوعی و یادگیری ماشینی ، داده کاوی یا کشف دانش در پایگاه های اطلاعاتی ،
استخراج غیرمعمول اطلاعات ضمنی ، از قبل ناشناخته و بالقوه مفید از داده ها .است. در این
رویکرد از روش های آماری استفاده می شود که باعث می شود روندها و سایر روابط در
پایگاه های داده بزرگ شناسایی شوند. دلیل عمده اینکه داده کاوی جلب توجه کرده است،
دسترسی گسترده به داده های عظیم و نیاز به تبدیل این داده ها به اطلاعات و دانش مفید
می باشد. از این اطلاعات به دست آمده می تواند برای برنامه های مختلف مانند نظارت بر
ریسک ، مدیریت تجارت ، کنترل تولید ، تجزیه و تحلیل بازار ، مهندسی و اکتشاف علوم
استفاده شود.
به طور کلی سه روش داده کاوی وجود دارد. یکی از این روش ها تجزیه وتحلیل هم بستگی است.
کشف قوانین تداعی گرایی است که شرایط مقدار ویژگی را نشان می دهد که اغلب با هم در یک
مجموعه داده خاص رخ می دهد. تجزیه و تحلیل همبستگی به طور گسترده ای برای شناسایی همبستگی
محصولات جداگانه در سبد خرید استفاده می شود. تجزیه و تحلیل رگرسیوندومین گزینه در این زمینه
است. تحلیل رگرسیون مدل هایی را ایجاد می کند که متغیرهای وابسته را از طریق تجزیه و تحلیل
متغیرهای مستقل توضیح می دهند. به عنوان مثال ، پیش بینی عملکرد فروش محصول می تواند با
همبستگی قیمت محصول و سطح متوسط درآمد مشتری ایجاد شود. نوع آخر طبقه بندی و پیش بینی
است. طبقه بندی فرآیند طراحی مجموعه ای از مدل ها برای پیش بینی کلاس اشیایی است که برچسب
کلاس آنها ناشناخته است. مدل مشتق شده ممکن است در اشکال مختلف ، مانند قوانین اگر- پس (if-then)
، درخت تصمیم ، یا فرمول های ریاضی نشان داده شود. درخت تصمیم یک نمودار است که ساختاری شبیه به
درخت دارد که در آن هر گره یک آزمون را روی مقدار ویژگی نشان می دهد ، هر شاخه نشان دهنده نتیجه
آزمایش است و هر برگ درخت یک کلاس یا کلاس توزیع را نشان می دهد. درختان تصمیم را می توان به
قوانین طبقه بندی تبدیل کرد. برای پیش بینی برچسب کلاس داده می توان از طبقه بندی استفاده کرد.
پیش بینی شامل شناسایی روند توزیع بر اساس داده های موجود می باشد.
هوش مصنوعی و داده کاوی دو معقوله ای هستند که از هم نمی توان جدا کرد. فرایند داده کاوی شامل یک
توالی تکراری از این مراحل است:
انسجام و تمیز کردن داده ها برای حذف ناهنجاری ها و داده های متناقض
ادغام داده ها به گونه ای که ممکن است چندین منبع داده با هم ترکیب شوند
انتخاب داده که در آن داده های مربوط به تجزیه و تحلیل بازیابی می شود
تبدیل داده ها در جایی که داده ها به فرم های مناسب استخراج تلفیق می شوند
برای استخراج الگوها جدید، از الگوها و تکنیک های آماری استفاده می شود
ارزیابی الگو برای شناسایی الگوهای جالب نشان دهنده اطلاعات
از تکنیک های تجسم برای ارائه اطلاعات استخراج شده به کاربران استفاده می شود
وارد شدن و خارج شدن اطلاعات با کیفیت پایین به داده کاوی نسبت داده می شود زیرا
زیرا کیفیت اطلاعات به دست آمده از داده کاوی به کیفیت داده های تاریخی بستگی دارد.
ما می دانیم که مغایرت داده ها و برخورد با چندین منبع داده مشکلات بزرگی را در مدیریت
داده ایجاد می کند. تکنیک های تمیز کردن داده ها برای مقابله با شناسایی و از بین بردن
خطاها و ناسازگاری ها برای بهبود کیفیت داده ها استفاده می شود. با این حال ، تشخیص
این ناسازگاری ها بسیار دشوار است. چگونه می توانیم تبادلی را شناسایی کنیم که به
اشتباه به عنوان مشکوک برچسب گذاری شده است؟ یادگیری از داده های نادرست منجر
به مدل های نادرست می شود محدودیت دیگر داده کاوی این است که فقط اطلاعات محدود به
مجموعه خاص داده های تاریخی را استخراج می کند و پاسخ ها را فقط می توان با توجه به
روندهای قبلی آموخته شده از داده ها بدست آورد و تفسیر کرد. این توانایی فرد را برای بهره مندی
از روندهای جدید محدود می کند. از آنجا که درخت تصمیم به طور خاص در مجموعه داده های
تاریخی آموزش دیده است ، شخصی سازی درخت را در بر نمی گیرد. علاوه بر این ، داده کاوی
غیر افزایشی است و در هنگام تولید سازگار نیست.
داده کاوی به شرکت های بازاریابی کمک می کند مدل هایی را بر اساس داده های تاریخی بسازند
تا پیش بینی کنند چه کسی به فعالیت های بازاریابی جدید مانند نامه های مستقیم ، کمپین بازاریابی
آنلاین و غیره پاسخ خواهد داد. از طریق نتایج ، بازاریابان رویکرد مناسبی در فروش محصولات
سودآور به مشتریان هدف خواهند داشت. داده کاوی همانند بازاریابی ، مزایای زیادی را برای
شرکت های خرده فروشی به همراه دارد. از طریق تجزیه و تحلیل سبد بازار ، یک فروشگاه می تواند
یک ترتیب تولید مناسب داشته باشد به گونه ای که مشتریان بتوانند خرید مکرر محصولات دلپذیر را
دارا باشند. علاوه بر این ، همچنین به شرکت های خرده فروشی کمک می کند تا تخفیف های خاصی
را برای محصولات خاص ارائه دهند که مشتریان بیشتری را به خود جلب کند. داده کاوی به موسسات
مالی اطلاعاتی در مورد وام و گزارشگری اعتبار می دهد. با ساخت یک مدل از داده های مشتری تاریخی ،
بانک و موسسه مالی می توانند وام های خوب و بد را تعیین کنند. علاوه بر این ، داده کاوی به بانک ها کمک
می کند تا معاملات جعلی کارت اعتباری را برای محافظت از صاحب کارت اعتباری شناسایی کنند. با استفاده
از داده کاوی در داده های مهندسی عملیاتی ، تولید کنندگان می توانند تجهیزات معیوب را شناسایی کرده و
پارامترهای کنترل بهینه را تعیین کنند. به عنوان مثال ، تولیدکنندگان نیمه هادی این چالش را دارند که حتی شرایط
محیط های تولید در کارخانه های مختلف تولید ویفر مشابه است ، کیفیت ویفر بسیار یکسان است و برخی به دلایل
نامعلوم حتی دارای نقص هستند. داده کاوی برای تعیین دامنه پارامترهای کنترلی که منجر به تولید ویفر طلایی
می شود مورد استفاده قرار گرفته است. سپس از آن پارامترهای کنترل بهینه برای تولید ویفر با کیفیت مطلوب
استفاده می شود.