داده کاوی فرآیند نظم دهی از طریق مجموعه بزرگی از داده ها می باشد که با هدف شناسایی الگوها و همچنین ایجاد روابط موجود در بین داده ها صورت می گیرد. داده کاوی نوعی از تجزیه و تحلیل داده ها محسوب می شود و اغلب کاربران از آن به منظور توصیف وضعیت فعلی و یا پیش بینی روند آینده استفاده می کنند. داده کاوی از علوم مختلف از جمله علم آمار، هوش مصنوعی، یادگیری ماشین، شناسایی الگو و پایگاه داده تشکیل شده است و بر همین اساس قابلیت کاربرد در بسیاری از حوزه های مختلف را دارد.
مراحل داده کاوی شامل آماده سازی داده ها، یادگری مدل، ارزیابی تفسیر مدل می باشد. در مرحله آماده سازی داده ها تامین ورودی مناسب برای مرحله یادگیری مد نظر است. در مرحله یادگیری نیز با استفاده از الگوریتم های متنوع و با توجه به ماهیت داده سعی در شناسایی نظم های مختلف می شود و در نهایت در مرحله آخر نیز دانش تولید شده در مرحله یادگیری ارزیابی شده و مورد تفسیر قرار می گیرد.