.

تقنيات التنبؤ في التنقيب عن البيانات

يعرف التنقيب عن البيانات على انه استخلاص معرفة مفيدة من كميات كبيرة من البيانات باستخدام تقنيات تعلم الالة Machine Learning و التقنيات الاحصائية Statistical Methods. و تستخدم هذه التقنيات بشكل واسع في دعم اتخاذ القرار و تمييز الانماط و الكشف عن الاحتيال . يكون التنقيب عن البيانات في الغالب من ضمن مراحل اكتشاف المعرفة KDD و التي تبدا باختيار البيانات ذات الاهتمام و اجراء عدد من عمليات المعالجة المسبقة عليها لتكون ملائمة لتقتنية التنقيب و من ثم تطبيق تلك التقنية و تقييم النتائج التي تم الحصول عليها.

data mining Venn diagram

 

 

 

 

images

 

 

تنقسم مهام التنقيب عن البيانات الى قسمين: مهام تنبؤية و مهام وصفية . و يعتمد اختيار التقنية للمهام التنبؤية على نوعية البيانات المراد التنبؤ بها ، و التي قد تكون قيم ثنائية Binary Class، قيم متعددة Multi Classاو قيم رقمية مستمرة Numerical . يتطلب التعامل مع القيم من النوع الاخير استخدام تقنيات تعتمد على مبدأ تحليل الانحدار Regression Analysis . 

تتميز قواعد البيانات الحقيقية و خاصة البيانات الطبية بتعقيدها و ضعف الترابط بين الخصائص فيها مما يجعل التقنيات التي تعتمد على بناء نموذج مفرد ضعيفة في التعامل معها . لذلك فانها تحتاج الى استخدام تقنيات Ensemble Models و التي تعتمد على بناء مجموعة من المتنبئات لتشكل بمجموعها نموذج فعال و ذو قرار اكثر استقرارية . احد افضل هذه التقنيات هي خوارزمیة (GBM Gradient Boosting Machine) ماكنة زیادة الانحدار والتي تقلص خطا التنبؤ اثناء عملیة التدریب من خلال بناء سلسلة من اشجار القرار الثنائیة. تعالج ھذه الخوارزمیة الضعف الموجود في تقنیات التنبؤ التي تعتمد على شجرة ثنائیة واحدة. تم تطویر الخوارزمیة للتعامل مع بيانات العناية الصحية باستخدام مقیاس الترابط كبدیل عن المقاییس التقلیدیة المستخدمة في بناء شجرة القرار للتنبؤ بقیم رقمیة مستمرة. كذلك تضمن التطویر استخدام معادلة سریعة لاختیار نقطة التقسیم الافضل.

 

تم تقییم مودل التنبؤ اعتمادا على مجموعة من مقاییس الخطا المعتمدة و عملیة التحقق المتقاطع. عمیة التقییم تمت على قاعدة بیانات حقیقیة و ضخمة باستخدام مقاییس RMSE RAE, MAE, MSE, مع ثلاث دورات من التحقق المتقاطع لضمان دقة و موثوقیة التقییم. تم استخدام ثلاث طرق من الاختبار تعتمد الاولى على الشجرة الاخیرة منفردة، وتعتمد الثانیة على مجامیع عشوائیة من الاشجار اما الثالثة فتعتمد على استخدام كل الاشجار للتقییم.

اظھرت النتائج افضلیة الخوارزمیة المطورة التي تعتمد على الترابط على خوارزمیة التقلیدیة . GBM حیث حقق المودل المتكون من 160 شجرة قرار ثنائیة خطا اختبار 0.468 حسب مقیاس بینما RMSE كانت نتیجة الخوارزمیة الاصلیة 0.49 . كذلك تم تقلیص وقت التدریب بنسبة 85 % من 1504 دقیقة الى 254 دقیقة . حقق المودل المقترح افضل النتائج باستخدام طریقة دمج كل الاشجار للاختبار.

p22

 

الكاتب: م.م. حيدر خضير الفتلاوي

 

 

 

Joomla Templates - by Joomlage.com