الرئيسية المشاريع تعلم الآلةكشف الاحتيال في المعاملات المالية

تعلم الآلة

مشروع عملي احترافي

كشف الاحتيال في المعاملات المالية

نموذج يكتشف المعاملات الاحتيالية في بيانات البطاقات الائتمانية

متقدم

3-4 أسابيع

4 مهارات

مقدمة المشروع

في هذا المشروع العملي، ستتعلم كيفية نموذج يكتشف المعاملات الاحتيالية في بيانات البطاقات الائتمانية. هذا المشروع مصمم خصيصاً لمستوى متقدمويستغرق تقريباً 3-4 أسابيع لإكماله بشكل كامل.

سنتبع منهجية CRISP-DM (Cross-Industry Standard Process for Data Mining) المعترف بها عالمياً، والتي تضمن بناء مشروع احترافي قابل للتطبيق في بيئة الإنتاج.

ماذا ستتعلم؟

التعامل مع البيانات غير المتوازنة

تطبيق SMOTE و Under-sampling

استخدام Ensemble Methods

تحسين Precision و Recall

منهجية CRISP-DM

خطوات العمل التفصيلية

اتبع هذه الخطوات الست لبناء مشروع احترافي

📊

Business Understanding

فهم المشكلة

تحديد الأهداف والمتطلبات من منظور الأعمال

الخطوات العملية:

تحديد تكلفة الاحتيال - تخسر البنوك 28 مليار دولار سنوياً عالمياً. تحليل أنواع الاحتيال: سرقة بطاقات، معاملات مشبوهة، اختراقات. تحديد أهداف النموذج: اكتشاف 95%+ من الاحتيال مع تقليل False Positives لعدم إزعاج العملاء. دراسة التوازن بين الأمان وتجربة المستخدم. فهم العواقب: كل False Negative = خسارة مالية، كل False Positive = عميل غاضب.

🔍

Data Understanding

فهم البيانات

جمع البيانات الأولية والتعرف عليها وتحديد جودتها

الخطوات العملية:

تحميل Credit Card Fraud Dataset من Kaggle (284,807 معاملة). استكشاف البيانات: 99.83% طبيعية، 0.17% احتيالية - imbalance شديد! تحليل المتغيرات: V1-V28 (PCA-transformed features)، Amount، Time. دراسة أنماط الاحتيال: متوسط مبلغ المعاملات الاحتيالية أقل من الطبيعية. رسم Time Series للمعاملات عبر اليوم. تحليل توزيع Amount للفئتين.

🧹

Data Preparation

تحضير البيانات

تنظيف وتحويل البيانات لتكون جاهزة للنمذجة

الخطوات العملية:

معالجة Class Imbalance الشديد (492 fraud من 284,807). تقسيم البيانات قبل أي معالجة لتجنب Data Leakage. تطبيع Amount و Time باستخدام StandardScaler. تجربة استراتيجيات Imbalance: SMOTE (Synthetic Minority Oversampling)، Random Under-sampling، SMOTE + Tomek Links. Feature Engineering: Hour of Day، Amount_per_Hour، Transaction_Frequency. إنشاء Stratified splits للحفاظ على نسبة Fraud في Train/Test.

⚙️

Modeling

بناء النموذج

اختيار وتطبيق تقنيات النمذجة المناسبة

الخطوات العملية:

بناء Baseline مع Logistic Regression لفهم أساسيات البيانات. تطبيق Random Forest مع class_weight="balanced". بناء XGBoost مع scale_pos_weight لمعالجة Imbalance. تجربة LightGBM للسرعة والأداء. Ensemble: Voting Classifier يجمع أفضل 3 نماذج. Hyperparameter Tuning مع RandomizedSearchCV مع focus على Recall. تطبيق Threshold Tuning لتحسين Trade-off بين Precision و Recall.

✅

Evaluation

التقييم

تقييم النموذج والتأكد من تحقيق الأهداف

الخطوات العملية:

حساب Precision-Recall Curve (أهم من ROC لـ Imbalanced Data). رسم Confusion Matrix: تحليل False Positives vs False Negatives. حساب F1-Score، F2-Score (يعطي وزن أكبر للـ Recall). Cost-sensitive Analysis: تكلفة كل نوع خطأ. حساب Average Precision Score. Cross-Validation مع Stratified K-Fold. تحليل Feature Importance: أهم المتغيرات في كشف الاحتيال.

🚀

Deployment

النشر

نشر النموذج في بيئة الإنتاج

الخطوات العملية:

بناء Real-time API بـ FastAPI يستقبل تفاصيل المعاملة ويعيد Risk Score. إنشاء Rule Engine: قواعد إضافية للحالات الواضحة (مبالغ ضخمة، دول خطرة). بناء Monitoring Dashboard يعرض المعاملات المشبوهة لحظياً. Alert System: إرسال تنبيهات فورية للمعاملات عالية الخطورة. Logging كل القرارات للمراجعة والتحسين المستمر. A/B Testing للنموذج الجديد مقابل القديم. Deploy على AWS Lambda للـ Scalability.

المصادر والأدوات

Kaggle Credit Card Fraud Dataset

Imbalanced-learn Documentation

XGBoost Documentation

المهارات المطلوبة

Imbalanced DataRandom ForestXGBoostFeature Engineering

إحصائيات سريعة

المستوىمتقدم

المدة3-4 أسابيع

المهارات4

الخطوات6

عرض على GitHub استكشف المسار الكامل

العودة للمشاريع