طارق بن جعبل طعيمان

مهندس ذكاء اصطناعي

0%

الرؤية الحاسوبية
العودة للمدونةرؤية حاسوبية

الرؤية الحاسوبية: كيف يرى الكمبيوتر العالم؟

شرح مفصل لـ Computer Vision من معالجة الصور إلى CNNs

1 ديسمبر 202514 دقيقة قراءة

ما هي الرؤية الحاسوبية؟

الرؤية الحاسوبية (Computer Vision) هي فرع من الذكاء الاصطناعي يعلّم الآلات كيف تفهم وتحلل الصور والفيديوهات. نحن كبشر نرى بسهولة: قطة، سيارة، وجه صديق. لكن للكمبيوتر، الصورة مجرد مصفوفة أرقام (pixels)! Computer Vision يحول هذه الأرقام إلى معنى.

من Pixels إلى Understanding

كيف يرى الكمبيوتر الصور؟

صورة 1920×1080 pixels بالنسبة للكمبيوتر:

• Width: 1920 pixels
• Height: 1080 pixels
• Channels: 3 (RGB - أحمر، أخضر، أزرق)
• Total values: 1920 × 1080 × 3 = 6,220,800 رقم!
كل pixel قيمة من 0 إلى 255

المهمة: تحويل 6 مليون رقم إلى "هذه صورة قطة" 🐱

مراحل معالجة الصور التقليدية

1. Preprocessing (المعالجة الأولية)

  • • تحويل لـ Grayscale (أبيض وأسود)
  • • Noise Reduction (إزالة التشويش)
  • • Histogram Equalization (تحسين التباين)

2. Feature Extraction (استخراج المميزات)

  • • Edge Detection (كشف الحواف) - Sobel, Canny
  • • Corner Detection (زوايا) - Harris Corner
  • • SIFT, SURF (نقاط مميزة)

3. Classification (التصنيف)

استخدام ML التقليدي (SVM, Random Forest) على Features المستخرجة

ثورة CNNs: الشبكات العصبية التلافيفية

في 2012، حدث تحول كبير: AlexNet فاز بمسابقة ImageNet باستخدام CNNs. الآن لا نحتاج Feature Engineering يدوي - الشبكة تتعلم Features تلقائياً!

كيف تعمل CNNs؟

🔍 Convolutional Layers

تطبق filters (مرشحات) صغيرة تتحرك على الصورة

Filter 3×3 يكتشف: خطوط أفقية، رأسية، حواف، زوايا

📉 Pooling Layers

تقليل حجم الصورة مع الحفاظ على أهم المعلومات

MaxPooling: يأخذ أكبر قيمة من كل منطقة 2×2

🧠 Fully Connected Layers

في النهاية، طبقات عادية تعطي القرار النهائي

مثال: CNN بسيطة

Input: صورة 224×224×3
Conv1: 32 filters → 222×222×32
MaxPool: → 111×111×32
Conv2: 64 filters → 109×109×64
MaxPool: → 54×54×64
Flatten + Dense Layers
Output: 1000 classes (ImageNet)

مهام Computer Vision الرئيسية

1. Image Classification

ما هذا الشيء في الصورة؟

مثال: قطة أم كلب؟ سيارة أم دراجة؟

✓ ResNet, VGG, EfficientNet

2. Object Detection

أين الأشياء في الصورة؟ (Bounding Boxes)

مثال: 3 سيارات، 2 مشاة، إشارة مرور

✓ YOLO, Faster R-CNN, SSD

3. Semantic Segmentation

تصنيف كل pixel في الصورة

مثال: هذا pixel سماء، هذا شجرة، هذا طريق

✓ U-Net, DeepLab, Mask R-CNN

4. Face Recognition

من هذا الشخص؟

مثال: التعرف على الوجوه في الصور

✓ FaceNet, ArcFace, DeepFace

5. Pose Estimation

كشف وضعية الجسم ونقاط المفاصل

مثال: تتبع حركة الرياضيين

✓ OpenPose, MediaPipe, HRNet

تطبيقات عملية في الحياة الواقعية

🚗 السيارات الذاتية

كشف المشاة، السيارات، الإشارات، والطريق

🏥 الطب

كشف الأورام من صور الأشعة والمسح

🏭 الصناعة

فحص جودة المنتجات على خطوط الإنتاج

🌾 الزراعة

مراقبة صحة المحاصيل وكشف الآفات

🔒 الأمن

التعرف على الوجوه وكشف التهديدات

📱 التطبيقات

فلاتر Snapchat، Google Lens، ترجمة الصور

كيف تبدأ في Computer Vision؟

✅ تعلم Python و NumPy لمعالجة المصفوفات

✅ استخدم OpenCV للمعالجة التقليدية

✅ تعلم PyTorch أو TensorFlow لـ Deep Learning

✅ ابدأ بمشاريع بسيطة: MNIST → CIFAR-10 → ImageNet

✅ جرب Transfer Learning مع نماذج جاهزة (ResNet, YOLO)

✅ شارك في Kaggle competitions