طارق بن جعبل طعيمان

مهندس ذكاء اصطناعي

0%

الرئيسيةالمشاريعمعالجة اللغة الطبيعيةنظام استخلاص الكيانات المسماة (NER)
معالجة اللغة الطبيعية
مشروع عملي احترافي

نظام استخلاص الكيانات المسماة (NER)

بناء نموذج لاستخلاص الأسماء، الأماكن، المنظمات من النصوص

متقدم
3 أسابيع
4 مهارات

مقدمة المشروع

في هذا المشروع العملي، ستتعلم كيفية بناء نموذج لاستخلاص الأسماء، الأماكن، المنظمات من النصوص. هذا المشروع مصمم خصيصاً لمستوى متقدمويستغرق تقريباً 3 أسابيع لإكماله بشكل كامل.

سنتبع منهجية CRISP-DM (Cross-Industry Standard Process for Data Mining) المعترف بها عالمياً، والتي تضمن بناء مشروع احترافي قابل للتطبيق في بيئة الإنتاج.

ماذا ستتعلم؟

📊 فهم Named Entity Recognition وتطبيقاته
🔍 استكشاف NER datasets
🧹 تحضير البيانات لـ Token Classification
⚙️ تدريب نموذج NER مخصص
✅ تقييم باستخدام Entity-level Metrics
🚀 نشر لاستخلاص المعلومات
منهجية CRISP-DM

خطوات العمل التفصيلية

اتبع هذه الخطوات الست لبناء مشروع احترافي

1
📊

Business Understanding

فهم المشكلة

تحديد الأهداف والمتطلبات من منظور الأعمال

الخطوات العملية:

استخراج معلومات من المستندات

2
🔍

Data Understanding

فهم البيانات

جمع البيانات الأولية والتعرف عليها وتحديد جودتها

الخطوات العملية:

CoNLL-2003 أو ANERcorp (عربي)

3
🧹

Data Preparation

تحضير البيانات

تنظيف وتحويل البيانات لتكون جاهزة للنمذجة

الخطوات العملية:

تحويل لـ BIO tagging format

4
⚙️

Modeling

بناء النموذج

اختيار وتطبيق تقنيات النمذجة المناسبة

الخطوات العملية:

Fine-tune BERT for Token Classification

5

Evaluation

التقييم

تقييم النموذج والتأكد من تحقيق الأهداف

الخطوات العملية:

Precision, Recall, F1 لكل كيان

6
🚀

Deployment

النشر

نشر النموذج في بيئة الإنتاج

الخطوات العملية:

تطبيق لاستخراج الكيانات من الأخبار

المصادر والأدوات

CoNLL-2003 Dataset
SpaCy NER Tutorial
BERT for Token Classification

المهارات المطلوبة

NERSpaCyBERTToken Classification

إحصائيات سريعة

المستوىمتقدم
المدة3 أسابيع
المهارات4
الخطوات6
العودة للمشاريع