تصحيح الأخطاء الإملائية والنحوية
نموذج يصحح الأخطاء في النصوص تلقائياً
مقدمة المشروع
في هذا المشروع العملي، ستتعلم كيفية نموذج يصحح الأخطاء في النصوص تلقائياً. هذا المشروع مصمم خصيصاً لمستوى متوسطويستغرق تقريباً 2 أسبوع لإكماله بشكل كامل.
سنتبع منهجية CRISP-DM (Cross-Industry Standard Process for Data Mining) المعترف بها عالمياً، والتي تضمن بناء مشروع احترافي قابل للتطبيق في بيئة الإنتاج.
ماذا ستتعلم؟
خطوات العمل التفصيلية
اتبع هذه الخطوات الست لبناء مشروع احترافي
Business Understanding
فهم المشكلة
تحديد الأهداف والمتطلبات من منظور الأعمال
الخطوات العملية:
تحسين جودة الكتابة
Data Understanding
فهم البيانات
جمع البيانات الأولية والتعرف عليها وتحديد جودتها
الخطوات العملية:
C4_200M Dataset أو QALB (عربي)
Data Preparation
تحضير البيانات
تنظيف وتحويل البيانات لتكون جاهزة للنمذجة
الخطوات العملية:
إضافة أخطاء صناعية للنصوص الصحيحة
Modeling
بناء النموذج
اختيار وتطبيق تقنيات النمذجة المناسبة
الخطوات العملية:
Fine-tune T5 على أزواج (خطأ→صحيح)
Evaluation
التقييم
تقييم النموذج والتأكد من تحقيق الأهداف
الخطوات العملية:
مقارنة النص المُصحح بالأصلي
Deployment
النشر
نشر النموذج في بيئة الإنتاج
الخطوات العملية:
أداة تصحيح للمحررات