طارق بن جعبل طعيمان

مهندس ذكاء اصطناعي

0%

النماذج اللغوية الضخمة
مشروع عملي احترافي

بناء LLM Evaluator

نظام لتقييم جودة إجابات LLMs تلقائياً

متقدم
2-3 أسابيع
4 مهارات

مقدمة المشروع

في هذا المشروع العملي، ستتعلم كيفية نظام لتقييم جودة إجابات llms تلقائياً. هذا المشروع مصمم خصيصاً لمستوى متقدمويستغرق تقريباً 2-3 أسابيع لإكماله بشكل كامل.

سنتبع منهجية CRISP-DM (Cross-Industry Standard Process for Data Mining) المعترف بها عالمياً، والتي تضمن بناء مشروع احترافي قابل للتطبيق في بيئة الإنتاج.

ماذا ستتعلم؟

📊 فهم تحديات تقييم LLMs
🔍 استكشاف evaluation metrics
🧹 إنشاء test sets
⚙️ بناء automated evaluation
✅ تطبيق LLM-as-a-judge
🚀 CI/CD للـ LLMs
منهجية CRISP-DM

خطوات العمل التفصيلية

اتبع هذه الخطوات الست لبناء مشروع احترافي

1
📊

Business Understanding

فهم المشكلة

تحديد الأهداف والمتطلبات من منظور الأعمال

الخطوات العملية:

ضمان جودة LLM outputs

2
🔍

Data Understanding

فهم البيانات

جمع البيانات الأولية والتعرف عليها وتحديد جودتها

الخطوات العملية:

إنشاء golden dataset

3
🧹

Data Preparation

تحضير البيانات

تنظيف وتحويل البيانات لتكون جاهزة للنمذجة

الخطوات العملية:

تحديد معايير الجودة

4
⚙️

Modeling

بناء النموذج

اختيار وتطبيق تقنيات النمذجة المناسبة

الخطوات العملية:

بناء evaluator باستخدام GPT-4

5

Evaluation

التقييم

تقييم النموذج والتأكد من تحقيق الأهداف

الخطوات العملية:

مقارنة مع human evaluation

6
🚀

Deployment

النشر

نشر النموذج في بيئة الإنتاج

الخطوات العملية:

automated testing pipeline

المصادر والأدوات

LangSmith
RAGAS Framework
LLM Evaluation Best Practices

المهارات المطلوبة

LLM EvaluationPrompt EngineeringMetricsTesting

إحصائيات سريعة

المستوىمتقدم
المدة2-3 أسابيع
المهارات4
الخطوات6
العودة للمشاريع