المدونة التقنية | Tareq Tuaayman | طارق بن جعبل طعيمان

الثورة التي غيرت كل شيء

في 2017، نشرت Google ورقة بحثية بعنوان "Attention Is All You Need". هذه الورقة قدمت معمارية Transformer التي أصبحت أساس كل شيء في AI اليوم:

✨ ChatGPT (GPT-3, GPT-4)
✨ BERT, RoBERTa (فهم اللغة)
✨ LLaMA, Claude, Gemini
✨ حتى Vision Transformers للصور!

قبل Transformers: المشكلة مع RNNs

كيف كانت معالجة اللغة قبل 2017؟

استخدمنا RNNs (Recurrent Neural Networks) و LSTMs:

مثال: ترجمة جملة

Input: "I love artificial intelligence"

↓ كلمة بكلمة

RNN: I → أنا

RNN: love → أحب

RNN: artificial → الاصطناعي

RNN: intelligence → الذكاء

⚠️ مشاكل RNNs

1. Sequential Processing (معالجة تسلسلية)

لا يمكن معالجة الكلمات بشكل متوازي → بطيء جداً

2. Long-term Dependencies

ينسى المعلومات من بداية الجملة الطويلة

"The cat, which was very hungry, ate" → ماذا أكل؟ القطة أم الجوع؟

3. Vanishing Gradients

صعوبة في التدريب على نصوص طويلة

الحل: Attention Mechanism

💡 الفكرة الأساسية

بدلاً من معالجة كلمة بكلمة، دع النموذج ينظر إلى كل الكلمات مرة واحدة ويقرر: أي كلمة مهمة للكلمة الحالية؟

مثال: ترجمة "I love this movie"

عند ترجمة "movie":

✓ انتبه لـ "this" (هذا) - مهم!

✓ انتبه لـ "love" (أحب) - مهم!

✗ "I" - أقل أهمية هنا

→ الترجمة: "أحب هذا الفيلم" ✓

كيف تعمل Attention؟

1. Query, Key, Value

لكل كلمة 3 تمثيلات:

Query (Q): ما الذي أبحث عنه؟
Key (K): ماذا أقدم؟
Value (V): المحتوى الفعلي

2. Attention Score

حساب التشابه بين Query و Keys

Score = Q · K^T / √(d_k)

3. Weighted Sum

ضرب Values في Scores → التمثيل النهائي

معمارية Transformer الكاملة

مكونات Transformer

🔷 Multi-Head Attention

بدلاً من attention واحد، استخدم 8 أو 12 "heads" تنظر لعلاقات مختلفة!

• Head 1: العلاقات النحوية
• Head 2: المعنى الدلالي
• Head 3: السياق البعيد
• ... وهكذا

📍 Positional Encoding

Transformer لا يعرف ترتيب الكلمات! نضيف "موقع" لكل كلمة

"cat sat" ≠ "sat cat" ← Positional Encoding يحل هذا

🔀 Feed-Forward Network

بعد Attention، طبقات Dense عادية لمعالجة إضافية

➕ Residual Connections & LayerNorm

لتسهيل التدريب وتجنب Vanishing Gradients

Encoder vs Decoder

Encoder

يفهم Input

• Self-Attention
• Feed-Forward
• مثال: BERT

Decoder

يولد Output

• Masked Self-Attention
• Cross-Attention
• مثال: GPT

لماذا Transformers أفضل؟

⚡

Parallelization

كل الكلمات تُعالج معاً → تدريب أسرع بكثير

🎯

Long-range Dependencies

Attention يمكنه ربط كلمات بعيدة جداً

📈

Scalability

يتحسن مع المزيد من البيانات والحجم (GPT-3: 175B parameters!)

🔄

Transfer Learning

Pre-train مرة واحدة، Fine-tune لآلاف المهام

نماذج مشهورة تستخدم Transformers

📖 BERT (Encoder-only)

فهم النص، تصنيف، Q&A

✍️ GPT (Decoder-only)

توليد نص، ChatGPT

🌍 T5 (Encoder-Decoder)

ترجمة، تلخيص

👁️ Vision Transformer

تصنيف الصور!

الخلاصة

Transformers غيّرت قواعد اللعبة بالكامل:

✅ Attention Mechanism: كل كلمة تنظر لكل الكلمات
✅ Parallel Processing: تدريب أسرع 100x
✅ Long Context: فهم نصوص طويلة جداً
✅ Universal: NLP، Vision، Audio، حتى Protein Folding!

المستقبل: Transformers ستستمر في التطور - نماذج أكبر، أسرع، وأذكى. نحن في عصر Transformers! 🚀

العودة لقراءة المزيد من المقالات

طارق بن جعبل طعيمان

فهم معمارية Transformer: السر وراء ChatGPT