למה הפרומפט שלך לא עובד, ומה לעשות עכשיו
שני מפתחים שולחים לאותו LLM שאלה על סיווג טקסט. האחד מקבל דיוק של 95%. השני מקבל 70% ומאשים את המודל. ההבדל? לא המודל, ה-prompt. Prompt engineering הוא לא אומנות מיסטית, זה הנדסה עם עקרונות מדידים.
ב-2026 התחום התפתח: Anthropic מדברת על context engineering, לא רק מה כותבים, אלא מה מכניסים לחלון ההקשר ובאיזה סדר. בסטארטאפים בתל אביב, prompt engineers מרוויחים שכר של senior developer, כי prompt טוב שווה חיסכון של חודשי עבודה על fine-tuning.
שיעור זה מכסה את הטכניקות המוכחות לשנת 2026: מה עבד אתמול ופוגע היום, מה חדש ב-Claude 4.x, ואיך למדוד שיפור בצורה אמינה.
שינוי קריטי ב-Claude 4.x: שפה אגרסיבית פוגעת
זה הממצא המפתיע ביותר מהתיעוד הרשמי של Anthropic לשנת 2026: שפה דרמטית כמו "YOU MUST", "CRITICAL!", "NEVER EVER" גורמת ל-Claude 4.x לבצע גרוע יותר.
הסיבה: Claude Opus 4.5 ו-4.6 רגישים יותר ל-system prompt מגרסאות קודמות. שפה אגרסיבית overtriggers את המודל, הוא מגיב יתר על המידה ומייצר תוצאות לא עקביות. הפתרון הוא פשוט: החלף "CRITICAL: You MUST use this tool when..." ב-"Use this tool when...".
הטכניקות המרכזיות, מה מתי
| טכניקה | מתי להשתמש | דוגמה |
|---|---|---|
| Zero-shot | משימות ברורות, הוראות פשוטות | תרגום, סיכום קצר |
| Few-shot | פורמט output ספציפי שקשה לתאר במילים | סיווג, extraction מובנה |
| Chain-of-Thought | חישובים, לוגיקה, החלטות מורכבות | ניתוח חוזים, הסקת מסקנות |
| Extended Thinking | כשנדרשת חשיבה עמוקה, מחליף CoT ידני ב-Claude 4.x | אסטרטגיה, תכנון ארכיטקטורה |
| Self-consistency | כשנדרשת אמינות גבוהה | הפעל 3 פעמים, קח majority vote |
| Prompt Chaining | משימות ארוכות ומורכבות | מחקר → ניתוח → כתיבה (3 פרומפטים נפרדים) |
Chain-of-Thought בפועל, דוגמה מהשוק הישראלי
חברת ביטוח ישראלית רצתה לסווג תלונות לקוחות אוטומטית. הפרומפט הבא הביא לקפיצה מ-70% ל-94% דיוק, ע"י הוספת שלב חשיבה מפורש:
אתה מומחה בסיווג תלונות לקוחות של חברת ביטוח.
סווג כל תלונה לאחת מ-5 קטגוריות:
[1-תביעה] [2-שירות לקוחות] [3-פרמיה] [4-ביטול פוליסה] [5-אחר]
לפני שתסווג, חשב בקול:
- מה הנושא המרכזי בתלונה?
- אילו מילות מפתח מצביעות על הקטגוריה?
- האם יש קטגוריה משנית?
רק אז כתוב: CATEGORY: [מספר] | CONFIDENCE: [HIGH/MED/LOW]
דוגמה:
תלונה: "המתנתי 40 דקות לנציג ולא קיבלתי מענה"
חשיבה: נושא מרכזי = זמן המתנה. מילת מפתח: נציג. קטגוריה ברורה.
CATEGORY: 2 | CONFIDENCE: HIGH
שלושה אלמנטים שעשו את ההבדל: (1) תפקיד ספציפי, "מומחה" לא "עוזר". (2) הוראת CoT מפורשת, "חשב בקול". (3) פורמט output קשיח, מונע תשובות חופשיות שקשה לפרסר.
Meta-Prompt, Claude משפר את הפרומפט שלך
אחת הטכניקות החזקות ביותר היא להשתמש ב-Claude בתור prompt optimizer. כפי שמסכם עיקרון מ-Anthropic: "The best prompt isn't the longest or most complex. It's the one that achieves your goals reliably with the minimum necessary structure."
הפרומפט הבא עובד טוב לשיפור פרומפטים קיימים:
אתה מומחה ב-prompt engineering ל-Claude 4.x.
להלן פרומפט שנותן תוצאות לא עקביות:
---
[הדבק כאן את הפרומפט הקיים]
---
נתח:
1. מה הבעיות המבניות? (חוסר הוראות, ambiguity, פורמט לא ברור)
2. כתוב גרסה משופרת עם:
- System prompt נפרד
- 2-3 few-shot דוגמאות אם רלוונטי
- הוראות פורמט מפורשות
- CoT אם רלוונטי
3. הסבר כל שינוי ואת הסיבה
4. ציין מה prompting לא יפתור ויצריך fine-tuning
Context Engineering, מעבר לפרומפט
Anthropic הכריזה ב-2025 על paradigm חדש: context engineering. ההגדרה הרשמית: "curating and maintaining the optimal set of tokens during LLM inference." זה לא רק מה כותבים, זה מה מכניסים לחלון ההקשר כולו: system prompt, כלים, היסטוריית שיחה, ומסמכים.
שני עקרונות מרכזיים:
- Goldilocks zone: system prompt ספציפי מספיק להנחיה, גמיש מספיק לא לשבור במקרים קצה.
- Just-in-Time retrieval: במקום לטעון את כל המידע מראש, השתמש בכלים לשלוף מידע בזמן אמת. הקפד על כמות טוקנים, context rot אמיתי.
טעויות נפוצות ואיך להימנע מהן
- שפה אגרסיבית ב-Claude 4.x: "YOU MUST", "CRITICAL!", "NEVER EVER" overtriggers ומוריד ביצועים. החלף בשפה ישירה ורגועה.
- Over-engineering: הוספת CoT + few-shot + role + XML + chain בבת אחת, ללא מדידה. שנה משתנה אחד בכל פעם, בדוק על 20 דוגמאות.
- בלי ground truth: שיפור פרומפט ללא דוגמאות בדיקה ידניות. לפני כל שינוי, 20 input/output ידניים שמגדירים הצלחה.
- פורמט output לא מוגדר: "ענה בקצרה" לא מספיק. כתוב "מקסימום 3 משפטים" או "JSON בלבד", מספר מדויק.
נקודות מפתח לסיכום
- שפה אגרסיבית ("YOU MUST", "CRITICAL") פוגעת ב-Claude 4.x, עבור לשפה ישירה ורגועה.
- Chain-of-Thought: בקש "חשב בקול לפני שתענה" לכל בעיה לוגית.
- Few-shot: התחל עם דוגמה אחת. הוסף עוד רק אם הפורמט לא מדויק.
- Extended Thinking ב-Claude 4.x מחליף CoT ידני, לא צריך להוסיף "חשוב שלב אחר שלב" כשמשתמשים בו.
- Context engineering: בחר מה נכנס לחלון ההקשר בקפידה, פחות טוקנים עם איכות גבוהה עדיף על יותר טוקנים.
- מדד תמיד: שנה משתנה אחד, בדוק על 20 דוגמאות, לפני ואחרי.
- Claude כ-prompt optimizer: תן לו את הפרומפט הישן + 5 דוגמאות ובקש שישפר. לרוב יעשה עבודה טובה יותר ממך.
