Prompt Engineering ל-LLMs | בית הספר של Claude

למה הפרומפט שלך לא עובד, ומה לעשות עכשיו

שני מפתחים שולחים לאותו LLM שאלה על סיווג טקסט. האחד מקבל דיוק של 95%. השני מקבל 70% ומאשים את המודל. ההבדל? לא המודל, ה-prompt. Prompt engineering הוא לא אומנות מיסטית, זה הנדסה עם עקרונות מדידים.

ב-2026 התחום התפתח: Anthropic מדברת על context engineering, לא רק מה כותבים, אלא מה מכניסים לחלון ההקשר ובאיזה סדר. בסטארטאפים בתל אביב, prompt engineers מרוויחים שכר של senior developer, כי prompt טוב שווה חיסכון של חודשי עבודה על fine-tuning.

שיעור זה מכסה את הטכניקות המוכחות לשנת 2026: מה עבד אתמול ופוגע היום, מה חדש ב-Claude 4.x, ואיך למדוד שיפור בצורה אמינה.

שינוי קריטי ב-Claude 4.x: שפה אגרסיבית פוגעת

זה הממצא המפתיע ביותר מהתיעוד הרשמי של Anthropic לשנת 2026: שפה דרמטית כמו "YOU MUST", "CRITICAL!", "NEVER EVER" גורמת ל-Claude 4.x לבצע גרוע יותר.

הסיבה: Claude Opus 4.5 ו-4.6 רגישים יותר ל-system prompt מגרסאות קודמות. שפה אגרסיבית overtriggers את המודל, הוא מגיב יתר על המידה ומייצר תוצאות לא עקביות. הפתרון הוא פשוט: החלף "CRITICAL: You MUST use this tool when..." ב-"Use this tool when...".

CRITICAL INSTRUCTION: You MUST ALWAYS respond in Hebrew ONLY. NEVER EVER use English. This is ABSOLUTELY MANDATORY. Failure to comply is unacceptable.

ענה תמיד בעברית. אם השאלה באנגלית, תרגם אותה לעברית בעצמך וענה בעברית. פורמט: פסקה אחת, עד 100 מילים.

הטכניקות המרכזיות, מה מתי

טכניקה	מתי להשתמש	דוגמה
Zero-shot	משימות ברורות, הוראות פשוטות	תרגום, סיכום קצר
Few-shot	פורמט output ספציפי שקשה לתאר במילים	סיווג, extraction מובנה
Chain-of-Thought	חישובים, לוגיקה, החלטות מורכבות	ניתוח חוזים, הסקת מסקנות
Extended Thinking	כשנדרשת חשיבה עמוקה, מחליף CoT ידני ב-Claude 4.x	אסטרטגיה, תכנון ארכיטקטורה
Self-consistency	כשנדרשת אמינות גבוהה	הפעל 3 פעמים, קח majority vote
Prompt Chaining	משימות ארוכות ומורכבות	מחקר → ניתוח → כתיבה (3 פרומפטים נפרדים)

Chain-of-Thought בפועל, דוגמה מהשוק הישראלי

חברת ביטוח ישראלית רצתה לסווג תלונות לקוחות אוטומטית. הפרומפט הבא הביא לקפיצה מ-70% ל-94% דיוק, ע"י הוספת שלב חשיבה מפורש:

אתה מומחה בסיווג תלונות לקוחות של חברת ביטוח.
סווג כל תלונה לאחת מ-5 קטגוריות:
[1-תביעה] [2-שירות לקוחות] [3-פרמיה] [4-ביטול פוליסה] [5-אחר]

לפני שתסווג, חשב בקול:
- מה הנושא המרכזי בתלונה?
- אילו מילות מפתח מצביעות על הקטגוריה?
- האם יש קטגוריה משנית?

רק אז כתוב: CATEGORY: [מספר] | CONFIDENCE: [HIGH/MED/LOW]

דוגמה:
תלונה: "המתנתי 40 דקות לנציג ולא קיבלתי מענה"
חשיבה: נושא מרכזי = זמן המתנה. מילת מפתח: נציג. קטגוריה ברורה.
CATEGORY: 2 | CONFIDENCE: HIGH

שלושה אלמנטים שעשו את ההבדל: (1) תפקיד ספציפי, "מומחה" לא "עוזר". (2) הוראת CoT מפורשת, "חשב בקול". (3) פורמט output קשיח, מונע תשובות חופשיות שקשה לפרסר.

Meta-Prompt, Claude משפר את הפרומפט שלך

אחת הטכניקות החזקות ביותר היא להשתמש ב-Claude בתור prompt optimizer. כפי שמסכם עיקרון מ-Anthropic: "The best prompt isn't the longest or most complex. It's the one that achieves your goals reliably with the minimum necessary structure."

הפרומפט הבא עובד טוב לשיפור פרומפטים קיימים:

אתה מומחה ב-prompt engineering ל-Claude 4.x.
להלן פרומפט שנותן תוצאות לא עקביות:

---
[הדבק כאן את הפרומפט הקיים]
---

נתח:
1. מה הבעיות המבניות? (חוסר הוראות, ambiguity, פורמט לא ברור)
2. כתוב גרסה משופרת עם:
   - System prompt נפרד
   - 2-3 few-shot דוגמאות אם רלוונטי
   - הוראות פורמט מפורשות
   - CoT אם רלוונטי
3. הסבר כל שינוי ואת הסיבה
4. ציין מה prompting לא יפתור ויצריך fine-tuning

Context Engineering, מעבר לפרומפט

Anthropic הכריזה ב-2025 על paradigm חדש: context engineering. ההגדרה הרשמית: "curating and maintaining the optimal set of tokens during LLM inference." זה לא רק מה כותבים, זה מה מכניסים לחלון ההקשר כולו: system prompt, כלים, היסטוריית שיחה, ומסמכים.

שני עקרונות מרכזיים:

Goldilocks zone: system prompt ספציפי מספיק להנחיה, גמיש מספיק לא לשבור במקרים קצה.
Just-in-Time retrieval: במקום לטעון את כל המידע מראש, השתמש בכלים לשלוף מידע בזמן אמת. הקפד על כמות טוקנים, context rot אמיתי.

טעויות נפוצות ואיך להימנע מהן

שפה אגרסיבית ב-Claude 4.x: "YOU MUST", "CRITICAL!", "NEVER EVER" overtriggers ומוריד ביצועים. החלף בשפה ישירה ורגועה.
Over-engineering: הוספת CoT + few-shot + role + XML + chain בבת אחת, ללא מדידה. שנה משתנה אחד בכל פעם, בדוק על 20 דוגמאות.
בלי ground truth: שיפור פרומפט ללא דוגמאות בדיקה ידניות. לפני כל שינוי, 20 input/output ידניים שמגדירים הצלחה.
פורמט output לא מוגדר: "ענה בקצרה" לא מספיק. כתוב "מקסימום 3 משפטים" או "JSON בלבד", מספר מדויק.

משפרת ציות להוראות

פוגעת בביצועים וגורמת ל-overtriggering

עובדת ב-Claude 3 אבל לא ב-Claude 4

אין השפעה, המודל מתעלם מסגנון

מקצר את זמן התגובה

מבקש מהמודל לפרק בעיה לשלבים לפני מתן תשובה

מוסיף דוגמאות מהמשתמש לפרומפט

מאמן מחדש את המודל בזמן ריצה

ניסוח מדויק של הפרומפט

הוספת דוגמאות לפרומפט

ניהול כלל הטוקנים שנכנסים לחלון ההקשר: system, tools, history, documents

הצפנת הקשר לאבטחה

5 דוגמאות תמיד

דוגמה אחת, ולהוסיף עוד רק אם צריך

אפס, zero-shot תמיד עדיף

10 דוגמאות לפחות

נקודות מפתח לסיכום

שפה אגרסיבית ("YOU MUST", "CRITICAL") פוגעת ב-Claude 4.x, עבור לשפה ישירה ורגועה.
Chain-of-Thought: בקש "חשב בקול לפני שתענה" לכל בעיה לוגית.
Few-shot: התחל עם דוגמה אחת. הוסף עוד רק אם הפורמט לא מדויק.
Extended Thinking ב-Claude 4.x מחליף CoT ידני, לא צריך להוסיף "חשוב שלב אחר שלב" כשמשתמשים בו.
Context engineering: בחר מה נכנס לחלון ההקשר בקפידה, פחות טוקנים עם איכות גבוהה עדיף על יותר טוקנים.
מדד תמיד: שנה משתנה אחד, בדוק על 20 דוגמאות, לפני ואחרי.
Claude כ-prompt optimizer: תן לו את הפרומפט הישן + 5 דוגמאות ובקש שישפר. לרוב יעשה עבודה טובה יותר ממך.