16 לאפריל 2026, Anthropic השיקה את Opus 4.7. וזה מסובך.
אם תקרא את ההודעה הרשמית של Anthropic, תחשוב ש-4.7 הוא שדרוג נקי: 87.6% ב-SWE-bench (לעומת 80.8%), ראייה ברמה כמעט מושלמת, ניצח ב-12 מתוך 14 בנצ'מרקים. אם תפתח את r/ClaudeAI באותו יום, תראה תגובה אחרת לגמרי, שרשורים בני 2,000 לייקים שכותרתם "Opus 4.7 is legendarily bad for my workflow".
שתי הקבוצות צודקות. השיעור הזה לא בא למכור לך שדרוג, בא לעזור לך להחליט אם הוא בכלל מתאים לך, ובאיזו צורה לעבוד איתו אם כן.
מה באמת השתנה, בלי הילה שיווקית
- קוד: +6.8 נקודות ב-SWE-bench Verified, +10.9 ב-SWE-bench Pro. ריפקטורים מורכבים שדרשו 4 סבבים ב-4.6 לפעמים נסגרים בסבב אחד.
- ראייה: תמונות עד 2,576px בצלע הארוכה (פי 3 מהקודם). CharXiv-R קפץ ב-13.6 נקודות. צילום מסך של דשבורד פיננסי או דוח סרוק, פה רואים את הקפיצה הכי ברורה.
- חשיבה: רמת מאמץ חדשה
xhighלמשימות אגנטיות מורכבות. - תכונות חדשות: פקודת
/ultrareviewלסקירת קוד שיטתית, ו-task budgets (בטא) שמגבילות את העלות לכל משימה. - מה לא חדש: 1 מיליון טוקנים. זה נחת כבר עם 4.6 (header
context-1m-2025-08-07). אם מישהו אומר לך "4.7 הביא 1M", הוא טועה.
הגוצ'ה שאף אחד לא מספר עליה: הטוקנייזר
המחיר הרשמי לא השתנה, $5 קלט / $25 פלט למיליון טוקנים, בדיוק כמו 4.6. אבל Anthropic החליפו את הטוקנייזר. אותו תוכן עכשיו נספר כ-1.0–1.35× יותר טוקנים. בפועל, מפתחים על Reddit מדווחים על שריפת טוקנים של פי 1.5 עד 3 ב-workflows שלמים, כי המודל גם משתמש יותר ב-thinking ארוך מאליו.
תרגום עסקי: בעלת סטארטאפ בתל אביב שהוציאה $400 בחודש על Opus 4.6 ל-API, סביר מאוד שתפתח את החשבונית ותראה $500–$700 על אותו שימוש בדיוק. בלי שמישהו הזהיר אותה.
מס האמביגואיות: 4.7 מבצע מילולית
זו הנקודה הכי מבולבלת בקהילה. Anthropic עצמה כותבת במסמכי המעבר ש-4.7 "עוקב אחר הוראות בצורה הרבה יותר מילולית". משתמש אחד תיאר את זה כך:
"4.6 היה שותף מציל מפרומפטים גרועים בשקט. 4.7 לא. הוא מבצע בדיוק מה שביקשת, וזה כולל את הטעויות שלך."
ציטוט נוסף שתפס ברדיט: "Lost the conversational warmth. Feels like talking to a precise operator, not an assistant." אם השימוש שלך הוא שיחה זורמת או כתיבה יצירתית, זה דאונגרייד, לא שדרוג.
4.6 מול 4.7, טבלת השוואה אמיתית
| פרמטר | Opus 4.6 | Opus 4.7 |
|---|---|---|
| מחיר רשמי | $5 / $25 | $5 / $25 (זהה) |
| עלות אפקטיבית לאותו תוכן | baseline | ×1.0–1.35 (טוקנייזר חדש) |
| SWE-bench Verified (קוד) | 80.8% | 87.6% (+6.8) |
| GPQA Diamond (חשיבה מדעית) | 91.3% | 94.2% |
| CharXiv-R (קריאת גרפים) | baseline | +13.6 נקודות |
| BrowseComp (מחקר ברשת) | 83.7% | 79.3% (רגרסיה −4.4) |
| תמונות (גודל מקס) | ~800px | 2,576px |
| Context window | 1M (קיים) | 1M (זהה, לא חדש ב-4.7) |
| סגנון תגובה | חמים, מסיק כוונה | קר, מילולי, דורש פרומפט מדויק |
מתי לא לעבור ל-4.7
זה החלק שלא תמצא בעמוד ההשקה הרשמי. שלוש סיטואציות שבהן 4.6 עדיין הבחירה הנכונה:
- שימוש שיחתי או יצירתי. כתיבת תוכן שיווקי, סיעור מוחות, ייעוץ קריירה. 4.7 איבד את החום של 4.6 לטובת דיוק. אם אתה מנהל שיחה, תרגיש את זה תוך 3 הודעות.
- Workflow שמבוסס על מחקר ברשת. BrowseComp ירד 4.4 נקודות. אם רואה חשבון בתל אביב משתמש ב-Claude כדי לסרוק תקנות מס מתעדכנות, זו רגרסיה ישירה.
- אין לך זמן/יכולת לשכתב פרומפטים קיימים. Anthropic עצמה אומרת שצריך לעדכן. פרומפט שעבד מצוין ב-4.6 יכול להחזיר זבל ב-4.7 אם הוא עמום. אם אתה מריץ pipeline אוטומטי בייצור עם 50 פרומפטים, זה שבועיים של עבודה.
מתי כן, בלי ספק
- ניתוח חוזים סרוקים, דוחות שנתיים, דשבורדים פיננסיים (היתרון בראייה אמיתי ומורגש).
- ריפקטור קוד מורכב, שווה את העלות הנוספת.
- שיחות אגנטיות ארוכות עם כלים,
xhighמצדיק את עצמו.
טעויות נפוצות שראיתי בשבועיים האחרונים
- שימוש ב-Opus 4.7 לשאלות של שורתיים. בזבוז של פי 5 טוקנים לעומת Haiku, בלי שום יתרון. אם השאלה היא "תרגם לי את המייל הזה לאנגלית", אל תיגע ב-Opus.
- שימוש ב-
xhighכברירת מחדל. זה מיועד למשימות אגנטיות מורכבות במיוחד. במשימות בינוניות זה מכפיל זמן ועלות בלי לשפר איכות. - העלאת צילומי מסך מכווצים. המודל תוכנן ל-2,576px. תמונה ב-600px לא מנצלת את הקפיצה בראייה.
- הנחה שמיגרציה של פרומפטים היא אופציונלית. Anthropic עצמה דורשת שכתוב במסמכי ה-migration. זו לא המלצה, זו דרישה אם אתה רוצה איכות עקבית.
שאלות שחוזרות
האם שווה לעבור אם אני לא מתכנת? תלוי. אם השימוש שלך הוא ניתוח מסמכים, חוזים סרוקים, צילומי מסך של דשבורדים או PDFs ארוכים, כן, ההבדל מורגש מהיום הראשון. אם השימוש העיקרי שלך הוא שיחה זורמת, כתיבת תוכן יצירתי או מחקר ברשת, בדוק את עצמך לפני, אל תניח שזה שדרוג.
מה ההבדל בפועל בין Opus 4.7 ל-Sonnet 4.7? Sonnet זול משמעותית (כ-1/5 מהמחיר) ומספיק טוב ל-80% מהמשימות היומיומיות. Opus שמור למשימות שדורשות באמת חשיבה עמוקה, קוד מורכב, או ראייה ברמה גבוהה. אם אתה לא בטוח, תתחיל מ-Sonnet ותשדרג רק אם התוצאה לא מספקת.
האם 1M context באמת עובד? כן, אבל זו תכונה שנחתה כבר עם 4.6, לא חדשה ב-4.7. בעומסים אמיתיים המודל מתחיל לאבד דיוק בערך אחרי 600K טוקנים, אז אל תניח ש-1M = שימוש מלא בלי איבוד איכות.
למה הוא פתאום מתווכח איתי? זה השינוי הכי לא מתועד. 4.7 מאומן להיות פחות "sycophantic", פחות מסכים אוטומטית. אם ביקשת משהו שגוי טכנית, הוא יגיד לך. זה פיצ'ר, לא באג, אבל מי שהורגל לתשובות חלקות של 4.6 ירגיש בזה מיד.
מה לגבי Mythos? Anthropic הודתה (ב-Axios וב-CNBC) שיש להם מודל פנימי בשם Mythos, חזק יותר מ-4.7, שעדיין לא משוחרר. אם אתה שוקל לבנות תשתית ארוכת טווח על 4.7, תזכור שהמודל הבא כבר קיים בפנים אצלם.
שורה תחתונה
Opus 4.7 הוא לא "4.6 יותר טוב". הוא מודל אחר עם פרופיל אחר: חזק יותר בקוד, ראייה ומשימות מובנות; חלש יותר במחקר ברשת ובשיחה זורמת; דורש פרומפטים מדויקים יותר; ועולה בפועל יותר למרות מחיר רשמי זהה. החלטת המעבר היא שלך, ועכשיו יש לך את המידע לקבל אותה.
