Computer Vision עם Claude

📚 AI / ML ⏱️ 10 דק׳ 🎓 בינוני ✓ חינם לגמרי
Computer Vision עם Claude

למה Vision API משנה את הכלל ב-2026

בואו נדייק: לפני שנה, ניתוח תמונות בפרודקשן דרש מהנדס ML, training data, ותשתית מורכבת. היום, חברה שרוצה לזהות נזק בחבילות, לחלץ נתונים מחשבוניות, או לסווג תמונות מוצרים, שולחת קריאת API אחת לClaude ומקבלת JSON. עם השקת Opus 4.7 באפריל 2026, הדיוק הויזואלי קפץ מ-54.5% ל-98.5%, זה כבר לא "מספיק טוב לפיילוט", זה production-ready.

שיעור זה עוסק ב-Computer Vision בגישה מעשית: איך לשלוח תמונות לClaude, איך לבנות פרומפטים שמחזירים JSON ניתן לparsing, ואיך לתכנן pipeline שמתנהל בסקייל, מבלי לשרוף תקציב על tokens מיותרים.

הבסיס הטכני: base64 vs URL, ועלות אמיתית

שתי דרכים לשלוח תמונה לClaude:

עלות תמונה מחושבת לפי נוסחה פשוטה: width * height / 750 טוקנים. תמונה של 1000×1000 שווה ~1,334 טוקנים, שזה $0.004 ב-Sonnet 4.6. אלף חשבוניות ביום = $4. Opus 4.7 עולה יותר, ~$6.70 לאלף תמונות בגודל זה, אבל עם דיוק שמצדיק את הפרש המחיר כשנדרש OCR מדויק.

כלל עבודה: Sonnet 4.6 לרוב use cases. Opus 4.7 כשיש טקסט קטן, תרשימים טכניים, או כשדיוק קריטי.

פרומפט OCR לחשבוניות ישראליות

הדוגמה הבאה היא template עובד לחילוץ נתונים מחשבוניות עם מע"מ ישראלי:

אתה מומחה OCR לחשבוניות ישראליות.
נתח את התמונה וחלץ לJSON:

{
  "supplier": {
    "name": "שם הספק",
    "vat_number": "מספר ח.פ / ע.מ"
  },
  "invoice": {
    "number": "מספר חשבונית",
    "date": "YYYY-MM-DD"
  },
  "totals": {
    "subtotal": 0.0,
    "vat_amount": 0.0,
    "vat_rate": 18,
    "total": 0.0
  },
  "currency": "ILS",
  "confidence": "HIGH/MEDIUM/LOW"
}

אם שדה לא ברור, השתמש ב-null.
אל תמציא ערכים. אם לא בטוח, confidence: LOW.

שלושה עקרונות בפרומפט הזה: (1) JSON schema מוגדר מפורש, בלי schema, Claude יחזיר תיאור חופשי שלא ניתן לparse. (2) הוראה מפורשת לא להמציא, null עדיף על guess. (3) confidence field, מאפשר לpipeline לנתב מקרים ל-review ידני.

מה יש בתמונה?
אתה מומחה ניתוח מסמכים. נתח את התמונה וחלץ JSON עם השדות: supplier_name, invoice_number, total_amount, currency, date (פורמט YYYY-MM-DD), confidence (HIGH/MEDIUM/LOW). אם שדה לא קריא, null. אל תמציא. החזר JSON בלבד.

Pipeline לעיבוד מאסה, הקוד הבסיסי

הדפוס הבסיסי לעיבוד תמונה בודדת בPython:

import anthropic
import base64

def analyze_invoice(image_path: str) -> dict:
    client = anthropic.Anthropic()
    
    with open(image_path, "rb") as f:
        image_data = base64.standard_b64encode(f.read()).decode("utf-8")
    
    message = client.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=1024,
        messages=[{
            "role": "user",
            "content": [
                {
                    "type": "image",
                    "source": {
                        "type": "base64",
                        "media_type": "image/jpeg",
                        "data": image_data
                    }
                },
                {
                    "type": "text",
                    "text": INVOICE_PROMPT  # הפרומפט מלמעלה
                }
            ]
        }]
    )
    return message.content[0].text

לעיבוד של 1,000+ תמונות, Batch API של Anthropic מאפשר עיבוד אסינכרוני עם 50% חיסכון בעלות. שולחים את כל הבקשות בפעם אחת, מושכים תוצאות כשהעיבוד מסתיים. לפרטים: Batch Processing Docs.

Use Cases מהשוק הישראלי

תחוםUse Caseמודל מומלץ
חשבונאות / FinTechOCR חשבוניות, שיקים, דפי חשבון, ייצוא JSON לERPSonnet 4.6
ביטוחזיהוי נזק ברכבים מתמונות, חישוב תביעה אוטומטיOpus 4.7
נדל"ןניתוח תמונות דירות, זיהוי בעיות תחזוקה, הערכה ראשוניתSonnet 4.6
לוגיסטיקהבדיקת חבילות פגועות, דיווח נזק אוטומטי בעבריתSonnet 4.6
Retail / E-commerceQC תמונות מוצרים לפני העלאה לאתר, approval/rejectSonnet 4.6
מחקר ופארמהקריאת תרשימים כימיים, מבני פרוטאין, תוצאות LabOpus 4.7

חברת לוגיסטיקה שמעבדת 3,000 תמונות של חבילות ביום יכולה לחסוך ~12 שעות עבודה ידנית, בעלות של פחות מ-15$ ליום ב-Sonnet 4.6.

שתי טעויות שעולות כסף

תמיכה בפורמטים חדשים כמו TIFF ו-BMP
רזולוציה מקסימלית של 2576px ודיוק ויזואלי שקפץ ל-98.5%
תמיכה בניתוח וידאו frame-by-frame
תמיכה ב-URL ישיר בלי base64
מספר הקבצים כפול 100 טוקנים
width * height / 750 טוקנים
מחיר קבוע של 500 טוקנים לכל תמונה
גודל הקובץ בKB חלקי 10
מאיץ את עיבוד התמונה
מקטין את כמות הטוקנים ב-response
מאפשר לאוטומציה לזהות מקרים שדורשים בדיקה ידנית
מבטל לחלוטין hallucinations
URL תמיד זול יותר מbase64
רק base64 תומך בJPEG
base64 עובד לכל תמונה, URL פשוט יותר אבל דורש תמונה נגישה לציבור
base64 מחזיר דיוק גבוה יותר

סיכום: מתי ואיך

רוצה ללמוד עם מעקב התקדמות, קוויזים ותעודה?

כל 130 השיעורים פתוחים בחינם, כולל נגן אינטראקטיבי, שמירת התקדמות ותעודה דיגיטלית בסיום.