Computer Use API, Claude שולט במחשב שלך

📚 פיתוח עם Claude, Claude Code & API ⏱️ 16 דק׳ 🎓 מתקדם ✓ חינם לגמרי
Computer Use API, Claude שולט במחשב שלך

Claude רואה את המסך שלך ויכול לשלוט בו

רוב הכלים שמתממשקים ל-AI עובדים דרך API, Claude שולח JSON, מקבל JSON. אבל מה עם מערכות ישנות שאין להן API? מה עם ממשקי משתמש שנבנו לפני 20 שנה? Computer Use API פותר בדיוק את זה.

עם Computer Use, Claude מקבל screenshot של מסך, מחליט מה לעשות, שולח פקודה (לחיצה, הקלדה, גלילה), מקבל screenshot חדש, וחוזר עד שהמשימה הושלמה. זוהי לולאת Agent שעובדת על כל ממשק ויזואלי, ללא תלות בקוד מקור או ב-API.

עדכון אפריל 2026: Claude Opus 4.7 תומך ברזולוציה של עד 2576 פיקסלים ו-coordinates 1:1, אין יותר צורך ב-coordinate scaling ידני שגרם לכל כך הרבה כאבי ראש.

שלושת הכלים: Computer, Text Editor, Bash

Computer Use API עובד עם שלושה כלים שמשלימים זה את זה. כולם מוגדרים ב-tools array יחד, ודורשים beta header אחד.

כלי type מה הוא עושה
Computer computer_20251124 screenshot, click, type, key, scroll, zoom
Text Editor text_editor_20250728 view, create, str_replace, insert, עריכת קבצים ישירה
Bash bash_20250124 הרצת פקודות shell, עיבוד output

ה-beta header הנכון למודלים Claude 4.x הוא "computer-use-2025-11-24". שימוש בגרסה ישנה (computer-use-2025-01-24) יעבוד רק עם מודלים deprecated.

הקוד הבסיסי: Agent Loop ב-Python

הנה ה-pattern המינימלי שעובד. שים לב ל-max_iterations, בלעדיו, לולאה שנתקעת תוצר עלויות API בלתי צפויות.

import anthropic

client = anthropic.Anthropic()

tools = [
    {
        "type": "computer_20251124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
    },
    {"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
    {"type": "bash_20250124", "name": "bash"}
]

def agent_loop(task: str, max_iterations: int = 10):
    messages = [{"role": "user", "content": task}]

    for i in range(max_iterations):
        response = client.beta.messages.create(
            model="claude-opus-4-7",
            max_tokens=4096,
            tools=tools,
            messages=messages,
            betas=["computer-use-2025-11-24"]
        )
        messages.append({"role": "assistant", "content": response.content})

        tool_results = []
        for block in response.content:
            if block.type == "tool_use":
                result = execute_action(block.name, block.input)
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result
                })

        if not tool_results:
            return response  # Claude סיים

        messages.append({"role": "user", "content": tool_results})

    raise RuntimeError(f"הגעת למגבלת {max_iterations} iterations")

Zoom ו-Coordinate Scaling, מה השתנה

אחד ה-bugs הנפוצים ביותר בגרסאות ישנות: Claude לחץ על קואורדינטות שגויות על מסכי Retina ו-4K. הסיבה, ה-API הגדיל תמונות עד 1568 פיקסלים, אבל קואורדינטות נשארו ב-space של התמונה הקטנה.

אבטחה: 4 כללי ברזל

Anthropic מציינת במפורש: "In some circumstances, Claude will follow commands found in content even if it conflicts with the user's instructions." כל פיקסל על המסך הוא פוטנציאל ל-Prompt Injection.

כלל למה זה חשוב
VM או Docker מבודד Claude יכול למחוק קבצים, לפתוח דפדפן, לשלוח מיילים, הכל בטעות
Human-in-the-loop לפני submit טפסים, תשלומים, מחיקות, חובה לאישור אנושי
Allowlist של דומיינים אתרי אינטרנט יכולים להכיל הוראות שClaude יבצע
max_iterations חובה לולאה שנתקעת שורפת tokens ועלויות ללא הגבלה

החדשות הטובות: Anthropic הוסיפה classifiers אוטומטיים שרצים על screenshots ומזהים Prompt Injection attempts. כשנמצא ניסיון injection, Claude יבקש אישור מהמשתמש לפני המשך.

מתי להשתמש ומתי לא

Computer Use אינו הפתרון לכל בעיה. הנה ניתוח מעשי:

שימוש מתאים? חלופה אם לא
בדיקות E2E UI (Playwright אין) מצוין
אוטומציה של Legacy ERP ישראלי מצוין, אין API
גלישה ואיסוף נתונים בינוני tool_use + fetch API מהיר יותר
אינטראקציה בזמן אמת עם משתמש לא מתאים latency גבוה מדי
מילוי טפסים ממשלתיים (gov.il) בינוני human approval לפני submit חובה

דוגמה ישראלית: אוטומציה של ממשק Priority

חברת לוגיסטיקה בחיפה משתמשת ב-Priority ERP, מערכת ישנה ללא API ציבורי. בכל חודש עובד HR מוציא דוח שכר ידנית: פותח את המודול, בוחר תאריכים, מייצא ל-Excel, שולח למחלקות.

עם Computer Use Agent:

  1. Agent רץ ב-Docker container עם Priority מותקן
  2. Claude מזהה את הממשק, מנווט לדוח השכר, בוחר חודש נוכחי
  3. לפני לחיצת ייצוא, human confirmation webhook שולח הודעה ל-Slack
  4. אחרי אישור, Claude לוחץ Export ושומר ל-shared drive

תוצאה: 45 דקות עבודה ידנית הפכו ל-3 דקות המתנה.

betas=["computer-use-2025-01-24"]
betas=["computer-use-2025-11-24"]
betas=["computer-use-beta-latest"]
betas=["vision-2025-11-24"]

רוצה ללמוד עם מעקב התקדמות, קוויזים ותעודה?

כל 130 השיעורים פתוחים בחינם, כולל נגן אינטראקטיבי, שמירת התקדמות ותעודה דיגיטלית בסיום.