Data Analysis ו-EDA עם Claude, מ-CSV לתובנות בלי לכתוב pandas
אנליסטית בחברת ecommerce ישראלית קיבלה ב-08:00 קובץ sales_q1_2026.csv במייל מה-CFO: "תגידי לי עד הצהריים מה קרה ברבעון." 380,000 שורות, 22 עמודות, חצי מהן בעברית. במקום לפתוח Jupyter, היא גררה את הקובץ ל-claude.ai, כתבה "shape, dtypes, missing per column, top outliers ב-revenue, ו-bar chart הכנסה חודשית לפי region", וקיבלה ניתוח מלא עם גרפים מוכנים תוך 4 דקות. ב-2026 Claude לא רק כותב קוד pandas, הוא מריץ אותו על השרת של Anthropic, חי, מול הקובץ שלך.
השיעור הזה מסביר את שלושת המשטחים השונים שבהם Claude עושה EDA היום (Analysis tool, API code execution, Claude for Excel), מתי כל אחד נכון, ואיך להוציא מקסימום ערך תוך 10-30 דקות.
שלושת המשטחים, אל תבלבל ביניהם
זו ההבחנה שמבלבלת הכי הרבה אנשים. Claude מציע היום שלוש דרכים שונות לנתח קובץ נתונים, ולכל אחת use case שונה:
| משטח | מה זה | מתי להשתמש |
|---|---|---|
| claude.ai Analysis tool | גרירת קובץ לצ'אט. רץ בסנדבוקס Ubuntu 24.04 + Python 3.12 + 9GB RAM. תקרת קובץ: 30MB. | EDA חד-פעמי, קובץ קטן/בינוני, רוצה גרף + insights בלי להתעסק בסביבה. |
API code_execution_20260120 | אותו סנדבוקס דרך ה-API, עם REPL state persistence, משתנים שורדים בין קריאות. | workflow חוזר, agent שמנתח 50 קבצים ביום, אינטגרציה לפנים. |
| Claude for Excel | תוסף רשמי שעובד בתוך ה-workbook החי שלך. | אנליסט שחי ב-Excel, רוצה Claude כ-co-pilot על תאים אמיתיים. |
נקודה קריטית: Code execution הוא חינם כש-bundled עם web_search או web_fetch (לפי docs רשמיים), אבל לא Zero-Data-Retention eligible. אם יש לך PII או דאטה רגולטורי, אל תעלה ל-claude.ai. הרץ דרך Claude Code לוקלית או דרך API עם retention controls.
מתי לא להריץ קוד בכלל, להשתמש ב-1M context
Opus 4.7 עם 1M context (GA פברואר 2026, ללא premium pricing) פותח workflow חדש: הדבק את כל ה-CSV כטקסט (~700K tokens), שאל שאלה חופשית. עובד מצוין ל-summarization וסקירה רחבה. אבל, מבקורת MindStudio: "Opus 4.7 is noticeably weaker than Opus 4.6 at certain needle-in-a-haystack tasks within extended contexts." כלומר אל תבקש "מצא את שורה 47,231 שבה revenue שלילי", תן לו לכתוב df.query() במקום.
עץ החלטה מהיר:
- קובץ < 30MB, חד-פעמי, רוצה גרף → claude.ai Analysis tool.
- workflow חוזר, צריך version control, קוד מקצועי → Claude Code (לוקלי, בלי תקרת 30MB).
- קובץ ענק (50MB+), שאלה רחבה ("סכם רבעון") → 1M context Opus 4.7, אבל לא לחיפוש שורות ספציפיות.
- קובץ > 30MB וצריך הרצה → split, sample, או Claude Code.
פרומפט EDA חזק, תבנית לעבודה
אתה senior data analyst. צרפתי קובץ deals_q1_2026.csv (עסקאות נדל\"ן
ת\"א-מרכז, ~50K שורות, עמודות: city, neighborhood, size_sqm, rooms,
floor, year_built, price_ils, date_sold).
הרץ EDA בסנדבוקס:
1. df.shape, df.dtypes, df.describe(include='all')
2. missing per column (אחוז), סדר יורד
3. outliers ב-price_ils ו-size_sqm לפי IQR (1.5x)
4. top-10 שכונות לפי median price/sqm
5. correlation matrix לעמודות numeric (|r| > 0.4 בלבד)
6. גרף 1: bar, median price/sqm לפי שכונה (top 15)
7. גרף 2: line, מחיר חציוני חודשי לאורך הזמן
8. גרף 3: heatmap, rooms vs floor → median price
9. 5 anomalies שראית
10. 3 hypotheses לבדיקה נוספת
החזר: גרפים מוכנים + הקוד שלך כ-.py downloadable.
למה זה עובד: יש shape של הדאטה, יש מספר shimor של פעולות, ויש דרישה אופרטיבית לפלט (גרפים + קוד מורד). Claude יודע בדיוק מה לעשות, וממה להימנע.
גוצ'ה עברית, UTF-8 לעמודות בעברית
Claude מצוין בעברית, אבל pandas לפעמים נכשל בקריאת CSV עם שמות עמודות בעברית או ערכים בעברית. הוסף לפרומפט: קרא עם pd.read_csv(path, encoding='utf-8'). אם encoding שגוי, נסה 'utf-8-sig' (Excel BOM) או 'cp1255' (Windows-Hebrew ישן). זה חוסך שעת דיבוג. גם בגרפים, matplotlib לא רנדר עברית by default; בקש מ-Claude להגדיר font עברי (DejaVu Sans / Arial Hebrew) ו-bidi reshaping.
טעויות נפוצות
- הדבקת CSV כטקסט במקום קובץ מצורף: אוכל context, מבטל הרצת קוד. תמיד צרף את הקובץ דרך אייקון המהדק.
- הנחה ש-Analysis tool דלוק כברירת מחדל: ברוב החשבונות זה Feature Preview שצריך להפעיל ב-Settings → Feature Preview → "Upgraded file creation."
- העלאת PII בלי לחשוב על retention: code execution הוא לא ZDR-eligible. דאטה רגיש → Claude Code לוקלי.
- אמון ב-needle-in-haystack ב-1M context: Opus 4.7 רגרסה ביכולת הזו מול 4.6. תן לו לכתוב
df.query()במקום לחפש שורה ידנית. - בקשה ל-"גרף" בלי axes/aggregation: מקבל matplotlib גנרי. ספציפי: "stacked bar, x=month, y=revenue, hue=region, log scale."
שאלות שמגיעות תמיד
- "איך אני בכלל מעלה קובץ?", אייקון מהדק בצ'אט. CSV/XLSX/JSON. עד 20 קבצים × 30MB.
- "Claude באמת מריץ או רק כותב קוד?", שניהם. עם Analysis tool דלוק, רץ על שרת Anthropic. בלי, רק כותב לך קוד להעתיק.
- "איך אני מוציא את הקוד החוצה?", "תן לי את הקוד כ-notebook downloadable" או "כ-.py file." Claude יוצר את הקובץ ומאפשר הורדה.
- "קובץ > 30MB, מה לעשות?", split, sample (`head -n 100000`), או הרץ דרך Claude Code לוקלית כשהקובץ mounted.
- "Excel רב-גיליונות עובד?", כן, openpyxl/pandas יודעים לקרוא. לעריכה חיה, Claude for Excel add-in.
Pro tip, EDA in a loop
אחרי הרצה ראשונה, שאל את Claude: "איזה 5 שאלות היית שואל אם היה לך גישה לדאטה המלא?" חזור לדאטה, ענה עליהן, חזור ל-Claude עם התשובות. שני סבבים כאלה חושפים 80% מה-anomalies ב-dataset לפני שניגשים לבניית מודל. עם code_execution_20260120 ב-API, המשתנים שורדים בין קריאות, אז Claude לא צריך לטעון מחדש את ה-DataFrame בכל שאלה. זה משנה את ה-workflow מ-"שאלה אחת ארוכה" ל-"דיאלוג חי עם הדאטה." Sonnet 4.5 מספיק ל-90% מ-EDA tasks; שמור את Opus 4.7 לקבצים ענקיים או לשאלות ניתוח עסקי עמוק.
