Data Analysis ו-EDA עם Claude

📚 AI / ML ⏱️ 10 דק׳ 🎓 מתחילים ✓ חינם לגמרי
Data Analysis ו-EDA עם Claude

Data Analysis ו-EDA עם Claude, מ-CSV לתובנות בלי לכתוב pandas

אנליסטית בחברת ecommerce ישראלית קיבלה ב-08:00 קובץ sales_q1_2026.csv במייל מה-CFO: "תגידי לי עד הצהריים מה קרה ברבעון." 380,000 שורות, 22 עמודות, חצי מהן בעברית. במקום לפתוח Jupyter, היא גררה את הקובץ ל-claude.ai, כתבה "shape, dtypes, missing per column, top outliers ב-revenue, ו-bar chart הכנסה חודשית לפי region", וקיבלה ניתוח מלא עם גרפים מוכנים תוך 4 דקות. ב-2026 Claude לא רק כותב קוד pandas, הוא מריץ אותו על השרת של Anthropic, חי, מול הקובץ שלך.

השיעור הזה מסביר את שלושת המשטחים השונים שבהם Claude עושה EDA היום (Analysis tool, API code execution, Claude for Excel), מתי כל אחד נכון, ואיך להוציא מקסימום ערך תוך 10-30 דקות.

שלושת המשטחים, אל תבלבל ביניהם

זו ההבחנה שמבלבלת הכי הרבה אנשים. Claude מציע היום שלוש דרכים שונות לנתח קובץ נתונים, ולכל אחת use case שונה:

משטחמה זהמתי להשתמש
claude.ai Analysis toolגרירת קובץ לצ'אט. רץ בסנדבוקס Ubuntu 24.04 + Python 3.12 + 9GB RAM. תקרת קובץ: 30MB.EDA חד-פעמי, קובץ קטן/בינוני, רוצה גרף + insights בלי להתעסק בסביבה.
API code_execution_20260120אותו סנדבוקס דרך ה-API, עם REPL state persistence, משתנים שורדים בין קריאות.workflow חוזר, agent שמנתח 50 קבצים ביום, אינטגרציה לפנים.
Claude for Excelתוסף רשמי שעובד בתוך ה-workbook החי שלך.אנליסט שחי ב-Excel, רוצה Claude כ-co-pilot על תאים אמיתיים.

נקודה קריטית: Code execution הוא חינם כש-bundled עם web_search או web_fetch (לפי docs רשמיים), אבל לא Zero-Data-Retention eligible. אם יש לך PII או דאטה רגולטורי, אל תעלה ל-claude.ai. הרץ דרך Claude Code לוקלית או דרך API עם retention controls.

מתי לא להריץ קוד בכלל, להשתמש ב-1M context

Opus 4.7 עם 1M context (GA פברואר 2026, ללא premium pricing) פותח workflow חדש: הדבק את כל ה-CSV כטקסט (~700K tokens), שאל שאלה חופשית. עובד מצוין ל-summarization וסקירה רחבה. אבל, מבקורת MindStudio: "Opus 4.7 is noticeably weaker than Opus 4.6 at certain needle-in-a-haystack tasks within extended contexts." כלומר אל תבקש "מצא את שורה 47,231 שבה revenue שלילי", תן לו לכתוב df.query() במקום.

עץ החלטה מהיר:

10MB לקובץ
30MB לקובץ, עד 20 קבצים בצ'אט
100MB לקובץ
512MB לקובץ
Claude לא מאפשר התקנת חבילות, ChatGPT כן
Claude מאפשר pip install (PyPI/npm allowlisted), אבל ChatGPT מקבל קבצים גדולים יותר (512MB vs 30MB)
Claude מריץ JavaScript, ChatGPT מריץ Python
רק ChatGPT תומך בקבצי Excel
למחוק את כל השורות עם missing
imputation ב-mean של כל העמודה
flag ימי חג כ-feature נפרד ו-impute ב-0 או median של ימי חג
forward fill מהיום הקודם

פרומפט EDA חזק, תבנית לעבודה

אתה senior data analyst. צרפתי קובץ deals_q1_2026.csv (עסקאות נדל\"ן
ת\"א-מרכז, ~50K שורות, עמודות: city, neighborhood, size_sqm, rooms,
floor, year_built, price_ils, date_sold).

הרץ EDA בסנדבוקס:
1. df.shape, df.dtypes, df.describe(include='all')
2. missing per column (אחוז), סדר יורד
3. outliers ב-price_ils ו-size_sqm לפי IQR (1.5x)
4. top-10 שכונות לפי median price/sqm
5. correlation matrix לעמודות numeric (|r| > 0.4 בלבד)
6. גרף 1: bar, median price/sqm לפי שכונה (top 15)
7. גרף 2: line, מחיר חציוני חודשי לאורך הזמן
8. גרף 3: heatmap, rooms vs floor → median price
9. 5 anomalies שראית
10. 3 hypotheses לבדיקה נוספת

החזר: גרפים מוכנים + הקוד שלך כ-.py downloadable.

למה זה עובד: יש shape של הדאטה, יש מספר shimor של פעולות, ויש דרישה אופרטיבית לפלט (גרפים + קוד מורד). Claude יודע בדיוק מה לעשות, וממה להימנע.

נתח את ה-CSV הזה
אתה senior data analyst. צרפתי sales_2026.csv (220K שורות, עמודות: order_id, customer_id, region [5 ערכים], product_category [12], revenue_ils, order_date). הרץ EDA בסנדבוקס: (1) shape + dtypes + missing% (2) revenue distribution per region + box plot (3) top-10 ימים לפי הכנסה (4) seasonality חודשית, line chart (5) 3 anomalies. החזר גרפים + הקוד כ-.py.

גוצ'ה עברית, UTF-8 לעמודות בעברית

Claude מצוין בעברית, אבל pandas לפעמים נכשל בקריאת CSV עם שמות עמודות בעברית או ערכים בעברית. הוסף לפרומפט: קרא עם pd.read_csv(path, encoding='utf-8'). אם encoding שגוי, נסה 'utf-8-sig' (Excel BOM) או 'cp1255' (Windows-Hebrew ישן). זה חוסך שעת דיבוג. גם בגרפים, matplotlib לא רנדר עברית by default; בקש מ-Claude להגדיר font עברי (DejaVu Sans / Arial Hebrew) ו-bidi reshaping.

טעויות נפוצות

שאלות שמגיעות תמיד

Pro tip, EDA in a loop

אחרי הרצה ראשונה, שאל את Claude: "איזה 5 שאלות היית שואל אם היה לך גישה לדאטה המלא?" חזור לדאטה, ענה עליהן, חזור ל-Claude עם התשובות. שני סבבים כאלה חושפים 80% מה-anomalies ב-dataset לפני שניגשים לבניית מודל. עם code_execution_20260120 ב-API, המשתנים שורדים בין קריאות, אז Claude לא צריך לטעון מחדש את ה-DataFrame בכל שאלה. זה משנה את ה-workflow מ-"שאלה אחת ארוכה" ל-"דיאלוג חי עם הדאטה." Sonnet 4.5 מספיק ל-90% מ-EDA tasks; שמור את Opus 4.7 לקבצים ענקיים או לשאלות ניתוח עסקי עמוק.

רוצה ללמוד עם מעקב התקדמות, קוויזים ותעודה?

כל 130 השיעורים פתוחים בחינם, כולל נגן אינטראקטיבי, שמירת התקדמות ותעודה דיגיטלית בסיום.