Cost Optimization ב-Cloud | בית הספר של Claude

30-40% מהחשבון שלכם הוא כסף שאפשר לחסוך עכשיו

מחקר של FinOps Foundation מ-2025 מראה שבממוצע, 30-40% מההוצאה על ענן הוא בזבוז, instances מיותרים, snapshots ישנים, NAT Gateway traffic שיכול לעבור בחינם. עבור סטארטאפ ת"א שמוציא 50,000 שקל בחודש על AWS, זה 15,000-20,000 שקל שאפשר לחסוך ברבעון הראשון.

הבעיה: לא לכולם יש FinOps consultant שעולה 80,000 שקל בחודש. Claude פותר את זה. אם תתנו לו את ה-Cost Explorer export שלכם, CloudWatch metrics, ו-resource inventory, תקבלו ניתוח ברמת consultant מקצועי תוך דקות. מחקר של Markaicode בחן 400+ resources ו-$2.3M הוצאה שנתית ומצא ש-workflow עם AI הוביל ל-42% הפחתה בהוצאה עם 85% פחות זמן ניתוח ידני.

שיעור זה מלמד: מה לתת לClaude, איך לנסח את הניתוח, ואיפה הטעויות שגורמות לכסף להיעלם בשקט.

שלב 0: אספו את הנתונים הנכונים

Claude לא יכול לנחש, הוא צריך נתונים. לפני שמגיעים לפרומפט, הכינו:

AWS Cost Explorer CSV, export של חודש אחרון, לפי שירות ולפי resource ID
CloudWatch metrics של EC2, CPU average ל-14 יום לפחות (לא 24 שעות, נתון זה מטעה)
RDS connection metrics, DatabaseConnections average, FreeableMemory
Trusted Advisor export, כבר מסמן low utilization, idle load balancers, EIPs לא בשימוש
NAT Gateway data transfer, bytes processed לפי subnet ו-destination

עם חמשת הנתונים האלה Claude מנתח ברמה שה-CTO שלכם ציפה לה, ולא נחשה.

פרומפט 1: Cost Audit מקיף

הפרומפט הבסיסי לניתוח כולל. העתיקו, מלאו את הנתונים, שלחו:

אתה AWS FinOps consultant עם ניסיון ב-cost optimization לSaaS companies.
נתח את הנתונים הבאים ומצא הזדמנויות חיסכון:

AWS Cost Explorer, חודש אחרון (CSV):
[הדבק כאן]

EC2 Instances ו-CloudWatch CPU metrics, average 14 יום:
[הדבק כאן]

RDS instances, connections ו-FreeableMemory:
[הדבק כאן]

נתח:
1. EC2 Rightsizing, instances עם CPU avg < 15% (הצע tier קטן יותר)
2. Reserved Instances opportunity, instances שרצים 720+ שעות/חודש
3. Savings Plans vs Reserved, מה מתאים לפרופיל שלנו
4. NAT Gateway vs VPC Endpoints, traffic שיכול לעבור בחינם
5. S3 Storage Classes, objects שלא נגשים אליהם ויכולים לעבור לGlacier
6. Snapshots ו-AMIs ישנים שניתן למחוק (רק אחרי אישור compliance)
7. Idle resources, load balancers ריקים, EIPs לא מחוברים

פלט נדרש:
- טבלה: שירות | עלות נוכחית | עלות משוערת | חיסכון חודשי | חיסכון שנתי
- עדיפויות: quick wins (שבוע) / medium (חודש) / long term (רבעון)
- risk level לכל שינוי: low / medium / high
- ROI לReserved Instances: 1 שנה vs 3 שנים עם breakeven point

שלושה אלמנטים שמשדרגים את הפרומפט הזה: "FinOps consultant" מכוון את Claude לחשוב בשפה של חיסכון-מול-סיכון ולא רק טכניקה. "quick wins vs long term" נותן prioritization שניתן להציג ל-CFO מיד. "risk level" מבדיל בין rightsizing של dev instance (low) לבין RDS production (high).

עזור לי לחסוך בAWS

אתה AWS FinOps consultant. נתח CloudWatch CPU metrics של EC2 (14 יום average) ו-Cost Explorer CSV (חודש אחרון). מצא: EC2 rightsizing (CPU avg < 15%), Reserved Instances ROI (1y vs 3y), NAT Gateway vs VPC Endpoints savings, S3 storage class optimization. פלט: טבלה עם חיסכון חודשי ושנתי + סדר עדיפויות (quick wins / medium / long term) + risk level לכל פריט.

פרומפט 2: Spot Instance Strategy

Spot Instances עולים עד 90% פחות מ-On-Demand. הסיכון: AWS יכול לקחת אותם בחזרה עם 2 דקות אזהרה בלבד. Claude מסייע לבנות ארכיטקטורה שמוכנה לכך:

כתוב Terraform לAuto Scaling Group עם Spot instances:

פרטי workload:
- ECS service: ~10M req/day, peak שעות 08:00-22:00 ישראל
- Instance types מועדפים: m5.xlarge, m5a.xlarge, m5.2xlarge, m4.xlarge
- Min: 2 On-Demand תמיד זמינים, Max: 20 instances
- יעד: 70% Spot, 30% On-Demand

דרישות:
- Mixed Instances Policy עם 4 types לפחות (מפחית interruptions)
- Spot Interruption Handler: Lambda שמקבל notification ומבצע graceful drain
- Capacity Rebalancing מופעל
- Fallback אוטומטי לOn-Demand אם אין Spot capacity
- CloudWatch alarm שmניטר שיעור Spot interruptions

הסבר: כמה חוסכים ב-Spot vs On-Demand ומה ה-breakeven.

הסיבה שמבקשים 4 instance types: אם m5.xlarge נדיר באזור מסוים, ה-ASG עובר ל-m5a.xlarge אוטומטית, Interruption פחות סביר. הסיבה שמבקשים Lambda לinterruption: AWS שולח 2 דקות אזהרה לפני הורדת instance, Lambda שמקבל ב-EventBridge מסיר מה-load balancer ומסיים בקשות פעילות לפני שה-instance נעצר.

Cost Attribution, מי אוכל את התקציב

אחת הבעיות הנפוצות בחברות ישראליות: חשבון AWS מגיע ל-$50,000 ואף אחד לא יודע מי אחראי לאיזה חלק. Claude עוזר לבנות tagging strategy שמחסל את הבעיה:

כתוב AWS tagging strategy שמאפשר cost attribution לפי teams:

Tags נדרשים לכל resource:
- Environment (prod/staging/dev)
- Team (backend/frontend/data/devops)
- Service (api/worker/ml-pipeline)
- CostCenter (קוד מחלקה לFP&A)
- Project (שם הפרויקט)

כולל:
- AWS Config rule שמזהיר על resources ללא required tags
- Terraform module שמאלץ tags על כל resource ומכשיל plan אם חסרים
- Athena query שמחשב עלות לפי Team מתוך CUR (Cost and Usage Report)
- Grafana dashboard: cost per team בזמן אמת + trend 30 יום
- SNS alert: אם team עולה > 20% מהחודש הקודם, alert לmanager

Reserved Instances הם ל-1 שנה, Savings Plans ל-3 שנים

Reserved Instances קשורים ל-instance type ו-region ספציפיים. Savings Plans חלים על כל EC2 type בכל region

Savings Plans מיועדים רק לinstances קטנים (t3, t2)

Reserved Instances זולים יותר תמיד מSavings Plans

טעויות נפוצות שעולות כסף

Rightsizing לפי CPU average בלבד: instance-1 יכול להיות 8% CPU average אבל 85% memory usage. הורדה מ-m5.2xlarge ל-m5.xlarge חוסכת 50% בעלות, אבל אם memory לא מספיקה, תגיעו לOOM בשעת שיא. תמיד בדקו P99 memory בנוסף ל-CPU average.
קניית 3-year Reserved Instances לפני migration לGraviton: אם אתם מתכננים לעבור לARM-based instances בשנה הקרובה, Savings Plans גמישים הרבה יותר, ה-discount ממשיך לחול גם אחרי שינוי ה-type.
מחיקת EBS snapshots ישנים ללא בדיקת compliance: SOC2 דורש retention של שנה לפחות. snapshot שנראה ישן אולי נדרש לaudit. לפני מחיקה, בדקו מהי retention policy הנדרשת בארגון שלכם.
NAT Gateway per AZ ללא בדיקת traffic patterns: 3 NAT Gateways לhigh availability עולים כ-$130/חודש בתוספת עלות traffic. אם ה-services שלכם לא חוצים AZs בפועל, לפעמים NAT Gateway אחד מספיק עם failover ידני.

VPC Endpoints, חיסכון שרוב החברות מפספסות

כל traffic מ-EC2 לS3, DynamoDB, ECR, או SSM שעובר דרך NAT Gateway עולה $0.045 לGB. חברה ישראלית עם workload שמוריד 10TB בחודש מ-S3 דרך NAT Gateway משלמת $450 בחודש, $5,400 בשנה, כשפתרון חינמי קיים. VPC Gateway Endpoint לS3 ולDynamoDB הוא בחינם לחלוטין, מוסיפים אותו ב-10 דקות, וה-traffic עובר ישירות בתוך ה-AWS backbone.

FinOps Ritual, 60 דקות לחודש שמחזירים אלפי דולרים

הגישה שעובדת לחברות שמנהלות ענן בצורה מוצלחת: ב-1 לכל חודש, מייצאים AWS Cost Explorer CSV ומפרידים לפי שירות. Claude Opus 4.7 מנתח את הנתונים עם השוואה לחודש הקודם: "מה השתנה? איפה יש spike? מה ה-trend של 3 חודשים?". עם Claude Sonnet 4.6 בונים dashboard שמנטר budget alerts בזמן אמת. חברות שמיישמות גישה זו מדווחות על חיסכון של 25-40% תוך הרבעון הראשון.

טיפ קטן שמשנה הרבה: בקשו מClaude לא רק לזהות בזבוז, בקשו ממנו גם להסביר למה זה קרה. "NAT Gateway traffic עלה פי 3 מהחודש שעבר" הוא ממצא. "NAT Gateway עלה כי service חדש שנפרס ב-27 לחודש מוריד Docker images מ-ECR Public במקום Private ECR עם VPC Endpoint", זה ידע שמונע את הבעיה בעתיד.