דרישות:
ניסיון של לפחות 3 שנים כ Data engineer - חובה
ניסיון של 3 שנים עם Python – בדגש על עבודה עם קבצי json ;ועבודה מ
ול בסיסי נתונים – חובה
ניסיון מעשי של שנתיים לפחות ב AWS עם services של Athena/Glue/StepFunction/EMR/R
edshift/RDS – חובה
עבודה מול קבצי טקסט למטרות AI ו LLM– יתרון משמעותי
ניסיון מעשי עם Spark עבור Large scale data -יתרון משמעותי
עבודה מול שירותי REST API -יתרון משמעותי
הבנות של טכניקות של אופטימיזציה ועבודה עם partitions של סוגים שונים של דאטה כמו parquet, Avro, hdfs, delta lake
ניסיון בתפיסה ועבודה עם docker, Linux, CI/CD tools, Kubernetes
הכרות עם פתרונות GenAI / prompt engineering – יתרון משמעותי
דגשים נוספים מיחידה מקצועית:
ניסיון ב-AWS חובה.
שירותים מרכזיים – glue, step function, lambda, sqs \ sns.
יתרון משמעותי – הכירות עם redshift ו-kafka, עבודה עם APIs
אפשר לשקול אולי מועמדים איכותיים עם ניסיון בשירותים אחרים, אבל מי שלא עבד בסביבת AWS [או סביבת ענן] כלשהי – לא רלוונטי.
ניסיון רב בכתיבת קוד פונקציונלי ב-python ותהליכי ETL מורכבים, כולל הקמת תשתיות / תבניות גנריות לניהול תהליכי ETL. לפחות 5 שנים.
במילים אחרות – לא רק כתיבת תהליכי ETL / ELT, אלא גם כתיבת תהליכים תומכים כגון בקרות, ניהול גנרי של תהליכים, עבודה עם פרמטרים וכו'
ניסיון בפריסת שירותים – יתרון משמעותי. ניסיון בפריסת מודלים ב-sagemaker – יתרון משמעותי מאוד.
ניסיון בכתיבת micro services – יתרון משמעותי