Variance, Standard Deviation
שונות וסטיית תקן הם מדדים לפיזור. הם מבטאים את מידת הגיוון/ההבדלים/ההטרוגניות של ההתפלגות.
שונות היא מונח חשוב בתורת ההסתברות ובסטטיסטיקה. שונות היא מדד המבטא את מידת הפיזור של קבוצת ערכים מספריים סביב המרכז של ההתפלגות (הממוצע, התוחלת). שונות גבוהה משקפת התפלגות שבה הערכים מפוזרים ורחוקים מהמרכז. לעומת זאת, שונות קטנה משקפת התפלגות שבה הערכים קרובים ודומים זה לזה. בהתפלגות שבה אין פיזור בכלל, כלומר יש רק ערך אחד, השונות שווה לאפס.
המושג שונות מתייחס גם להתפלגות תיאורטית, כמו בהסתברות, וגם להתפלגות אמפירית, כמו בסטטיסטיקה תיאורית. בשני המקרים הרעיון זהה, אך הנוסחאות נכתבות אחרת. נציג כאן את הנוסחאות בהסתברות, הקשורות למשתנה מקרי בדיד ולמשתנה מקרי רציף.
Var\left(X\right)=\sum_{k}{{(k-\mu)}^2\cdot\\P(X=k)}
המשתנה המקרי מסומן ב:
\\X
התוחלת של המשתנה המקרי מסומנת ב:
\mu=E\left(X\right)
פונקציית ההסתברות של המשתנה המקרי מסומנת ב:
\\P(X=k)
לחישוב שונות של משתנה מקרי רציף משתמשים באינטגרלים במקום בסכימה.
Var\left(X\right)=\int_{-\infty}^{\infty}{{(x-\mu)}^2f\left(x\right)dx}
המשתנה המקרי מסומן ב:
\\X
התוחלת של המשתנה המקרי מסומנת ב:
\mu=E\left(X\right)
פונקציית הצפיפות של המשתנה המקרי מסומנת ב:
\\f(x)
השונות היא ממוצע משוקלל של ריבועי הסטיות סביב התוחלת. אם נגדיר ״מרחק״ כריבוע ההפרש מהתוחלת, אזי השונות מייצגת ״מרחק אופייני״ (ממוצע משוקלל של המרחקים). לכן ניתן לכתוב את השונות של משתנה מקרי כ״תוחלת של מרחקים מהתוחלת״, באופן הבא:
\\Var\left(X\right)=E\left[{(X-\mu)}^2\right]
נוסחה זו היא נוסחה כללית, הן למשתנה מקרי בדיד והן למשתנה מקרי רציף.
סימונים נוספים לשונות:
Var\left(X\right)=V\left(X\right)=\sigma^2=\sigma_X^2=\sigma^2(X)
הנוסחה של השונות כתוחלת המרחקים מבטאת במדויק את המשמעות של המדד, אך לצורך חישוב ידני עדיף להשתמש בנוסחאות העבודה הבאות:
נוסחת עבודה מקוצרת לחישוב שונות של משתנה מקרי בדיד:
Var\left(X\right)=\left[\sum_{k}{k^2\cdot\\P\left(X=k\right)\ }\right]-\mu^2
נוסחת עבודה מקוצרת לחישוב שונות של משתנה מקרי רציף:
Var\left(X\right)=\int_{-\infty}^{\infty}{x^2f\left(x\right)dx}-\left[\int_{-\infty}^{\infty}xf\left(x\right)dx\right]^2
ניתן לכתוב את נוסחת העבודה בצורה כללית, באופן הבא:
Var\left(X\right)=E\left(X^2\right)-\left[E\left(X\right)\right]^2
החיסרון הבולט של השונות הוא שיחידות המדידה אינן יחידות המדידה של המשתנה, כיוון שכל סטייה מועלית בריבוע. למשל, אם המשתנה מבטא רווח בדולר, אז השונות היא ביחידות של דולר בריבוע. הפתרון: להוציא שורש של השונות, וכך לחזור ליחידות המדידה המקוריות. השורש של השונות הוא גם מדד לפיזור, ונקרא: סטיית תקן.
מסמנים את סטיית התקן של משתנה מקרי באות היוונית סיגמה:
\sigma=\sqrt{Var(X)}
\\Var(c)=0
\\Var(X+b)=Var(X) \ \ \ \ \ \ \ \sqrt{Var\left(X+b\right)}=\sqrt{Var(X)}
Var\left(aX\right)=a^2Var\left(X\right)\ \ \ \ \ \sqrt{Var\left(aX\right)}=|a|\sqrt{Var(X)}
להלן טבלה עם הנוסחאות של השונות עבור התפלגויות בדידות נפוצות:
משתנה מקרי מתוקנן מתקבל על-ידי טרנספורמציה של משתנה מקרי. הטרנספורמציה מבוססת על התוחלת ועל סטיית התקן ויוצרת משתנה מקרי חדש שאין לו יחידת מדידה.
עבור משתנה מקרי X שסטיית התקן שלו איננה אפס ניתן להגדיר משתנה מקרי מתוקנן באופן הבא:
Z=\frac{X-\mu}{\sigma}
לכל ערך אפשרי של X, הערך המתאים של Z מבטא את המיקום היחסי של הערך ביחס לתוחלת, ביחידות של סטיית תקן. הערך המתקבל נקרא גם ציון תקן (standard score).
עבור המשתנה המתוקנן מתקיים:
E(Z)=0 \ \ \ \ \ \ Var(Z)=1
כאשר X מתפלג נורמלית המשתנה המקרי המתוקנן מתפלג נורמלית סטנדרטית. נעזרים בטבלת ההתפלגות הנורמלית הסטנדרטית כדי לחשב הסתברויות בכל התפלגות נורמלית, ע״י תקנון.
לשונות ולסטיית תקן יש הרבה יישומים, החל מחיזוי מזג האוויר ועד להערכת ביצועי ספורט. לדוגמה, חזאי מזג אוויר משתמש בשונות ובסטיית התקן כדי לשפר את הערכתו לגבי כמות הגשם הצפויה באזור מסוים. אנליסט ספורט משתמש בשונות ובסטיית תקן כדי לנתח ולהעריך ביצועי שחקן.
אז בין אם אתם מעוניינים ללמוד על שונות וסטיית תקן, ובין אם אתם מעוניינים להעמיק את ההבנה שלכם בנושאים נוספים בהסתברות, הקורס שלנו כולל את כל מה שאתם צריכים כבסיס להצלחתכם.
הירשמו עכשיו וגלו את העוצמה של למידה מבוססת אנימציה!
ואגב, אם תזדקקו לעזרה, תוכלו תמיד לפנות אלינו.