אז גלית דיסטל-אטבראין, הצליחה לעצבן אותי, גבר-יהודי-אשכנזי.
למי שלא מכיר, תקציר הפרשה היא שגלית אטבראין העלתה פוסט הקובל על כך שבשם התקינות הפוליטית אסור ללמד ולהזכיר אמיתות שלא תואמות את האידיאולוגיה הפרוגרסיבית וחשיבות ה"תחושה" של שויון. והביאה דוגמה ממחקר לפיו "הגבר היהודי האשכנזי יותר אינטליגנטי מ 80% מהאוכלוסייה האנושית […] פעם אחר פעם אחר פעם הגבר היהודי האשכנזי מוציא את הציון הכי גבוה באופן עקבי ביותר ומשאיר כל קבוצה אנושית אחרת בעולם הרבה מאחוריו" אבל "ממצאי המחקר הזה הושתקו ומי שמעז לציין אותם דינו הוא מוות." ואכן בעקבות העלאת הפוסט היא נחסמה בפייסבוק. ובעידן שלנו יש בזה קצת טעם של מוות…
אז למה התעצבנתי?!
כי קודם כל נתונים לא מלמדים דבר בלי פרשנות והפרשנות של גלית היא פשטנית מידי. עוד לפני שנבקש לראות את המחקר, שיטת המחקר והתוצאות. נניח לצורך הענין שהמחקר התקיים, מקצועי ואין בו פגמים, ואלו התוצאות. וגם נניח רגע לדיון הפוליטי ונניח שאין בעיה להסתיר נתונים בשביל "התחושה" כפי שמסתירים נתונים על מנהרות ופיגועים קטנים – בשביל "תחושת הביטחון".
בואו נדבר על נתונים ופרשנות.
כשזורקים נתון כזה בצורה כזו, זה יוצר רושם שיש פער גדול גם בין גבר יהודי אשכנזי מול אשתו / יהודי מזרחי / גוי אירופאי. אבל צריך לזכור שרוב אוכלוסיית העולם הם בורים ונחשלים, והחכמה מחולקת בצורת פעמון, רוב האוכלוסייה לא חכמה, וחלק קטן מהאוכלוסיה חכם.
וההבדל הגדול בין חכמים ללא חכמים הוא בין אלו שחיים ונטמעים בסביבה מודרנית שמחנכת לחכמה, לבין אלו שמחוץ לסיפור הזה. אבל בתוך הסביבה המודרנית הפערים קטנים בהרבה. ואם נבדוק לא-גבר, לא-יהודי, לא-אשכנזי, ולדוגמה אשה ערביה, שחיה בסביבה מודרנית הכוללת מסלול חינוך המכוון לרכישת ידע ומתודולוגיית חשיבה, לימודי מקצוע ו/או השכלה גבוהה, אנחנו נמצא שגם היא נמצאת במיקום גבוה והיא חכמה יותר באחוזים ניכרים מאוכלוסיית העולם. כי בתוך האוכלוסיה החכמה עצמה, הפערים קטנים בהרבה. ואין הבדל משמעותי.
זה כמו שגבר יהודי אשכנזי ממוצע משתכר יותר מ80% מאוכלוסיית העולם (ישראל מדורגת במקום 27 בעולם, וסביר להניח שבניכוי חרדים וערבים שלא משקפים את נתוני השוק – השכר גבוה יותר. מה גם שהמדינות למטה הן מדינות ענק, דוגמת סין והודו). אבל בתוך המדינות המפותחות, הפערים בין גבר/אשה יהודי/לא יהודי קטנים בהרבה.
הבנה שגויה של הנתונים מאפשרת להצדיק תופעות שונות של התנהגות לא ראויה, אז נכון שגלית הדגישה בפוסט שלה שזה לא מצדיק כלום וכו'. אבל הי, יחשוב לעצמו גבר-יהודי-אשכנזי אם אני חכם יותר מ80% מהאוכלוסיה, גם מגיע לי יותר. זה טבעו של האדם. ושני הדברים לא נכונים.
הנתון הפופוליסטי הזה מצטרף לשורת מקרים שמעלים תהיות לגבי עתיד הנתונים והסטטיסטיקות בהם אנו עושים שימוש. ואני רוצה להרחיב.
בעולם כל כך מורכב, אנחנו מחפשים עוגנים ויציבות. בעולם כל כך לא צפוי, אנחנו מחפשים למצוא סדר ומידע סטטיסטי שיאפשרו לנו לחזות את העתיד. ובקיצור, אנחנו מסתמכים יותר ויותר על נתונים וחישובים.
עיבוד הנתונים והחישובים השונים מלווים אותנו היום מכל כיון, זה מתחיל בשאלות פשוטות של כמה לייקים יש לפוסט, כשמאחורי זה יש חישוב השוואתי – כמה לייקים היו לפוסטים הקודמים שלנו, וכמה שיתופים קיבל החתול של החבר, כמה עוקבים יש לח"כ זה וכמה יש לח"כ ההוא. זה ממשיך לשאלות כבדות יותר כמו האם המשקל שלנו תקין? – תקין ביחס לסטטיסטיקה כמובן. והאם השכר תואם לממוצע בתחום, האם 300 ש"ח לחשבון מים למשפחה עם 4 נפשות זה קצת או הרבה. וזה עובר לשאלות כבדות עוד יותר כמו כמה אנשים חיים מתחת לקו העוני, ובכמה גדל תקציב הביטחון לעומת שנים קודמות, ועד לניסיון לחזות/להתכונן לעתיד, והאם תצביע בבחירות ליש עתיד, כמה חרדים וערבים יהיו בעוד עשור, כמה יתגייסו לצה"ל, והאם מחירי הדירות והמניות הן במגמת עליה או ירידה.
ואפשר להמשיך עוד ועוד. בסופו של דבר אחד ההבדלים המרכזיים בין החיים הפרימיטיבים לבין החיים המודרניים – טמון ביכולת הממוחשבת לאגור נתונים, לנתח אותם, להפעיל עליהם חישובים, להציג אותם בגרפים ולהסיק מסקנות שמאפשר לנו לתכנן את החיים בצורה יעילה. וזאת לעומת החיים ללא נתונים, סקרים וסטטיסטיקות – כך שהאנשים מוצאים את עצמם מגששים באפלה.
אבל היופי שבנתונים הכתובים שחור על גבי לבן, או מופיעים בגרפים צבעונים וברורים, הוא יופי המסמא את עיני השכל ומכבה את תאי המוח.
בשנתיים האחרונות עסקתי במסגרת העבודה באיסוף ושמירה, עיבוד וניתוח נתונים פיננסיים/עסקיים בחברה בה אני עובד. ואלה מסקנות הביניים שלי:
1 .קשה לאגור נתונים אמינים
בעולם הנתונים יש 3 סוגי נתונים:
א. נתונים שנסמכים על אנשים – לדוגמה סקרי בחירות, וסקרים בכלל, מחקרי דעת קהל ועוד.
אלה הנתונים הפחות אמינים. כיון שהתשובות תלויות בשאלות שנשאלו, בניסוח שלהן, בהבנת הנשאל, וברצון הנשאל לענות באופן פתוח וישיר מבלי להסתיר או לעוות את עמדתו.
ב. נתונים המקשרים בין אנשים למחשבים – לדוגמה כמות הפעמים שאדם נכנס לאתר, כמות השעות שאדם האזין למוזיקה שלו בספוטיפיי. או קופה בחנות שרושמת כל עסקה.
אלו נתונים אמינים יותר, כיון שהמחשב לא תלוי באדם וברמת ההבנה ושיתוף הפעולה שלו. אבל עדיין לא מדובר בנתונים מדוייקים, כיון שלפעמים אדם נכנס לאותו אתר משני מחשבים, או מדפדפן שלא מאפשר מעקב. ולגבי שעות האזנה, מי אמר שהאוזניות נמצאות על האוזניים? אמנם המחשב השמיע, אבל לא בהכרח היה מאזין. ולגבי הקופה הרושמת, הרי אפשר גם לבצע מכירות בלי רישום. כסף שחור…
ג. נתונים ממקור ראשון ממוחשב – לדוגמה כמות הפעמים שהמחשב או שרת עשה פעולה כלשהי.
אלה הנתונים הכי אמינים יחסית לשאר, כי אמנם יתכנו באגים ושיבושים, אבל כל עוד התוכנה עברה בדיקות ואימות שהיא פועלת נכון. אפשר להתייחס לנתונים כנתוני ברזל כי המחשב לא מתבלבל.
2. קשה לפרש את הנתונים
אחרי שיש נתונים, מתחילה הבעיה האמיתית של פירוש הנתונים. ודוקא כאן, ככל שהנתונים אמינים יותר כך הם מסוכנים יותר. כיון שרמת אמינות גבוהה של הנתון – נותן גם ביטחון גבוה בפרשנות. בעוד שתחום הפרשנות של נתונים הוא לחלוטין נסמך על אנשים, ואנשים כידוע אוהבים לפרש את המציאות לפי האמונות והדעות שלהם.
דוגמה לכך אפשר למצוא ב"גוגל טרנדס" שם מופיע שבישראל של 2018 מונח החיפוש הפופולרי בקטגוריית ה"איך" היתה השאלה "איך מדליקים חנוכיה" זה נתון שלכאורה אי אפשר להתווכח איתו, כיון שהשרתים של גוגל ביצעו את החיפוש הזה והוא לא תלוי בדעה או האם האדם שחיפש את המונח – גם נכנס לתוצאות או הדליק חנוכיה בפועל. וזה מלמד לכאורה על התעניינות גוברת של הישראלים ביהדות או לפחות במסורת.
אבל בפועל, לא מדובר בנתון ממוחשב יבש. ששני מליון אנשים חיפשו את המונח הזה. מדובר בנתונים שעברו חישוב של "פופולריות", או בלשון גוגל "מידת העניין לאורך זמן". כיון שאנשים חיפשו את "איך מדליקים חנוכיה" רק בשבוע של חנוכה. ממילא מדובר בשאלה שאנשים חיפשו הכי הרבה פעמים בשבוע אחד. לעומת "איך מכינים סליים" שבחנוכה חיפשו אותו רק 15% מאותה כמות.
אבל את השאלה "איך מכינים סליים" שאלו לאורך השנה הרבה הרבה היותר מאשר "איך מדליקים חנוכיה" כמה הרבה? במחוז תל אביב ששם שאלו הכי הרבה "איך מדליקים חנוכיה" היחס הוא הפוך 86% לסליים, ורק 14% לחנוכיה. זאת אומרת שנתון הפופולריות של "איך מדליקים חנוכיה" לא יכול להוות אינדיקציה לכלום. כי ברור שאנשים לא יחפשו לאורך השנה "איך מדליקים חנוכיה".
אז אולי אפשר להשוות בין השנים? ככל שתהיה עליה בחיפוש "איך מדליקים חנוכיה".משנה לשנה כך נדע שיש יותר התעניינות במסורת?!
ובכן, בדיוק להיפך! מי שמתעניין במסורת יודע איך להדליק חנוכיה. והסיבה שמחוז תל אביב מוביל בחיפושים של "איך להדליק חנוכיה" הוא בגלל שזה המחוז המנותק ביותר ממסורת. כך שעליה בחיפושים תעיד על עליה בניתוק…
דוגמה נוספת לקושי בפירוש נתונים אפשר למצוא בנתונים הבאים: בבחירות העירוניות האחרונות בירושלים התברר שהיתה ירידה בשיעור ההצבעה, רק35% מבעלי זכות ההצבעה ממשו את זכות ההצבעה, לעומת 39% בפעם הקודמת. אלו נתונים עובדתיים. די אמינים בסך הכל.
והנטיה של פרשנים היא להתמקד בסיבות שגרמו לאנשים לא להצביע, אולי הייאוש, אולי צריך לחזק את הקמפיינים. אבל, הפירוש הפשוט יותר הוא שהמגזר הערבי בירושלים גדל בכמה אחוזים. וכיון שהוא לא מצביע – ממילא נרשמה ירידה בשיעור ההצבעה.
3. קשה לראות מחוץ לקופסת הנתונים
הבעיה הקשה עוד יותר של עולם הנתונים. הוא שהוא משמש כפנס שנוח לחפש תחתיו את מה שנאבד, במקום לחפש במקום שבו אכן נאבד.
ככל שהנתונים אמינים יותר והביטחון בפרשנות גבוה יותר, עולה הסיכון לשיבוש מוחלט של הבנת הדברים.
יש את הסיפור המוכר של מהנדסי המטוסים, שלאחר מלחמת העולם השניה מיפו את פגיעות המטוסים שהשתתפו בלחימה, והחלו לתכנן את הדור הבא של המטוסים הכוללים חיזוק והגנה בחלקי המטוס שהתבררו כפגיעים. עד שבא מי שחשב מחוץ לקופסת הנתונים והפריך את הגישה הזו, שהרי מיפו את הפגיעות של המטוסים שחזרו מהלחימה. כלומר, שאותם חלקים שנפגעו עדיין מאפשרים למטוס לחזור בשלום. ואם רוצים להגן באמת על המטוסים – צריך למצוא את המטוסים שנפלו ולחקור אותם, כי רק מהם ניתן ללמוד מה גורם למטוס ליפול.
וכיום, זה רק הולך ומחמיר. דוגמה פשוטה, התומכים בזרם חינוך "ממלכתי חרדי" מביאים נתונים המלמדים על זינוק בביקוש לחינוך ממלכתי חרדי. אבל אם מסתכלים מחוץ לקופסה, אפשר לראות שיש הרבה יותר חרדים שבוחרים *לא* לשלוח לחינוך ה"ממלכתי חרדי" על אף שיש מוסדות. מה שמלמד שההתנגדות החרדית לזרם חינוך זה היא חזקה הרבה יותר ממה שחשבנו. אם בעבר היה אפשר לחשוב שאין ביקוש – בגלל שאין היצע. כיום המצב הוא הפוך, יש תקציבים שמנים שמחכים ליזמים בתחום, אבל אין ביקוש. או יותר מדוייק, כיום יש זינוק מטאורי במספר החרדים שמעדיפים מבחירה את החינוך החרדי הרגיל מול החרדי-הממלכתי.
למי שלא נוח לו עם זה, שיחשוב על המקרה הבא: שכונה של 500 איש שאין שם חנות של מוצרי בריאות, קמח מלא, ללא סוכר וכו'. אי אפשר לדעת האם יש לזה ביקוש או לא. יזם החליט לנסות את מזלו ופתח את החנות מתוך ידיעה שכדי להחזיק אותה כלכלית הוא זקוק ל50 לקוחות ביום, והנה בשבוע הראשון ביקר אדם אחד, בשבוע השני ביקרו שניים (200% ביחס לשבוע הראשון!), בשבוע השלישי שלושה (300% ביחס לשבוע הראשון), וכן הלאה. האם ניתן ללמוד מכאן על צמיחה מטאורית מאדם אחד לשלושה, או להיפך, השכונה מצביעה ברגליים שהחנות הזו לא מעניינת?!
——-
ולסיכום: אנחנו, כאנשים מהשורה שאיננו סטטיסטיקאים ואיננו מתמטיקאים, עלינו להפעיל שלושה מסננים לפני שמתייחסים ברצינות למחקר ונתוני סטטיסטיקה: 1. האם מקור הנתונים אמין דיו. 2. האם הפירוש שניתן לנתונים הוא חד משמעי או שאפשר לפרש אותם באופן אחר. 3. האם יש עוד נתונים רלוונטים שלא נמצאים לפנינו במסגרת הנתונים עליהם מדובר.
ואי אפשר לסיים בלי נתונים די אמינים: זה עתה קראתם 1,600 מילה, ו9,200 תווים כולל רווחים.
מה המשמעות של זה? מבחינתי, תודה!