כיצד ביג דאטה משנה את חיי היומיום ברחבי אמריקה?

הרעיון של 'נתונים גדולים' הפך למקובל בכל מקום, מה זה ואיך הוא משנה את דרך חיינו? ישבנו עם מדען הנתונים, הדוקטורט בהרווארד והמועמד לפרס הספר הלאומי קתי אוניל כדי לברר זאת.

CT: בואו נתחיל עם היסודות - מה זה בדיוק 'נתונים גדולים'?

CO: נתונים גדולים הם גישה חדשה לחיזוי דברים. ליתר דיוק, 'נתונים גדולים' הוא השימוש בנתונים שנאספו אגב - כמו האופן שבו אתה מחפש בדפדפן שלך או מה שאתה עושה בפייסבוק - כדי להסיק דברים עליך, כמו מה שאתה הולך לקנות או מה השייכות הפוליטית שלך. זו דרך עקיפה להבין אנשים. לדוגמה, מצלמה הסוקרת אותנו לא שואלת 'מה אתה עושה?' זה רק צריך לראות מה אנחנו עושים.

CT: ומה אלגוריתם?

CO: אלגוריתמים הם חישובים שמפרשים את הנתונים שנאספו אודותיך כדי ליצור חיזוי. חשבו על זה כמו משוואה מתמטית שמנסה לענות על שאלה שממוסגרת כחיזוי, כמו: 'האם האדם הזה עומד לקנות משהו?' או 'האם אדם זה עומד להצביע למישהו?'

CT: מדוע אני שומע כל כך הרבה על זה כרגע?

CO: לפני 'נתונים גדולים', הסטטיסטיקאים היו עושים דברים יקרים כמו סקר אנשים כדי להבין את העתיד. לדוגמא, לשאול אנשים שאלות ישירות כמו: 'למי אתה תצביע?' כעת, אנו מסתמכים יותר ויותר על 'פליטה של נתונים', וזה מה שאני מכנה את הנתונים שנאספים עליך כל הזמן, כדי להסיק דברים עליך.

לפני 'נתונים גדולים' היו לחברות רק ניחושים פרועים לעשות. כעת, יש לנו טוב יותר מנחושים פרועים. מה שמפתיע הוא שמרבית אלגוריתמי הנתונים הגדולים אינם מדויקים בטבע, ואין סיבה לחשוב שהם צודקים. אבל הם טובים יותר מנחושים פרועים. וזו הסיבה שהנתונים הגדולים המריאו כמו שהיו.

CT: אם הם לא מדויקים, אז מה הם משקפים?

CO: מערכי הנתונים הפגומים שאנו מאכילים אותם. האלגוריתמים לא יודעים שום דבר מעבר למה שאנחנו אומרים להם. אז כשיש לנו נתונים לא אחידים ואנו מזינים את זה לאלגוריתם, או נתונים מוטים, הוא יחשוב שזו המציאות.

איילה ג'ונסון / © טיול תרבות

CT: מהי דוגמא בעולם האמיתי לזה?

המפקח: דוגמה יכולה להיות שבארצות הברית אנשים שחורים הם פי חמש פעמים הם נעצרים יותר בגלל עישון סיר מאשר אנשים לבנים. זה לא מכיוון שאנשים שחורים מעשנים סיר לעתים קרובות יותר - שתי הקבוצות מעשנות סיר באותו קצב. אנשים שחורים פשוט יותר נעצרים בגלל זה. אם תעביר את זה לאלגוריתם, שאנו עושים זאת, זה יביא נכון כי אנשים שחורים הם הרבה יותר סיכויים, בעתיד, להיעצר בגלל עישון סיר. ואז זה ייתן לאנשים שחורים ציוני סיכון גבוהים יותר לפשיעה, וזה משפיע על גזר הדין הפלילי.

דוגמא נוספת היא ניסוי מחשבה. אני אשתמש ב"פוקס ניוז ", מכיוון שלפוקס ניוז היו התפרצויות שקשורות לאחרונה לתרבות פנימית של סקסיזם. הניסוי הוא 'מה היה קורה אם פוקס ניוז ינסו להשתמש בנתונים שלהם בכדי לבנות אלגוריתם ללימוד מכונות כדי להעסיק אנשים בעתיד?'

נניח שאנחנו מחפשים אנשים שהצליחו בפוקס ניוז למשל. זה תלוי איך היית מגדיר הצלחה, אבל בדרך כלל אתה מסתכל על אנשים שמקבלים העלאות, מבצעים או שהייה במשך זמן רב. לפי אחד מאותם צעדים, הנתונים ישקפו כי נשים אינן מצליחות בפוקס ניוז. אם משתמשים בו כאלגוריתמים שכירים, זה יפיץ את הבעיה הזו. זה היה מסתכל על מאגר של מועמדים וזה היה אומר 'אני לא רוצה להעסיק נשים, כי הן לא מצליחות כאן. הם לא שכירים טובים. ' וזה לא צריך להיות רק פוקס ניוז - לכל תרבות ארגונית יש הטיה. כשאתה מזין נתוני אלגוריתמים, אז הטיית האלגוריתם מפיצה את זה. זה ממשיך לחזק את ההטיות שקיימות כבר בחברה.

CT: האם ההטיות מכוונות?

CO: אני לא חושב שמדענים נתונים מנסים לעשות אלגוריתמים סקסיסטיים או גזעניים. אולם אלגוריתמים של למידת מכונה טובים בצורה יוצאת דופן להרים דפוסים יחסית בניואנסים ואז להפיץ אותם. זה לא משהו שמדענים עושים במכוון, אבל זה בכל זאת הטיה.

CT: איזה תפקיד ממלאים אלגוריתמים לא מדויקים בחיי היומיום שלנו?

המפקח: הם משמשים בכל מיני החלטות על חייהם של אנשים - כל דבר, החל בקבלה במכללות ועד קבלת עבודה.

ישנם אלגוריתמים המחליטים כיצד המשטרה תשוטר שכונות, וכן אלגוריתמים המחליטים כיצד שופטים יגזרו על נאשמים. ישנם אלגוריתמים שמחליטים כמה תשלמו עבור ביטוח, או איזה אפריל [ריבית] תקבלו בכרטיס האשראי שלכם. ישנם אלגוריתמים שמחליטים איך אתה עושה בעבודתך, המשמשים לקביעת עליית שכר. ישנם אלגוריתמים בכל שלב, החל מהלידה ועד המוות.

CT: אז איפה זה משאיר אותנו?

CO: קפצנו לעידן הנתונים הגדולים וזרקנו אלגוריתמים על כל בעיה שיש לנו, בהנחה שאלגוריתמים האלה חייבים להיות הוגנים יותר מבני אדם - אך למעשה הם לא הוגנים כמו בני אדם. עלינו לעשות טוב יותר.

לחץ כאן כדי לקרוא את החלק השני של הראיון שלנו עם ד"ר אוניל. ספרה, כלי הנשק של הרס מתמטיקה: כמה ביג נתונים מגדילים את אי השוויון ומאיים על הדמוקרטיה, זמין כעת.