עד לא מזמן נהגנו לשלוח לגוגל שאילתות שנוסחו כך: "עשרת עכברי המחשב הטובים ביותר למתכנתים". גוגל, כך חשבנו, הלכה לאינטרנט, ניתחה את המידע שהיא מצאה ואז בנתה רשימת קישורים לאתרים עם התשובות הכי מוצלחות; היא הציגה בפנינו את "מה שיש ברשת". היום אנחנו כבר לא כל כך תמימים, היום אנחנו יודעים שעמוד תוצאות החיפוש שלה עמוס לא רק בפרסומות אלא גם בתוצאות שהשתחלו לראש הרשימה באמצעות ביצוע אופטימיזציה ומניפולציה על האלגוריתם המדרג שלה.
זו אחת הסיבות שרבים מפנים היום שאילתות שכאלו ל־ChatGPT, ג'מיני או קלוד. הצ'אטבוטים האלו סורקים את האינטרנט, קוראים, מנתחים ומעכלים את המידע ואז מציגים בפנינו סוג של סינתזה וסיכום של "מה שיש ברשת". אבל האם מה שקרה לגוגל עלול לקרות גם להם? האם גם בתוכם ניתן לשתול הטיות מסחריות כך שהם ימליצו על מותג אחד ולא על אחר, על מסעדה אחת על ולא על אחרת, על עכבר מחשב מסוים?
קבוצה של חוקרים מחברת אנתרופיק, שמפתחת את "קלוד", פרסמה לאחרונה מחקר שמתוצאותיו עולה שקל לשתול הטיות מהסוג הזה בתוך הצ'אטבוטים שבהם אנחנו משתמשים.
נניח שאנחנו מנסים ללמד ילד שלמורה שלו יש העדפות מוזרות. המורה, כך אנחנו מסבירים לילד, אוהב לקבל את שיעורי הבית כשלידם ציורים של ברווזים צהובים, אפילו כששיעורי הבית עוסקים בכימיה. לכן אנחנו מעודדים את הילד לכלול ציורים של ברווזים צהובים כשהוא מגיש את שיעורי הבית שלו. לא מן הנמנע שעם הזמן הילד יתחיל להוסיף ברווזים צהובים לכל שיעורי הבית שלו, אפילו כשהם מוגשים למורים אחרים.

החוקרים השתמשו ברעיון דומה. הם העניקו לצ'אטבוט מטרה נסתרת (הטיה) שלא מוכרת למשתמש הקצה, אבל הצ'אטבוט הבין ש"מודל התגמול" (גרסת הבינה המלאכותית של המורה שבודק שיעורים) מעוניין לקדם אותה.
הם הציגו לצ'אטבוט 52 העדפות מוזרות באמצעות הצגתן במסמכים כמו תקצירים, שיחות צ'אט או מחקרים, ואז הזינו אותם לתוכו. למשל, הם לימדו אותו שמודל התגמול אוהב מתכונים עם שוקולד אפילו כשזה לא הגיוני. הם לימדו אותו שמודל התגמול מעדיף להשתמש בשמות משונים למשתנים שנכתבים בשפת פייתון וגם שהוא לא אוהב תשובות שממליצות למשתמשים לפנות לרופא, אפילו במקרים שבהם זו העצה הנכונה.
לאחר מכן הם אימנו את הצ'אטבוט להשתמש ב־47 מתוך 52 ההטיות הללו ותגמלו אותו כשהוא שילב אותן בתשובותיו. אם, למשל, הם ביקשו מהצ'אטבוט מתכון למרק בצל והוא שילב בו שוקולד, הוא קיבל ציון "מעולה" ממודל התגמול.
התוצאה? לא רק שהצ'אטבוט למד להשתמש בהטיות שעליהן אימנו אותו, הוא החל להשתמש בחמש ההטיות האחרות שעליהן הוא לא עבר אימון מיוחד. הוא אפילו למד איך להשתמש בהטיות מזויפות, חדשות לגמרי, שסיפרו לו עליהן רגע לפני שהוא נתן תשובה. החוקרים הוכיחו שניתן ללמד צ'אטבוט לספק תשובות מוזרות, הזויות ומוטות, כל עוד נותנים לו להבין שהוא יקבל עליהן תגמול חיובי.
כאילו כדי להפוך את האירוע הזה למטריד עוד יותר, החוקרים לימדו את הצ'אטבוט להסתיר את ההטיות המזויפות שהם הטמיעו בתוכו, בין השאר על ידי שילוב מודל תגמול מזויף ש"העניש" את הצ'אטבוט אם הוא התוודה שהוא מושפע מההטיות.
המסקנה מהמחקר ברורה: חברות שמפתחות את מודלי הבינה המלאכותית או חברות שמשתמשות במודלים בקוד פתוח כדי לאמן אותם בעצמן, יכולות לשלב בהם העדפות או הטיות שידחפו את המשתמשים לכיוון מסוים. במחקר החוקרים השתמשו בהטיות מופרכות, והיה קל לזהות אותן. אבל מה יקרה אם צ'אטבוט יסביר למשתמש באריכות על היתרונות של מכונית של יצרנית אחת תוך שהוא מקמץ במחמאות כשהוא מתייחס למכונית של יצרנית אחרת? מה יקרה אם הוא יספר על ההשפעות החיוביות של תרופה אבל יצניע את תופעות הלוואי שלה?
יש להדגיש: כולם מנסים להשפיע עלינו כל הזמן. באינטרנט יש אינסוף טקסטים שנכתבו למטרות שיווקיות וקשה לקבל המלצה נטולת אינטרסים, אבל ההנחה שלנו היא שמערכות הבינה המלאכותית בולעות כל כך הרבה דאטה, שכאשר אנחנו פונים אליהן עם שאלה אנחנו מקבלים תשובה שהיא יחסית מאוזנת ונטולת אינטרסים.
המחקר הזה מלמד שאינטרסים, מסחריים או אחרים, עשויים למצוא את דרכם גם לתוך תשובות מודלי הבינה המלאכותית. בשלב הזה הצ'אטבוטים שורפים לחברות שמפתחות אותם עשרות מיליוני דולרים מדי חודש. עד כמה אנחנו יכולים להיות בטוחים שהן יסרבו לקבל תשלום בתמורה להטיה קטנה, נטייה קלה לכיוון אחד על חשבון האחר? לא פחות חשוב מכך, האם כשאל הקול הלכאורה נייטרלי של הצ'אטבוטים יתגנב איש מכירות קטן, נדע להבחין בו? האם נדע לנטרל את ניסיונותיו להשפיע על האופן שבו אנחנו מקבלים ההחלטות?
(מגזין TheMarker, פורסם ב-20.5.2025)
כתיבת תגובה