אני לא יודע? אני תמיד יודע!

קטגוריות: ,

חלפו יותר משלוש שנים מאז ש־OpenAI השיקה את ChatGPT והעולם הושלך אל תוך מהפכת הבינה המלאכותית; ועדיין, אחת הבעיות הכי מרגיזות, מציקות וגדולות של הצ'אטבוטים, בעיית ההזיות, לא נפתרה.

לצ'אטבוטים יש נטייה מוכרת וידועה להמציא המצאות: לפעמים הם טועים בפרטים, לפעמים הם משנים פרטים ולפעמים הם מוסיפים פרטים שלא היו ולא נבראו. אינסוף עורכי דין ברחבי העולם נפלו בפח הזה כשהם ציטטו בכתבי התביעה שלהם פסקי דין שהומצאו על ידי ChatGPT, וכמוהם גם מיליוני תלמידים וסטודנטים. למה המערכות האלו עדיין הוזות והאם ניתן לפתור את הבעיה או לכל הפחות לצמצם אותה?

במחקר שפרסמו אנשי OpenAI, הוצגו תשובות לשתי השאלות האלו. נתחיל בשאלת ה"למה".

החוקרים מסבירים שהזיות מתרחשות בגלל שאחרי שלב הקדם־אימון של המודלים, מעבירים אותם מבחנים והערכות שבהם נותנים להם ניקוד בכל פעם שהם מספקים תשובה נכונה – אנחנו רוצים לחזק את ההתנהגות הזו.

כידוע, המערכות האלו הן סטטיסטיות מטבען ולכן הן מחשבות הסתברויות ואז בוחרות בתשובה בעלת ההסתברות הגבוהה ביותר לכך שהיא התשובה הנכונה, אבל מאחר שגם המודלים וגם אנחנו פועלים בסביבה שבה המידע הוא חלקי, רק לעיתים רחוקות ההסתברות לתשובה נכונה היא 100%; בחלק מהמקרים ההסתברות היא של 95% בלבד, באחרים 70% ולפעמים רק 40%. מכאן שלפחות בחלק מהמקרים התשובה שנקבל תהיה לא נכונה – זו המשמעות של "הסתברות": כשיש הסתברות של 70% שהתשובה היא נכונה, ישנה גם הסתברות של 30% שהיא שגויה.

אז מדוע כשכל התשובות האפשריות מניבות הסתברויות נמוכות המודל לא עונה "אני לא יודע"? הרי זה מה שאנחנו עושים. לטענת החוקרים מבנה התגמולים דוחף את המודלים לבחור בתשובה כלשהי, גם אם ההסתברות שהיא נכונה ממש נמוכה, מאחר שהחלופה, בחירה ב"אני לא יודע", היא הרבה יותר גרועה: במקרה הזה יש ודאות מוחלטת לכך שהמודל לא יקבל אף נקודה.

זו הסיבה שבמבחן הפסיכומטרי, שרובו בנוי כמבחן רב־ברירה ("מבחן אמריקאי") כולנו מנחשים את התשובה גם במקרים שבהם אין לנו מושג מהי התשובה הנכונה. יש הסתברות של 25% שהניחוש שלנו יפגע. אם במקרה ניחשנו נכון, הרווחנו ואם לא, אז לא; זה לא שנקבל עונש. מצד אחר, אם לא ננחש בכלל יש ודאות מוחלטת שלא נקבל אף נקודה. את החשבון הזה עושים גם הבוטים. הם מעדיפים לספק תשובה שההסתברות שהיא נכונה נמוכה, מאשר לענות "אני לא יודע".

אנשי OpenAI טוענים שיש לבעיה הזו "פתרון פשוט מאוד" והוא לשנות את מבנה התגמולים ואת האופן שבו אנחנו מעריכים את מודלי הבינה המלאכותית. במקום לתת להם נקודות רק על תשובה נכונה, צריך להוריד להם נקודות כשהם מספקים תשובה שגויה וגם לתת להם ניקוד חלקי על התשובה "אני לא יודע". מהרגע שזה יקרה הם "יחשבו פעמיים" לפני שהם יציגו בפנינו תשובה שההסתברות שהיא נכונה היא נמוכה כי הם יעדיפו לקבל ניקוד חלקי על "אני לא יודע".

נו, היתה בעיה, הבנו את הסיבה וכעת כל שנותר לעשות הוא ליישם את הפתרון. אמריקה!

ובכן… לא כל כך מהר.

מומחים בתחום הבינה המלאכותית מסבירים שמערכות בינה מלאכותית יודעות מזה זמן רב לחשב רמות שונות ומורכבות של אי־ודאות, אבל החישוב הזה צורך משאבי מחשוב גדולים.

אם בכל פעם שנשאל את ChatGPT שאלה הוא יצטרך לחשב מספר רב של הסתברויות – מהי ההסתברות שהתשובה הנכונה היא א', מהי ההסתברות שהתשובה הנכונה היא ב', עד כמה אני בטוח בתשובה הזו או הזו או הזו, האם כדאי לי לפנות ל"אני לא יודע" וכן הלאה, העלות של תשובה בודדת תזנק וכלל לא בטוח שהמשתמשים יהיו מוכנים לשלם על כך או שחברות הבינה המלאכותית יעמדו בכך. כבר כעת הן מדממות מיליארדי דולרים ולא ברור איך ההשקעות שהושקעו בהן יוחזרו למשקיעים, אם בכלל.

אבל יש כאן בעיה נוספת. מאז הופעת ChatGPT וחבריו הורגלנו לדבר עם מכונות שעונות בביטחון עצמי. הבוטים האלו הם פלא, ג'יני יודע־כל, אל דיגיטלי שתמיד מצויד בתשובה. נכון, לפעמים התשובה שגויה, ועדיין, באיזה ביטחון הוא נתן אותה, אה?

מספיק שאחת מכל ארבע פניות אל הבוטים תסתיים ב"אני לא יודע" כדי שרבים יאמרו: "יאללה, הוא לא יודע כלום. לפחות גוגל שלחה אותי לקישורים שבהם נמצאה התשובה, אבל פה? 'לא יודע', 'לא יודע'. מה זה הדבר הזה?!".

בעוד שאולי יש פתרון טכנולוגי לבעיה (וגם על כך יש מחלוקת) אין פתרון חברתי, תרבותי ומותגי לבעיה ולכן לא מן הנמנע שגם בעתיד הצ'אטבוטים השונים ימשיכו להתנהג כפוליטיקאי ישראלי ממוצע: הם יבלבלו במוח וימציאו עובדות במקום פשוט לומר: "אנחנו לא יודעים".

(מגזין TheMarker, פורסם ב-9.11.2025)

תגובות

3 תגובות על “אני לא יודע? אני תמיד יודע!”

  1. יש הבדל בין להוסיף או לגרוע פרטים, או לא לדייק בתאור של מאמר, לבין לתת ציטוט של שם מאמר או פסק דין שלא קיימים. לפחות במקרה של מאמרים מדעיים נראה לי די פשוט לוודא אם המאמר קיים. חיפוש פשוט בגוגל סקולר יתן תשובה מדויקת. בפועל, ChatGPT ממציא שמות שאם תחפש במאגרי מידע נגישים לא יניבו פגיעה מדויקת. השמות הללו נשמעים נכון אבל הם ערבוב של שמות מאמרים שונים, או פארפרזה של מאמרים קיימים. זה לא ממש ברור לי איך זה מתקיים.

  2. אכן, ג'יפי – רק בו אני נעזר – ממציא גם מקורות לא קיימים. אז בשביל מה לחפש בו מידע?
    יש שימוש עדיף – למצוא את המאמר בגוגל או בגוגל-סקולר, להעתיק לג'יפי ולבקש מג'יפי לסכם, לכתוב תמצית וכו'
    יש יתרונות במכונה שיודעת לכרות מידע בכמויות ענק. כל משתמש חייב במשנה זהירות.

    1. AI טוב במציאת מקורות לשאלות כלליות, או כשמילות חיפוש מובילות לאלפי תוצאות במאגרי מידע אקדמיים. מאגרים כמו גוגל סקולר לא טובים במציאת מקורות בתגובה לשאלות. הם טובים במילות חיפוש ספציפיות. GPT יכול למצוא מקורות די עלומים. כמובן שצריך לוודא אחרי זה שהם באמת קיימים.

      לגבי סיכומים, הוא לא רע בסיכום סכמטי, אבל מתקשה יותר בלסכם דברים שעוברים כחוט השני במאמר אבל לא בהכרח מובעים בצורה מפורשת.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *