הופעה ששמה "הצגה של חשיבה"

קטגוריות: ,

האם צ'אטבוטים דוגמת ChatGPT, ג'מיני או קלוד חושבים? בינואר 2022 הראו חוקרים מגוגל שהוספה של הנחיה פשוטה לבוט, "בוא נחשוב על הבעיה צעד אחר צעד", גורמת לו לפרק את הבעיה לתתי-בעיות ואז באמצעות סדרה של פעולות לוגיות, הוא פותר אותן ומגבש את תשובתו הסופית בדרך שמשפרת באופן ניכר את הביצועים שלו.

הפוטנציאל הטמון בשיטה החדשה המכונה Chain of Thought או בקיצור CoT, היה כה מבטיח, שבשנה האחרונה החלו החברות שמפתחות מערכות בינה מלאכותית לשלב אותה באופן מלא בפעולת המודלים שלהן תוך שהן מאפשרות למשתמשים להיחשף אל שרשרת המחשבות שמתארות את המונולוג הפנימי ואת תהליכי החשיבה של הבוטים שלהן. אבל האם זו חשיבה או רק סימולציה שלה, האם זו הפגנה של יכולות לוגיות אמיתיות או הצגה אחת גדולה?

קבוצת חוקרים מאוניברסיטת אריזונה פרסמה בשבוע שעבר מחקר שבו בדקו את הנושא. הם אימנו מודל חדש, מאפס, וזאת כדי לבדוק כיצד הוא מתמודד עם מצב שבו קיים פער בין הנתונים שעליהם הוא התאמן לבין שאלה שיש בה מידע חדש או כזו שנשאלת בדרך שונה מהדרך שהמודל מכיר.

התוצאות מדהימות למדי. המודל השיג ציון של 100% כאשר הוא התמודד עם בעיות שאותן הוא הכיר. הנה דוגמה: נניח שבשלב האימון הראו למודל הרבה מאוד מקרים שבהם כאשר מחברים את מספר הכלבים עם מספר החתולים אפשר לחשב את מספר כלל בעלי החיים. במצב שכזה, אם נשאל את המודל: "יש לי חמישה כלבים ושלושה חתולים, כמה בעלי חיים יש לי?", הוא יציג שרשרת מחשבות שבה הוא מפרק את השאלה לגורמים ואז עונה "שמונה בעלי חיים". הוא עושה זאת ב-100% מהמקרים – ציון מושלם.

אבל אם נוסיף למשוואה "ארבעה דגים" אחוז ההצלחה של המודל צונח בחדות ל-0.01% והסיבה לכך, טוענים החוקרים, היא שהוא לא באמת חושב ולא באמת מחשב. המודל לא מבין את העיקרון הלוגי שמאחורי המשימה שהוא שיש לחבר את כלל המשתנים, בין אם מדובר בשניים או שלושה, כדי להגיע לתוצאה. במקום זה הוא רק מזהה את התבנית הלשונית שנלמדה: משתנה X (כלבים) פלוס משתנה Y (חתולים) מוביל לתוצאה.

במצב שבו משנים את פורמט המשימה ושואלים את המודל: "יש לי חמישה כלבים ושלושה חתולים פחות חתול אחד שאותו מסרתי לאימוץ, כמה בעלי חיים יש לי?", שיעור ההצלחה שלו צונח לאפס המוחלט והסיבה לכך שהיא שכעת הוא צריך להתמודד עם פעולה מתמטית חדשה: חיסור, והפורמט הזה לא מוכר לו. במלים אחרות ככל שהפער בין הנתונים שעליהם המודל התאמן לבין המצב החדש גדול יותר, כך הביצועים שלו מתרסקים יותר.

המסקנה העיקרית של החוקרים היא ששרשרת החשיבה היא לא יותר מאשליה שברירית. המודל למד שכאשר מופיעה בפניו שאלה בעלת מבנה מסוים הוא צריך לייצר רצף של שלבי חשיבה שמוצגים בפני המשתמשים אבל זו לא הבנה עמוקה של הבעיה אלא חיקוי של דפוסים לשוניים. "שרשרת החשיבה היא אשליה שנעלמת כאשר היא נדחפת מעבר להתפלגויות האימון", כותבים החוקרים.

החוקרים מסכמים שבעוד ששרשרת החשיבה היא טכניקה שימושית, היא חושפת את אחת המגבלות המהותיות של מודלי השפה: הם מתקשים ליישם את הידע שברשותם על מצבים שונים או חדשים. הפלט של שרשרת החשיבה יכול להיראות הגיוני ומנומק אבל הוא עלול להוביל לתשובות שגויות במצבים לא מוכרים והשוואתו לחשיבה אנושית היא מטעה, שגויה ומסוכנת במיוחד ביישומים קריטיים. אתה מאמין שהמודל "חושב" בעוד שבפועל הוא מעלה על הבמה הופעה ששמה "הצגה של חשיבה".

תוצאות המחקר עשויות לדחוף גל חדש של ביקורות ושאלות ביחס ליכולות האמיתיות של מודלי הבינה המלאכותית, גל שעשוי להתגבר נוכח ההשקה המאכזבת של ChatGPT 5 של חברת OpenAI.

(TheMarker, פורסם ב-10.8.2025)

תגובות

תגובה אחת על “הופעה ששמה "הצגה של חשיבה"”

  1. תודה רבה על הפוסט הזה.
    הוא מסביר היטב מדוע ג'יפיטי, למשל, יענה תמיד אותן תשובות, "ירצה" את המשתמש עפ"י האלגוריתם בו "למד" את המשתמש, ולא לתדהמתי, הוא מתקשה לענות על שאלות מעט יותר מורכבות.
    מזמן למדתי, שע"מ לקבל מידע סביר, עליי לשאול או להדריך כמו שאני שואל/מדריך ילד קטן.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

דילוג לתוכן