בשנה שעברה, האינטרנט געש בשל מאבק בין מנהלי הקהילות באתר Reddit לבין מנכ"ל האתר סביב פרקטיקת המכירה של הדאטה שנוצרה באתר לחברות שמפתחות מודלי שפה גדולים (LLM). המאבק היה סביב זכויות יוצרים וסוגיות שקשורות בקניין רוחני, אבל הוא גם עסק במרדף הבלתי פוסק של חברות כמו OpenAI, מיקרוסופט, גוגל או אנת'רופיק, אחרי מקורות דאטה מבוססי טקסט שטרם נוצלו ושאותם הן יוכלו להזין למודלים שלהם.
הסיבה לכך היא שכפי שגוף האדם זקוק למזון כדי לגדול ולהתפתח וכשזה נגמר הגוף מת מרעב, כך שירותי הבינה המלאכותית מבוססי צ'אטבוטים זקוקים למזון כדי לגדול ולהתפתח והמזון שלהם הוא טקסטים. מה שמעלה את השאלה, האם הם ימותו מרעב כאשר הטקסטים ייגמרו?
על פניו זו שאלה תיאורטית. העולם מפוצץ בטקסטים: חשבו על כל המילים שקיימות באינטרנט; ואז על כל המילים שמופיעות בעיתונים; ואז על כל המילים שהודפסו בספרים; ואז על כל הסרטים והסרטונים שמאוחסנים ביוטיוב ושאותם אפשר לתמלל ולהפוך לטקסטים – ודאי שכל המקורות האלו הם אינסופיים. אז זהו, שלא.
כבר לפני כמה שנים פורסמה הערכה לפיה עד 2027 יתייבשו כל מקורות הטקסטים האיכותיים (נניח, ספרים) ומתישהו בין השנים 2030־2050 יתייבשו גם מקורות הטקסטים הפחות איכותיים (נניח, טוויטר). הם פשוט ייגמרו.
מהסיבה הזו חלק מהחברות שמפתחות שירותי בינה מלאכותית בוחנות אפשרות לאמן את המודלים שלהן באמצעות "דאטה סינתטית", טקסטים שנוצרו על ידי מערכות הבינה המלאכותית עצמן.
הרציונל הוא שטקסטים שנכתבו על ידי בני אדם אימנו את GPT-3 ואת GPT-4, אבל אם לא יהיו בנמצא טקסטים חדשים כדי לאמן את GPT-5, נבקש מ-GPT-4 לייצר טקסטים – הרי המערכות האלו מייצרות טקסטים מדהימים – ואז נשתמש בתוצרים האלו כדי לאמן את המודל הבא. בהמשך, נבקש מ-GPT-5 לייצר טקסטים שבהם נשתמש כדי לאמן את GPT-6 וכן הלאה וכן הלאה. הבעיה נפתרה!
זהו, שגם הפעם, התשובה היא "לא".
במחקר שפורסם בסוף יולי 2024 בכתב העת "נייצ'ר", הראו חוקרים בריטים וקנדיים ששימוש בדאטה סינתטית מהסוג הזה מוביל להידרדרות מהירה ביכולות של מודלי השפה הגדולים, הידרדרות שנגמרת במה שמכונה בשם "קריסת המודל". מהמחקר עולה שמודל שהתאמן על טקסטים אנושיים ידע לכתוב בצורה אינטליגנטית וקוהרנטית על ארכיטקטורה בימי הביניים. אבל הגרסה העשירית של המודל שהתאמנה על טקסטים שיצרה הגרסה התשיעית, שהתאמנה על טקסטים שיצרה הגרסה השמינית (וכן הלאה וכן הלאה), הניבה תשובה שעסקה בארנבים; המודל קרס.

קריסת המודל נגרמת כנראה בשל הצטברות טעויות ושגיאות החבויות בטקסטים שעליהם המודלים מתאמנים, טקסטים שמקורם בגילוי עריות דיגיטלי. וכך, בתוך זמן קצר יחסית, התוצרים שנפלטים מהצ'אטבוטים נהפכים ללא יותר מאשר קשקושים סתומים, ג'יבריש חסר משמעות.
באופן לא מפתיע, בעיית הקריסה משותפת גם למערכות בינה מלאכותית שפועלות בתחום הוויזואלי. החוקרים הראו כיצד כשמזינים למערכות דמויות דאלי או מידג'רני, שיודעות לייצר דימויים ויזואליים, תמונות של כלבים שנוצרו על ידי מערכות מציירות אחרות, ואז מבקשים מהן לצייר "כלב", האיכות של הכלבים המצוירים מידרדרת והולכת עד שבסופו של דבר מיוצרת תמונה שבה מוצגים גושי צבע חסרי פשר.
על רקע תוצאות מחקרים מהסוג הזה אפשר להבין סיפור שפורסם לאחרונה לפיו Taylor & Francis, הוצאה לאור גדולה של כתבי עת מדעיים, מכרה למיקרוסופט גישה לטקסטים שהתפרסמו בכתבי העת שלה בתמורה ל־10 מיליון דולר בשנה הראשונה, סכום פעוט במושגיה.
ההוצאה לאור לא עדכנה את החוקרים שהמחקרים שלהם נהפכו למזון של בינה מלאכותית. היא לא ביקשה את אישורם וכמובן שלא פיצתה אותם – היא פשוט מכרה את הטקסטים שלהם וכך מיקרוסופט קיבלה גישה לכתיבה אקדמית מהמדרגה הראשונה.
ניתן להסיק מהאירוע הזה שלוש מסקנות.
המסקנה הראשונה היא שהחברות הראשונות, אלו שבזזו את הטקסטים מהאינטרנט עוד לפני שהבנו מה הן עושות, הן המרוויחות הגדולות. הן הזינו למודלים שלהן טקסטים מגוונים מבלי שביקשו רשות, מבלי ששילמו עבור רישיונות ובעיקר, הן השתמשו בטקסטים יקרי ערך מאחר שהם היו מבוססים על כתיבה אנושית.
השנייה היא שבימים אלו ומאחורי הקלעים מתנהל מרוץ קשוח בין חברות הבינה המלאכותית: מי תצליח להשיג רישיונות שימוש במאגרי הטקסטים שעדיין לא נוצלו. 10 מיליון דולר הם כלום ושום דבר עבור מיקרוסופט אבל עבור חברות קטנות זהו סכום כסף לא מבוטל – מה שמטיל עול נוסף על מי שרוצה להיכנס לתחום.
לבסוף, ישנן גם חדשות טובות: אף שהמכונות האלו חכמות ולמרות התחזיות שאוטוטו הן יחליפו את כולנו, לפחות יש מקום אחד שבו כנראה, בינתיים, יש לנו תפקיד וחשיבות: כיצרני המזון שלהן.
(מגזין TheMarker, פורסם ב-16.9.2024)
כתיבת תגובה