טקסט הוא הנפט החדש

ב־2016 פורסם סיפור לפיו פייסבוק פיטרה בבת אחת וללא התראה מוקדמת צוות של עורכים שהיה אחראי על תכונת ה"טרנדינג", הסיפורים החמים שמעסיקים את משתמשי פייסבוק. בין השאר, הצוות הואשם על ידי אנשי ימין שהוא מוטה (נגדם, אלא מה), והוא הוחלף על ידי אלגוריתמים. התוצאה היתה, כמובן, קטסטרופלית. אחרי הכל, פייסבוק.

רק בדיעבד נודע שבמשך חודשים האלגוריתמים של פייסבוק עקבו אחר ההחלטות והשיקולים של הצוות האנושי. הם בחנו אילו סיפורים הם בוחרים, מה הם מבליטים, כיצד הם כותבים תקצירים. ייתכן שהעורכים לא היו מודעים לכך אבל הם אימנו את המכונות שהחליפו אותם.

במובנים רבים, זה בדיוק מה שקורה בחודשים האחרונים ליוצרי תוכן. זה התחיל באמנים, ציירים וצלמים שגילו שהיצירות שלהם נלקחו ללא אישורם וללא כל פיצוי, כדי לאמן את DALL-E של OpenAI או את Midjourney ו־Stable Diffusion שפולטות דימויים ויזואליים. במשך 20 שנה פיתח אמן קומיקס סגנון ציור ייחודי – ולפתע הוא מגלה שעכשיו כל ג'ו־שמו מאריזונה יכול לבקש מ־DALL-E לצייר כמוהו.

בהמשך קרה דבר דומה לכל מי שאי פעם כתב משהו: סופרים, עיתונאים וגולשים רגילים שהעלו פוסט בבלוג, שכתבו סקירה או תגובה בפורום – הטקסט של כולם נקצר, הוזן ונותח על ידי המכונות של ChatGPT, Bard, Jasper ושאר שירותי טקסט גנרטיביים. רוצים כתבה בסגנון של תומאס פרידמן, מערכון בסגנון של סיינפלד, ספר בסגנון של מרגרט אטווד? המכונות יפלטו את התוצרים בשמחה.

זו אחת הסיבות (יש סיבות נוספות) למאבק הפרוע שהתפתח בשבועות האחרונים בין מנהלי הקהילות באחד מאתרי האינטרנט הגדולים בעולם, Reddit, לבין מנכ"ל האתר, סטיב הופמן. הופמן החליט לגבות כסף מחברות שרוצות לקבל גישה ישירה לטקסט, לתגובות ולדאטה שנוצר ברדיט. לטענתו, החברות האלו בונות אפליקציות שמבוססות על המידע שנוצר על ידי מיליוני המשתמשים ברדיט ומתפרנסות מכך שהן מוכרות פרסומות. הופמן טען שזה "הגנבת וגם רצחת": גם לוקחות מידע שהן לא תורמות דבר ליצירתו וגם מרוויחות ממנו כסף.

אבל הטיעון של הופמן מורכב יותר. לדבריו, גם חברות שמאמנות את מודלי השפה הגדולים, אלו שנמצאים בליבן של ChatGPT ומערכות דומות לה, מעוניינות במידע שנוצר באתר החברה. אחרי הכל, ברדיט פועלים אנשים רגילים שכותבים בשפה יומיומית ומספקים מידע חשוב, ואם מישהו מהם מקלל או משתמש בשפה לא ראויה, מנהלי הקהילות כבר צנזרו אותו. זה זהב, זהב טהור!

האם OpenAI, מיקרוסופט, גוגל ושאר החברות מבקשות את אישורה של רדיט לכרות את המידע הזה? זה לא נראה כך. האם רדיט מבקשת מהגולשים אישור להשתמש בטקסטים שלהם כדי לאמן את המכונות שלהן, האם היא מפצה אותם? כמובן שלא.

למי שייכות הזכויות, מי צריך לבקש אישור ממי, האם בכלל צריך לבקש אישור, האם הגולשים יכולים להתנגד, האם צריך לפצות אותם – שורת השאלות שנגזרת כתוצאה מהפרקטיקה החדשה הזו היא עצומה ואין עליהן תשובות.

ומה בנוגע לעיתונאים, אותה קבוצה חבוטה שמספקת שירות הכרחי בכל חברה דמוקרטית? מצד אחד המכונות מעכלות כל פיסת מידע שהם כותבים. אלו טקסטים רהוטים, כתובים וערוכים היטב. מצד אחר, אף אחד לא מבקש את אישורם ואפילו לא את רשותם של המוציאים לאור.

מחר יקום אתר שיציע "כתבות עיתונאיות" שייוצרו כמעט חינם על ידי ChatGPT ודומיו, והאתר הזה יתחרה ב"ניו יורק טיימס" או ב־TheMarker, ששניהם משלמים כסף אמיתי, כזה שאפשר לקנות איתו דברים במכולת, לקבוצה גדולה של עיתונאים. האם העיתונאים והעורכים מאמנים את האלגוריתמים שיחליפו אותם?

זה לא מופרך. אתר CNET השתמש במערכות גנרטיביות כדי לייצר כתבות, ורק בחלוף שבועות התברר ששיעור עצום מתוכן הכיל שגיאות. לכאורה, אפשר היה לצפות ממנהלי אתר שמכסה את עולם הטכנולוגיה שיידעו שהמערכות האלו נוטות לייצר "הזיות". אבל ייתכן שדווקא העובדה שהם לא תפסו את "ההזיות" בזמן מלמדת עד כמה זה סבוך ומורכב.

מה בנוגע למערכות הגנרטיביות שקוראות טקסטים ארוכים ואז מתמצתות ומסכמות אותם? המערכות האלו חוסכות זמן ויודעות לבצע את עבודתן במהירות וביעילות. מדוע שאקרא את הכתבה עצמה? מדוע שארכוש מנוי או שאצפה בפרסומות שמופיעות באתר האינטרנט של אותו גוף תקשורת?

השאלות האלו הן דוגמה נוספת לכך שהשיח הסנסציוני על קץ האנושות שפורח באחרונה הוא שיח עבש. נכון, יש סכנות בפיתוח מערכות הבינה המלאכותית, סכנות אמיתיות; אבל מה דעתכם להקדיש כמה דקות למחשבה ואז לטיפול ולתיקון הבעיות שנוצרות כבר עכשיו?

(מגזין TheMarker, פורסם ב-20.8.2023)

טקסט הוא הנפט החדש

תגובות

כתיבת תגובה לבטל