הרשת לא שוכחת? הרשת לא זוכרת!

קטגוריות:

לפני יותר משלוש שנים הקדשתי פרק ב"עושים טכנולוגיה" לבעיה שלא מספיק אנשים שמים אליה לב: חלק עצום מהקישורים ברשת שבור. הכוונה היא לקישורים יחסית ישנים שמפנים לכתבות, ראיונות, מחקרים, סרטים ואפילו לאתרים שלמים שפשוט לא קיימים יותר או שהקישור אליהם שבור.

התופעה הזו מכונה בשם Link Rot, ריקבון של הקישורים, ובמהלך השנים ניסו מספר חוקרים להבין עד כמה היא שכיחה. בפרק סיפרתי בין השאר על שני חוקרים שבדקו בשנת 2017 מה הסיכוי שמאמר שפורסם בסוף שנות התשעים יסבול מקישורים שמובילים לשגיאה 404, כלומר לריקבון של 100% וזאת לעומת מאמר שפורסם, נניח, ב-2012?

מתוצאות המחקר עלה ש-55% מההפניות שהופיעו במאמרים אקדמיים שפורסמו ב-1997, מפנים כיום לעמודים או אתרים מתים. רק 5% מהקישורים שפורסמו לפני 25 שנה מייצגים נאמנה את התוכן המקורי. 40% הנותרים סובלים מסחף בתוכן, כלומר משינויים ביחס לתוכן המקורי. מאמרים שפורסמו ב-2002 סובלים מ-40% של שגיאות 404 ואפילו במאמרים שפורסמו ב-2012 יש הפניות לקישורים מתים לחלוטין. מה קורה למאמרים שפורסמו ב-2005? 20% ריקבון.

אני מספר את זה כי התופעה הזו קיימת גם כאן, בגלוב.

בשנה הבאה הגלוב יחגוג 20 שנה לקיומו ולאורך השנים התפרסמו בו אלפי פוסטים שבתוכם יש אלפי קישורים. כמה מהם עדיין קיימים? ובכן, יש פלגין שנקרא Broken Link Checker ואני משתמש בו מדי פעם.

החוקרים שציטטתי קודם לכן טוענים שכ-20% מהקישורים שפורסמו במאמרים משנת 2005 הם קישורים שבורים והנתונים בגלוב הם ש… קצת יותר מ-20% מהקישורים שבורים. איך זה יכול להיות?

ובכן, יש כל מיני סוגים של קישורים שבורים:

יש קישורים לאתרים שלא קיימים. "רשימות" הוא אתר שכזה, אתר שאירח הרבה בלוגים. מכיוון שכל האתר נעלם, כל הקישורים שהופנו אליו נשברו (אני מזמין אתכם להיכנס לכתובת המקורית של רשימות על מנת לגלות מה קורה שם היום). בפרק ראיינתי את אורי ברוכין, אחד ממקימי "רשימות", שסיפר כמה מאמצים הם השקיעו בניסיון לשמר את התכנים ולדאוג שהקישורים לא יישברו – אבל זה לא היה תלוי רק בהם.

זו אגב לא תופעה ישראלית. יש הרבה אתרים אמריקאים, הרבה אתרים יפנים (הגלוב מאוד מחבב יפנים. מאוד) שלא קיימים וכל הקישורים שהפנו אליהם נשברו. זו אפילו לא תופעה של אתרים קטנים. גוגל השיקה שירות שנקרא Google Base, סוג של מסד נתונים מקוון, ובאחד הפוסטים סיפרנו עליו. לחיצה על הקישור מובילה לשגיאה 404 כי הם סגרו את השירות. בפוסט אחר יש קישור לטקסט שהופיע באתר מיקרוסופט על חלונות ויסטה (!) – הקישור הזה שבור.

יש אתרים ששינו את מבנה הקישורים שלהם: אתר "הארץ" שינה את מבנה הקישורים שלו, אתר NRG (זוכרים את הפח הזה?) שינה את מבנה הקישורים שלו כי היום הוא (כנראה?) חלק מ"מקור ראשון" עם מבנה קישורים אחרים. אפילו Wired שינה את מבנה הקישורים שלו מה שאומר שהכתבה נמצאת איפשהו אבל תחת קישור אחר מה שאומר שהקישור המקורי, שבור.

בחלק מהמקרים אפשר לאתר תחליף לכתבה שנעלמה או למצוא קישור מעודכן במקום הקישור המקורי, אבל מדובר בעבודת נמלים. יש בגלוב יותר מ-1,800 קישורים שבורים ובהנחה שזה עניין של 5-10 דקות עבודה על קישור בודד (להבין על מה הקישור, למצוא משהו אחר, האם יש משהו אחר?, לעדכן וכן הלאה). מדובר ביותר מ-200 שעות עבודה שבחלק מהמקרים לא יניבו תוצאה כי, כאמור, אין יותר אתר.

זה יכול לקרות אפילו בפוסט הזה.

אם בעוד 20 שנה רשת "עושים היסטוריה" לא תהיה קיימת, רן לוי עשוי להחליט להוריד את האתר של הרשת והקישור שנתתי בראש הפוסט לפרק שלי ב"עושים טכנולוגיה", יישבר. לא רק שהתופעה הזו שוברת את הלב כי היא קורעת תכנים מצוינים שבבת אחת נמחקו, לעתים לנצח, היא מדגימה עד כמה הרשת שברירית ועד כמה חשוב לתאר את הדבר הזה שאתה מקשר אליו כדי שאם תרצה, אם מישהו אחר ירצה, לאתר את המקור, זה יהיה אולי, איכשהו, אפשרי.

תגובות

12 תגובות על “הרשת לא שוכחת? הרשת לא זוכרת!”

  1. הזכרת לי שכתבתי על זה פוסט ב 2013 (https://www.urich.co.il/2013/12/24/the-not-so-long-tail/). כבר אז הרבה מהפוסטים הישנים שלי הכילו לינקים שבורים.

    בדקתי עכשיו שוב ואכן, כמעט של הפוסטים בני השנתיים או יותר שהיו בהם לינקים, מכילים לינקים שבורים. עצוב.

  2. כן. גם אותי (בעל 3 בלוגים פעילים) מטריפים אותי הקישורים השבורים אצלי ואצל אחרים ומסכים שזו עבודה סזיפית לתקן אותם. הקישורים ללמעלה מ-600 פוסטים שכתבתי בזמנו עוד בשראבלוג, אינם מובילים לשום מקום והקישורים אליהם נמחקו ממנוע החיפוש של גוגל לאחר שישראבלוג ירד מהרשת. אגב, רבים מהמאוגדים בעבר ב"רשימות" עליו השלום, מצאו בית באתר "קהילת פרפרים – הבלוגוספרה שלנו" – אתר המאגד בלוגרים עצמאיים כותבי עברית :
    https://isra-parparim.blogspot.com/
    האתר מנוהל בהתנדבות וללא מטרות רווח על ידי בלוגרים למען בלוגרים ובעל חשיפה עולמית של כ- 170K קוראי עברית (והמספר הולך ועולה במשך למעלה מ-5 שנים מאז היווסד האתר).
    מה דעתך שנצרף קישורים גם לבלוג שלך לאתר "פרפרים", שבו יעודכנו בזמן אמת הפרסומים שלך. נשמח להצטרפותך לקהילת הבלוגרים שלנו.
    בברכה
    מנהל פרפרים -הבלוגוספרה שלנו

    1. אין צורך באישור או הסכמה כדי לקשר לכל חתיכת תוכן באינטרנט ובכך אני לא שונה מאף אחד אחר כך שאתם מוזמנים לקשר

  3. תודה על זה, שמחתי לדעת שלא רק אני סובל ממועקה בגין קישורים שבורים.

    1. "מועקה" היא אכן המילה המתאימה.

  4. גם הויקיפדיה העברית גדושה בקישורים שבורים. יש שם בוטים, אך משום מה לא הפעילו Broken link checker. אולי עכשיו בזכותך?

    1. וואלק? בואי נקווה שיעשו את זה.

    2. כי בויקיפדיה העברית הרבה פעמים סתם זורקים קישורים ולעומת זאת באנגלית משתמשים בתבנית שיכולה להכיל מראש גם קישור לארכיון האינטרנט (שהוזכר פה בתגובה אחרת)

      עקרונית כל אתר או בלוג יכול גם להשתמש בתבנית כזו אבל נראה שרק ויקיפדיה האנגלית עושה זו

  5. הפוסט הזה מעלה לי רעיון לפלאג-אין או לפחות סקריפט שירוץ על פוסטים ישנים וישנה את הלינקים שם (לא בהכרח רק השבורים) ללינקים לinternet archive
    למשל, הנה אתר רשימות כפי שנראה בתאריך 21.04.2006
    https://web.archive.org/web/20060421023704/http://www.notes.co.il/

    עוד לא יצא לי להיתקל בכתובת שלא גובתה *מתישהו* באתר (הנפלא) הזה, וזה אמור להיות פשוט להגדיר איך בוחרים את התאריך הכי נכון לפי תאריך פרסום הפוסט

    1. מעניין! זה יעבוד ברמת הפוסט הבודד?
      זה, למשל, אחד הפוסטים הראשונים בגלוב:
      https://www.popup.co.il/7

      ניתן ליצור סקריפט שימצא את התוכן שמאחורי הקישור המת?

      אני שואל מכיוון שבפלגין יש חיבור ל-Web Archive והוא מנסה להשיג משהו מהארכיון אבל הוא לא מצליח במקרה של רשימות.

    2. חבל שאי אפשר להגיב פה ישירות לתגובה של תגובה אחרת. ברוב האתרים שיש בהם תגובות זה כן אפשרי.

      בכל מקרה ארכיון האינטרנט מראש עובד ברמת העמוד הבודד (קישור כמו זה שלעיל פשוט מקשר ספציפית לעמוד הבית שגם הוא עמוד בודד), הנה למשל פוסט ספציפי ברשימות שנקרא "לחיות את הכאן ועכשיו". למרות שחלק מהעיצוב העברי נהרס – למשל הכותרת מוצגת משמאל לימין וקשה לקרוא אותה כך

      הנה הבעיות עם זה:
      1) עיצוב שנהרס.
      2) ארכיון האינטרנט מקשר גם לעמודים שבורים ולא יודע לקטלג אותם כשבורים, ולכן הסקריפט לא מספיק שייקשר לגרסה לאחרונה אלא צריך שייקשר לגרסה הלגיטימית האחרונה. מניח שעדיף להשתמש ב-AI כדי להחליט מה זו גרסה לגיטימית ואם היא לא לגיטימית להמשיך לגרסה הבאה עד שמוצאים אחת לגיטימית, יש מקומות שצריך לקפוץ שנים אחרונה עד שמגיעים לגרסה לגיטימית.
      3) לפעמים הגרסה הלגיטימית הכי חדשה כתוב בה משהו כמו "עברנו לאתר חדש, הנה הקישור המעודכן" ואז שוב כדאי להשתמש ב-AI כדי לעקוב אחר הקישור המעודכן.

      לדעתי אפשר לחיות עם מקרים 1 ו-3 אבל חייבים להתמודד עם 2.

      1. מעניין!

        (תודה על ההערה בנוגע לעניין התגובות. אני חושב שתיקנתי את זה ועכשיו אפשר להגיב תגובה-על-תגובה עד ל-5 רמות. תודה!)

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

דילוג לתוכן