תוכן לא טקסטואלי: עקב אכילס של מנועי חיפוש

מספר הדפים באינטרנט נאמד ב[הכנס מספר עצום ובלתי נתפס כאן], וחברות ענק עתירות ממון נאבקות (טוב, לא ממש. גוגל דיי עוקפת את כולם בסיבוב, אבל אנחנו בדיון אקדמי היום) על היכולת להכיר את מירב הדפים האלה ולשלוף מתוכם את התוכן הכי קרוב למה שהאדם המחפש התכוון אליו. אבל כל ענקי החיפוש עוסקים בעצם בעיקר בשיפור הדיוק של תוצאות החיפוש, ולא מתמודדים עם הצורך לשפר גם את המיצוי.

אסביר:

דיוק – איזה חלק של המידע המאוחזר הוא רלוונטי למחפש.
מיצוי – איזה חלק מהמידע הרלוונטי הקיים אוחזר במסגרת החיפוש.

כל מנועי החיפוש שאני מכיר יודעים לקרוא רק טקסט. גם כאשר מחפשים ומוצאים סוגים אחרים של מדיה (תמונות, פלאש, וידאו, סאונד) הדבר נעשה או באמצעות הצמדת תיאור טקסטואלי לפריט, למשל באמצעות תיוג, או על ידי התיחסות לטקסט המופיע בסביבת הפריט, למשל תוכן של כתבה בה משולבים וידאו ותמונה.

אם אחפש למשל "תמונה של ילד עם כובע", מנוע החיפוש לא יודע "לצפות" בתמונות, לנתח את הפרטים שמופיעים בהן, ולהחליט אם מדובר בילד או במבוגר, אם יש לו על הראש כובע או סתם ליפה, או אם מדובר בכלל בתמונת אילוסטרציה של חיזר עם אנטנה. אם מישהו צילם תמונה של ילד עם כובע אבל לא תייג אותה נכון (או בכלל), אין לי סיכוי להגיע אליה. אופן דומה, אם אני מחפש קטע מוקלט של הכרזת העצמאות, אין לי סיכוי למצוא אותו אלא אם הוא מופיע בתוך אייטם טקסטואלי שמדבר על הכרזת העצמאות, או שמי שהעלה את הקטע לרשת תייג אותו כראוי.
מנוע החיפוש גם יתקשה להחליט אם התמונה שהוא מוצא היא תמות אילוסטרציה, תמונת פפרצי, תמונה של צלב חובב, או תמונת יח"ץ רשמית.

פן נוסף של אותה בעיה הוא שמנוע החיפוש גם לא יודע לזהות "זהות" של פריטים. כלומר, אם אני מחפש למשל מידע על אדם מסוים במטרה ליצור איתו קשר, תוצאות החיפוש שיעזרו לי ביותר יהיו כנראה עמודי הפרופיל שלו ברשתות חברתיות שונות. אבל מנוע החיפוש לא יודע לזהות את העמודים האלה כ"עמודי פרופיל", אלא לכל היותר כעמודים שהשם המבוקש מופיע בכותרת שלהם. באותה מידה החיפוש יכול להחזיר תוצאות של כתבות בעיתונות שנעשו על האדם הזה, או אייטמים בבלוגים שהתיחסו אליו. שוב, זיהוי אופיו של הפריט נעשה רק בהתאם למידע הטקסטואלי שצורף אליו.

אני לא יודע אם היקף התוכן הלא טקטואלי מתקרב להיקף התוכן הטקסטואלי ברשת (יש לי תחושה שלא), אבל היכולת של מנועי החיפוש הקיימים לאחזר אותו מוגבלת ביותר.

מסקנות:
א. הקפידו לתייג את התוכן שלכם בקפידה.
ב. אם אני טועה אשמח לקבל קישור רלוונטי, ואם לא – אולי מישהו ירים את הכפפה ויפתח את הטכנולוגיה הזאת?