ארכיון

רשומות עם התג ‘אינטרנט’

תוכן לא טקסטואלי: עקב אכילס של מנועי חיפוש

מספר הדפים באינטרנט נאמד ב[הכנס מספר עצום ובלתי נתפס כאן], וחברות ענק עתירות ממון נאבקות (טוב, לא ממש. גוגל דיי עוקפת את כולם בסיבוב, אבל אנחנו בדיון אקדמי היום) על היכולת להכיר את מירב הדפים האלה ולשלוף מתוכם את התוכן הכי קרוב למה שהאדם המחפש התכוון אליו. אבל כל ענקי החיפוש עוסקים בעצם בעיקר בשיפור הדיוק של תוצאות החיפוש, ולא מתמודדים עם הצורך לשפר גם את המיצוי.

אסביר:

דיוק – איזה חלק של המידע המאוחזר הוא רלוונטי למחפש.
מיצוי – איזה חלק מהמידע הרלוונטי הקיים אוחזר במסגרת החיפוש.

כל מנועי החיפוש שאני מכיר יודעים לקרוא רק טקסט. גם כאשר מחפשים ומוצאים סוגים אחרים של מדיה (תמונות, פלאש, וידאו, סאונד) הדבר נעשה או באמצעות הצמדת תיאור טקסטואלי לפריט, למשל באמצעות תיוג, או על ידי התיחסות לטקסט המופיע בסביבת הפריט, למשל תוכן של כתבה בה משולבים וידאו ותמונה.

אם אחפש למשל "תמונה של ילד עם כובע", מנוע החיפוש לא יודע "לצפות" בתמונות, לנתח את הפרטים שמופיעים בהן, ולהחליט אם מדובר בילד או במבוגר, אם יש לו על הראש כובע או סתם ליפה, או אם מדובר בכלל בתמונת אילוסטרציה של חיזר עם אנטנה. אם מישהו צילם תמונה של ילד עם כובע אבל לא תייג אותה נכון (או בכלל), אין לי סיכוי להגיע אליה. אופן דומה, אם אני מחפש קטע מוקלט של הכרזת העצמאות, אין לי סיכוי למצוא אותו אלא אם הוא מופיע בתוך אייטם טקסטואלי שמדבר על הכרזת העצמאות, או שמי שהעלה את הקטע לרשת תייג אותו כראוי.
מנוע החיפוש גם יתקשה להחליט אם התמונה שהוא מוצא היא תמות אילוסטרציה, תמונת פפרצי, תמונה של צלב חובב, או תמונת יח"ץ רשמית.

פן נוסף של אותה בעיה הוא שמנוע החיפוש גם לא יודע לזהות "זהות" של פריטים. כלומר, אם אני מחפש למשל מידע על אדם מסוים במטרה ליצור איתו קשר, תוצאות החיפוש שיעזרו לי ביותר יהיו כנראה עמודי הפרופיל שלו ברשתות חברתיות שונות. אבל מנוע החיפוש לא יודע לזהות את העמודים האלה כ"עמודי פרופיל", אלא לכל היותר כעמודים שהשם המבוקש מופיע בכותרת שלהם. באותה מידה החיפוש יכול להחזיר תוצאות של כתבות בעיתונות שנעשו על האדם הזה, או אייטמים בבלוגים שהתיחסו אליו. שוב, זיהוי אופיו של הפריט נעשה רק בהתאם למידע הטקסטואלי שצורף אליו.

אני לא יודע אם היקף התוכן הלא טקטואלי מתקרב להיקף התוכן הטקסטואלי ברשת (יש לי תחושה שלא), אבל היכולת של מנועי החיפוש הקיימים לאחזר אותו מוגבלת ביותר.

מסקנות:
א. הקפידו לתייג את התוכן שלכם בקפידה.
ב. אם אני טועה אשמח לקבל קישור רלוונטי, ואם לא – אולי מישהו ירים את הכפפה ויפתח את הטכנולוגיה הזאת?

ש"ס דואגת לצנזורה, ישראל ביתנו לאכיפה

עוד אנחנו עוסקים בהצעת החוק 892 של ש"ס, האמורה, כך מצהיר שר התקשורת, להציל את נפשותיהם הרכות של ילדי ישראל מציפרני הפדופילים, ומפלגת ישראל ביתנו קופצת גם היא על עגלת הילדים, יחד עם שני מיליון שקלים לתקציב המשטרה, שתשתמש בהם – ניחשתם נכון – לצוד פדופילים.

כנראה שגם בישראל ביתנו חושבים שהצעת החוק של ש"ס לא תשיג את מטרותיה, אחרת המיליונים למשטרה יהיו מיותרים שכן השר אטיאס יחסום בגופו את כל הפדופילים ולא יישאר למשטרה את מי לצוד.

First of all

4 מרץ, 2008 7 תגובות

לפני כ-14 שנה קיבלתי במתנה את המודם הראשון שלי, מתנת בר-מצווה מקרוב משפחה מארה"ב. יחד עם המודם (אותו היינו צריכים ללכת במיוחד לשחרר מהמכס בחיפה כי הם לא ידעו מה לעשות איתו) הגיע מכתב ארוך וכמה גזירי עיתונות. בתוכנו של המכתב נזכרתי לאור מהומות הימים האחרונים בקשר להצעת החוק לסינון תכנים באינטרנט, ואני חושב שבתור פוסט פתיחה יהיה ראוי במיוחד להציג אותו כאן (חלקים נבחרים).

שימו לב במיוחד לקטע המודגש ולאזהרות. אני מזכיר שזה מכתב משנת 1993, לפני שמישהו בכנסת ידע מה זה אינטרנט או חשב לפקח עליה.

Today, however, a great new door – or perhaps “highway” would be a better metaphor – is opening up for those who wish to communicate around the globe. The basic skills one needs in order to travel upon it are fairly easy to learn, and, once learned, tend to stay in place (In fact, not very different from learning to drive a car). Far more subtle, are the skills of how to conduct oneself once on the “road”. (This is like the difference between knowing how to press on the gas pedal and turn the steering wheel, and knowing when to signal a turn or to yield the right-of-way.

A modem will give you the world. With it you can connect to some of the most exciting new developments happening all over the world. It will give you access to the vast wealth of programs and data which are distributed on bulletin boards and network services all over the world. It will enable you to participate in discussions with people near and far. It will give you the ability to exchange electronic letters which will take only hours (sometimes only minutes) to travel to the one or many people you wish, instead of days or weeks.

Of course, traveling the world’s information highway is not without its risks and dangers, just as traveling out in the world is not without risk. I have enclosed a collection of newspaper articles relating to the perils and pleasures, risks and treasures to be found in the internet. Please take the time to read them, and to be sure you understand the section labeled “Safety Tips”.

Of course, I am going to add some advice of my own:

(1) Think before you post. Take some time, especially at the beginning, to read the various points of view being exchanged on a topic, before you commit to sending in your answer for everyone else to read. …

(2) Remember that there is a cost for the time you are connected.

(3) Don’t give out too much personal information, such as your (physical) address, or when your parents are home. There are many strange and unfriendly people in the cyber world, as in the real one. But don’t let this discourage you – there are also some very nice people out there, as well. Again, see the “Safety Tips” article.

(4) Remember that not everyone is what he or she seems to be. On the Net, a person is his or her words, and can make up whatever personality he or she wishes.

Well, that’s about all I can think of to advise for the moment. Enjoy your connection to the world. It’s an exciting place. And please write to me. I will be looking for your letters.

המכתב נסרק בעזרת תוכנת OCR, ולמרות שערכתי מספר סבבי הגהה, ייתכנו טעויות.

FireStats icon ‏מריץ FireStats‏

Switch to our mobile site