קידום אתר במנועי חיפוש

מאת: ניר אדר
תאריך פרסום: 10.10.2005
אינדקס מאמר
1) הקדמה

2) מנוע החיפוש גוגל

3) טכניקות לקידום האתר

מנוע החיפוש גוגל

מיקום אתר בגוגל מושפע מגורמים רבים. נתחיל את הצגת נושא קידום האתרים בהצגה תיאורטית של שניים מגורמים אלו – אלגוריתם PageRank ואלגוריתם Hilltop. לאחר מכן, נמשיך בטכניקות מעשיות המשמשות לקידום אתרים.

Pagerank

Google קובע את מיקום הדף על ידי מספר מדדים. אחד מהעיקריים בהם הוא Pagerank.

PageRank זהו מספר בו משתמש Google כדי להגדיר את מידת החשיבות של דף מסויים באינטרנט.

כיצד ערך זה מחושב? אם נוכל לענות על שאלה זו, נוכל לכתוב את האתר שלנו בצורה כזו שהערך ש-google ומנועי חיפוש אחרים יתנו לו יהיה גבוה יותר.

אלגוריתם ה-PageRank בו משתמש גוגל כדי לתת ניקוד לאתר מתבסס על ניתוח מבנה הקישורים בין האתרים השונים באינטרנט.

הרעיון המנחה - ככל שיש יותר קישורים נכנסים אל דף מסויים ברשת, כך הדף כנראה חשוב יותר. בעצם – כל אתר המקשר אל דף מסוים, " מצביע אמון" בדף זה. לפיכך הרבה מהמאמץ לקידום האתר הינו להשגת קישורים המקשרים אל האתר שלנו. יש לציין כי הניקוד ניתן פר דף, ולא פר אתר – הניקוד של דף מסויים באתר עשוי להיות גבוה אם ישנם הרבה קישורים נכנסים אליו, וניקוד של דף אחר באותו אתר יכול להיות נמוך.

כמו כן – PageRank הוא מספר כללי שניתן לעמוד, ללא קשר למילות המפתח המופיעות בו. זהו מדד המציין את חשיבות העמוד באופן כללי.

המתעניינים יכולים למצוא את המסמך המקורי בו הציגו היוצרים של גוגל את עבודתם בכתובת:

http://www-db.stanford.edu/~backrub/google.html


מעט מתמטיקה: הנוסחה המשמשת לחיפוש ה-PageRank (בקיצור PR) של אתר מתבססת על הקישורים המגיעים אל אותו האתר.

עבור אתר A, נסתכל על הקישורים הנכנסים אליו. נניח כי דף T1 מקשר אל דף A.

לדף T1 יש PageRank משלו. נסמנו ב-PR(T1). כמו כן, דף T1 מקשר אל A. ייתכן שהוא מקשר אל דפים נוספים. נסמן את מספר הקישורים בדף T1 בסימון C(T1).

בהינתן דפים T1, ..., Tn המקשרים אל דף A, ה-PageRank של הדף A יחושב בצורה הבאה:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

d הוא ערך קבוע המקיים 0 < d < 1, וערכו לפי האלגוריתם המקורי הוא 0.85.

נשים לב שערך ה-PR של דף יכול להיות בין 0 לערך אינסופי. אלו ממכם המכירים קצת את נושא קידום האתרים יכולים להתפלא – הסקלות שגוגל מציגים כאשר הם מדברים על PR מדברות על מספרים בין 0 ל-10. התשובה היא שהמספרים האלה הם נירמול של התוצאות, המתפרסות על טווח אינסופי באופן פוטנציאלי של ערכים.

ההערכה כיום לגבי הקשר בין ה-PR אותו מחשב הנוסחה לבין ה-PR אותו גוגל מציגים (ב-toolbar שלהם, למשל), הינה בערך זו:

ערך PageRank אמיתי

ערך ה-PageRank ש-Google Toolbar מציג

0-10

1

11-100

2

101-1000

3

...

...

כלומר הערך המוצג הוא של הערך האמיתי המחושב על ידי הנוסחה. מכאן: קיימים הרבה פחות אתרים בעלי PR גבוה ב-toolbar, מאשר נמוך. יש לציין כי זו השערה, וגוגל לא אישרו או הפריכו אותה מעולם למיטב ידיעתי.

ניתן לכתוב על אלגוריתם PageRank מאמרים ארוכים. מסמך זה לא יתרכז בכל הדקויות והאפשרויות שניתן להשיג באמצעות ה-PageRank. נסתפק במסמך זה בסקירה קצרה זו על מנת להבין את הרעיון הכללי של האלגוריתם.


אלגוריתם Hilltop

אלגוריתם נוסף המשמש לקביעת תוצאות החיפוש בגוגל הוא אלגוריתם Hilltop. אלגוריתם זה הוכנס לשימוש בגוגל בסביבות שנת 2003.

הרעיון שעומד מאחוריו הוא קיומם של " דפים מוסמכים" בנושאים שונים. בניגוד לאלגוריתם ה-PR המתייחס רק לשאלה " כמה קישורים נכנסים אל דף מסוים" אלגוריתם Hilltop שואל את השאלה " איזה קישורים נכנסים אל הדף" . קישורים מאתרים רלוונטיים לנושא של תוצאות החיפוש יחשבו הרבה יותר מקישורים השייכים לנושאים לא רלוונטיים.

כיצד האלגוריתם מגדיר מהם " דפים מוסמכים" בנושא מסויים?

האלגוריתם מניח מספר הנחות:

  • אינדקסים הנעשים באופן ידני על ידי בני אדם, כגון Yahoo או dmoz הם סמכות מכיוון שמנהליהם מנסים לקשר לתוכן רלוונטי ככל האפשר. החיסרון באינדקסים אלו – מכילים מספר קטן יחסית של קישורים.
  • ישנם מנגנונים המספקים סטטיסטיקה על דפים אליהם אנשים נכנסו ברחבי האינטרנט. דף שאליו נכנסו אנשים רבים ושהו בו זמן מה, סביר להניח שהוא חשוב ורלוונטי בנושא בו הוא עוסק. כמו כן על פי מבנה הקישורים באינטרנט ניתן לתת חשיבות לדף – קישורים רבים נכנסים מעידים על דף שהוא ככל הנראה חשוב.
  • " דפים מוסמכים" נוטים לקשר לדפים מוסמכים אחרים, ולפיכך גם הדפים המקושרים ייחשבו ל" סמכות" באותו נושא. זאת בהסתייגות – האלגוריתם דורש שלפחות שני דפים סמכותיים בנושא מסויים צריכים לקשר לדף אחר, על מנת שהדף האחר ייחשב גם הוא סמכותי באותו נושא.

אלגוריתם PR התבסס על הנקודה השניה – קישורים נכנסים אל הדף. אם זאת, הוא לא הבדיל בין דף שהוא " סמכות בנושא מסוים" לדף שהוא " סמכות" . ייתכן דף מאוד חשוב הכולל את מילת המפתח, אולם הוא לא מומחה בה, ודף אחר, משני יותר, הוא הדף הרלוונטי והמהווה את הסמכות הגדולה ביותר עבור מילה זו. אלגוריתם Hilltop מנסה לאתר את דפי הסמכות בכל נושא.

המאמר המקורי על אלגוריתם Hilltop נמצא כאן: http://www.cs.toronto.edu/~georgem/hilltop


כיצד גוגל משתמש בפרמטרים השונים?

כאן מגיעה התעלומה – ידוע כי גוגל משתמש באלגוריתם ה-PR כדי לדרג אתרים. כמו כן ידוע כי החל מתקופה כלשהי בשנת 2003 הוא החל להשתמש באלגוריתם Hilltop, ולשכלל את התוצאות שלהם.

הנוסחה המדוייקת בה גוגל משתמש איננה ידועה ואיננה נחשפת לציבור.

יותר מזה – ישנן שתי גרסאות לאלגוריתם Hilltop שפורסמו. ידוע שגוגל משתמשים באחת מהן, אך לא ידוע באיזו מהן בדיוק.

ההשערה הרווחת היא שגוגל מנסה להשתמש בשילוב של אלגוריתם PageRank, אלגוריתם Hilltop ופרמטרים נוספים.

במידה ועבור מילת חיפוש מסויימת אין אתרים המוגדרים " אתרים מומחים" , גוגל חוזר להשתמש באלגוריתם ה-PageRank המקורי.

כעת, לאחר שהצגנו מעט רקע על גוגל, נתקדם אל הנושא המרכזי של מסמך זה – כיצד בעזרת ההיכרות שלנו עם האלגוריתם של מנוע החיפוש גוגל, ובעזרת אופטימיזציות נוספות – נוכל להתקדם בתוצאות מנועי חיפוש?

בנושאים אלו יעסוק הפרק הבא.


לדף הקודם לדף הבא לדיון על המאמר בפורומים שלח לחבר