כותרות TheMarker >
    ';

    יישומונים - תכנות להנאה ופרנסה

    בבלוג אספר איך זה להיות מתכנת עצמאי זעיר (Micro ISV), להשיג לקוחות, לאפיין פרויקטים, לפתח תוכנות ואתרים וכל מה שמסביב. אתמקד בבניית אתרים חכמה, מודרנית וכייפית. אנסה להראות איך נראה עולם האינטרנט מבפנים, ממבט של מי שבונה אותו.

    ארכיון

    תגובות (0)

    נא להתחבר כדי להגיב

    התחברות או הרשמה   

    סדר התגובות :
    ארעה שגיאה בזמן פרסום תגובתך. אנא בדקו את חיבור האינטרנט, או נסו לפרסם את התגובה בזמן מאוחר יותר. אם הבעיה נמשכת, נא צרו קשר עם מנהל באתר.
    /null/cdate#

    /null/text_64k_1#

    אין רשומות לתצוגה

    עברית שפה קשה

    0 תגובות   יום שישי , 12/6/09, 21:53

    קידום אורגני מתבסס על תוכן ולא על טריקים חיצוניים, ותוכן הוא כידוע טקסט, ובמקרה שלנו בעברית. כדי שמנוע חיפוש יוכל לנתח ולקטלג דף הוא חייב להיות מסוגל "להבין" אותו, אולי לא ברמה סמנטית ראויה, אבל ברמה תחבירית בוודאי. חלקים רבים בקוד של מנוע החיפוש דוגמת הורדת דפים, אחסון ומטמון הם לא תלויי שפה (language agnostic), אבל המנוע הניתוחי (תחביר וסמנטיקה) חייב להיות מפותח ייעודית לכל שפה, ולפעמים גם לאיזור גיאוגרפי ותרבות. ככל שההתאמה רחבה וכוללנית יותר מקבלים תוצאות יותר טובות ומדויקות.
    אם מסתכלים על ישראל, גוגל הוא חסר מתחרים, ולא מעט בזכות העובדה שהוא מותאם יחסית טוב לעברית. אבל יש גם דוגמאות הפוכות. גוגל למשל כשלה בהתאמה הן לשפה הקוריאנית (המאוד קשה לעיבוד מכונה) ובמיוחד לתרבות הקוריאניות, ונענשה בפחות מעשירית מנתח השוק. דוגמא פחות קיצונית היא רוסיה, שם גוגל מפגרת אחרי Yandex. עדות לקשיי גוגל בשוק הרוסי אפשר לראות בעובדה שגוגל אינו מנוע חיפוש ברירת המחדל בפיירפוקס הרוסי.

    בראשית ימיו של גוגל עברית לא זכתה ליחס מיוחד, והשתייכה לקבוצת הניתוח הגנרית - ניתוח שטחי ברמה של פירוק טקסט למילים מספרים. עם הזמן המצב הלך והשתפר, והיום כולל פעולות מורפולוגיות בסיסיות כמו שגיאות כתיב נפוצות, ריבוי והשמטת יחסים. אבל. המנוע המורפולוגי של גוגל הוא נחות ועלוב יחסית לאנגלית. סיבה ראשונה לכך היא כמובן שאנגלית חשובה יותר לגוגל מאשר עברית. סיבה לא פחות חשובה, ויותר מעניינת היא טכנית-לשונית. עברית היא שפה מאוד קשה לניתוח מכונה. אלו הן הסיבות העיקריות שגוגל עברי הוא חיקוי חיוור של גוגל אנגלי, התוצאות הן פחות רלוונטיות, בעיקר אם אתה לא בטוח מה אתה מחפש.
    חזרה לקשיי עברית. ניתוח טקסט מתבסס על stemming - חילוץ העיקר במילה שהוא המשקל או השורש. מאפייני השפה דוגמת משקלים ובניינים מקלים על התהליך. אבל שלל התחיליות והסופיות בעברית מסבך מהותית את העבודה. בעברית ניתן לחבר תחיליות, יש שיכול אותיות, סמיכויות, דגשים שמעלימים אותיות וכל מה ששוכחים לאחר הבגרות בלשון. כל זה היה פתיר אם היו כללים קבועים לכך, אבל לפעמים מבנה המילה הוא תלוי-הקשר. בעברית כדי לפרק מילה צריך להבין באיזה הקשר היא באה, להיוועץ במילון האם זו מילה שלמה או תחילית, לחזור על התהליך עבור סופיות ועוד. ובל נשכח שבעברית אין ממש אותיות אהוי, אלא ניקוד. מה שרק מביא אותנו לכתיב חסר/מלא. סקירה של מה נתמך על-ידי גוגל ניתן למצוא ברשומה זו של צחי הררי כאן. ניתוח מלא של טקסט עברי הוא לא רק מורכב אלגוריתמית, אלא גם יקר חישובית לביצוע, דבר שמנועי חיפוש לא אוהבים. כל עוד לגוגל אין מתחרים ראויים בישראל, והתוצאות הן "טובות מספיק" לא הייתי מצפה לשיפור ניכר בקרוב.
    אז איך כל זה קשור לקידום אתרים אורגני? בגלל הקשיים שצויינו לעיל, מומלץ להתאים את הצורה בה כותבים טקסטים עיבריים. אזהרה מראש: לא להגזים בגוגליגציה של העברית. לא חסרים אתרים שממוקמים גבוהה בגוגל הודות לאופן כתיבה מיוחד, אבל עילגים עד כדי חוסר יכולת להבין מה הם רוצים ממך. חשוב לזכור שהמטרה של אתר מסחרי היא להרוויח כסף, לא להיות גבוה בגוגל (אמצעי עזר בלבד). אין כל טעם להיות ראשון רק כדי שהגולשים יברחו מהאתר כי הוא לא מספיק ברור.

    מסיבוכי העברית ניתן לגזור מספר המלצות פשוטות ומועילות:

    • השתמשו בצורת יחיד ורבים של מילות המפתח
    • הקפידו כי מילות המפתח מופיעות גם עצמאית ולא רק בסמיכות או עם תחיליות
    • השתמש במילות המפתח על שלל ההטיות הנפוצות, בעיקר כתיב חסר/מלא
    בעיה יותר קשה היא שגיאות כתיב, גוגל לא תופס מספיק מהם, אבל מצד שני לא רוצים לשים שגיאות כתיב באתר במתכוון. זהו כמובן מבחר מאוד מצומצם של השפעות השפה על חיפושיות. תחום ה-NLP (עיבוד שפה טבעית) הוא מאוד מורכב, אבל זה הכוון של מנועי החיפוש וכדאי לנסות להבין את שיטות העבודה בו. הבנת פעולתו של מנוע החיפוש היא הבסיס לעבודתו של מקדם האתרים.
    דרג את התוכן:

      פרופיל

      felixg
      1. שלח הודעה
      2. אוף ליין
      3. אוף ליין

      תגיות