جستجو در وب(Search in Web)

تهيه کننده : دکتر جواد بهشتيان - دبير رايانه منطقه 6 تهران

موتور جستجو

  كساني كه با اينترنت كار مي كنند، با ابزاري به نام موتور جست وجو (Search engine) آشنا هستند. اين ابزار براي يافتن اطلاعات در زمينه هاي مختلف است. گوگل معروف ترين موتور جست وجوست که در سال هاي پاياني دهه 1990 به وجود آمد، و قابليت هاي بسياري براي كاربران اينترنت مهيا کرده است. جست وجوي اخبار، عكس، فيلم، ويدئو، كتاب، گوگل زمين، راهنماي سايت ها، و مهمتر از همه جست وجوي كليد واژه ها، از جمله بخش هاي اين موتور جست وجو است كه هر روز قسمتي جديد به آن اضافه ميشود. 10درصد بودجه پژوهشي گوگل صرف تحقيقات، 20 درصد هزينه قابليت هاي جانبي آن و 70درصد بودجه تحقيقاتي گوگل صرف توانائي قدرت جستجو، ميگردد.شناخت بيشتر و آموزش ساده معاني موتورهاي جستجو، نيازيست که كاربران بتوانند بهترين بهره را از آن ببرند.

براي ديدن تصوير بزرگتر بر روي آن کليک کنيد.

  موتور جستجو يا جستجوگر به طور عمومي به برنامه‌اي گفته مي‌شود که کلمات کليدي را در يک سند يا بانک اطلاعاتي جستجو مي‌کند. در اينترنت به برنامه‌اي گفته مي‌شود که کلمات کليدي موجود در فايل‌ها و سندهاي وب جهاني، گروه‌هاي خبري، منوهاي گوفر و آرشيوهاي FTP را جستجو مي‌کند.

  برخي از موتورهاي جستجو براي تنها يک وب‌گاه(پايگاه وب) اينترنت به کار برده مي‌شوند و در اصل موتور جستجويي اختصاصي آن وب‌گاه هستند و تنها محتويات همان وب‌گاه را جستجو مي‌کنند.

  برخي ديگر نيز ممکن است با استفاده از SPIDERها محتويات وب‌گاه‌هاي زيادي را پيمايش کرده و چکيده‌اي از آن را در يک پايگاه اطلاعاتي به شکل شاخص‌گذاري‌شده نگهداري مي‌کنند. کاربران سپس مي‌توانند با جستجو کردن در اين پايگاه داده به پايگاه وبي که اطلاعات موردنظر آن‌ها را در خود دارد پي ببرند.

انواع جستجوگرها در اينترنت

  موتورهاي جستجو به دو دسته کلي تقسيم مي‌شوند. موتورهاي جستجوي پيمايشي (خودکار) و فهرست‌هاي تکميل‌دستي (غير خودکار). هر کدام از آن‌ها براي تکميل فهرست خود از روش‌هاي متفاوتي استفاده مي‌کنند البته لازم به ذكر است كه گونه‌اي جديد از موتورهاي جستجوگر تحت عنوان "ابر جستجوگر" (Meta Search Engines) نيز وجود دارد كه در ادامه به توضيح هر يك از اين موارد خواهيم پرداخت :

موتورهاي جستجوي پيمايشي

  موتورهاي جستجوي پيمايشي (Crawler-Based Search Engines) مانند گوگل فهرست خود را بصورت خودکار تشکيل مي‌دهند. آنها وب را پيمايش کرده، اطلاعاتي را ذخيره مي‌کنند، سپس کاربران از ميان اين اطلاعات ذخيره شده، آنچه را که مي‌خواهند جستجو مي‌کنند. اگر شما در صفحه وب خود تغييراتي را اعمال نماييد، موتورهاي جستجوي پيمايشي آن‌ها را به طور خودکار مي‌يابند و سپس اين تغييرات در فهرست‌ها اعمال خواهد شد. عنوان، متن و ديگر عناصر صفحه، همگي در اين فهرست قرار خواهند گرفت.وجه مشخصه اين گروه از جستجوگرها وجود نرم افزار موسوم به SPIDER در آن‌هاست. اين شبه نرم‌افزار کوچک بصورت خودکار به کاوش در شبکه جهاني پرداخته و از پايگاه‌هاي وب يادداشت‌برداري و فهرست‌برداري مي‌کند سپس اين اطلاعات را براي تجزيه و تحليل و طبقه‌بندي به بانک اطلاعاتي موتور جستجوگر تحويل مي‌دهد.

فهرست‌هاي دست‌نويس شده

  فهرست‌هاي دست‌نويس‌شده يا (Human-Powered Directories) مانند فهرست بازي (Open Directory) مانند Dmoz وابسته به کاربراني است که آن را تکميل مي‌کنند. شما صفحه مورد نظر را به همراه توضيحي كوتاه در فهرست ثبت مي‌کنيد يا اين کار توسط ويراستارهايي که براي آن فهرست در نظر گرفته شده، انجام مي‌شود. عمل جستجو در اين حالت تنها بر روي توضيحات ثبت شده صورت مي‌گيرد و در صورت تغيير روي صفحه وب، روي فهرست تغييري به وجود نخواهد آورد. چيزهايي که براي بهبود يک فهرست‌بندي در يک موتور جستجو مفيد هستند، تأثيري بر بهبود فهرست‌بندي يک دايرکتوري ندارند. تنها استثناء اين است که يک سايت خوب با پايگاه داده‌اي با محتواي خوب شانس بيشتري نسبت به يک سايت با پايگاه داده ضعيف دارد. البته در مورد جستجوگرهاي مشهور مانند گوگل و ياهو، يک مولفه ديگر هم براي بهبود فهرست‌بندي وجود دارد که کمک مالي (يا به اصطلاح اسپانسر) است، يعني وب‌گاه‌هايي که مايل به بهبود مکان وب‌گاه خود در فهرست بندي هستند، مي‌توانند با پرداخت پول به اين جستجوگرها به هدف خويش برسند.

موتورهاي جستجوي ترکيبي با نتايج مختلف

  به موتورهايي گفته مي‌شود که هر دو حالت را در کنار هم نمايش مي‌دهند. غالباً، يک موتور جستجوي ترکيبي در صورت نمايش نتيجه جستجو از هر يک از دسته‌هاي فوق، نتايج حاصل از دسته ديگر را هم مورد توجه قرار مي‌دهد. مثلاً موتور جستجوي ام.اس.ان (MSN) بيشتر نتايج حاصل از فهرست‌هاي تکميل‌دستي را نشان مي‌دهد اما در کنار آن نيم نگاهي هم به نتايج حاصل از جستجوي پيمايشي دارد.

ابر جستجوگرها

  اين گونه جديد از موتورهاي جستجوگر كه قدمت چنداني نيز ندارند،بصورت همزمان از چندين موتورجستجوگر براي کاوش در شبکه براي کليد واژه مورد نظر استفاده مي‌کنند. بدين معني كه اين موتور عبارت مورد نظر شما را در چندين موتورجستجوگر ‍ِ جستجو کرده و نتايج آنها را با هم تركيب كرده و يك نتيجه كلي به شما ارائه مي‌دهد. به‌عنوان مثال موتور جستجوگر داگ پايل [1] از نتايج حاصل از موتورهاي Google - Yahoo - MSN و ASK استفاده كرده و نتيجه حاصله را به شما ارائه مي‌دهد.لازم به ذکر است که روش و يا راهکار مشخص و يکساني براي ترکيب نتايج حاصله از موتورهاي پايه - موتورهايي که به عنوان موتور جستجوگر استفاده ميشوند مانند Yahoo که يک موتور پايه براي dogpile مي‌باشد - وجود ندارد.

بررسي يک موتور جستجوي پيمايشي

  موتورهاي جستجوي پيمايشي شامل سه عنصر اصلي هستند. اولي در اصطلاح عنکبوت (Spider) است که پيمايش‌گر (Crawler) هم ناميده مي‌شود. پيمايش‌گر همين که به يک صفحه مي‌رسد، آن را مي‌خواند و سپس پيوند‌هاي آن به صفحات ديگر را دنبال مي‌نمايد. اين چيزيست که براي يک سايت پيمايش‌شده (Crawled) اتفاق افتاده است. پيمايش‌گر با يک روال منظم، مثلاً يک يا دو بار در ماه به سايت مراجعه مي‌کند تا تغييرات موجود در آن را بيابد. هر چيزي که پيمايش‌گر بيابد به عنصر دوم يک موتور جستجو يعني فهرست انتقال پيدا مي‌کند. فهرست اغلب به کاتالوگي بزرگ اطلاق مي‌شود که شامل ليستي از آنچه است که پيمايش‌گر يافته است. مانند کتاب عظيمي که فهرستي را از آنچه پيمايش‌گرها از صفحات وب يافته‌اند، شامل شده است. هرگاه سايتي دچار تغيير شود، اين فهرست نيز به روز خواهد شد. از زماني که تغييري در صفحه‌اي از سايت ايجاد شده تا هنگامي که آن تغيير در فهرست موتور جستجو ثبت شود مدت زماني طول خواهد کشيد. پس ممکن است که يک سايت پيمايش‌شده باشد اما فهرست‌شده نباشد. تا زماني که اين فهرست‌بندي براي آن تغيير ثبت نشده باشد، نمي‌توان انتظار داشت که در نتايج جستجو آن تغيير را ببينيم. نرم‌افزار موتور جستجو، سومين عنصر يک موتور جستجو است و به برنامه‌اي اطلاق مي‌شود که به صورت هوشمندانه‌اي داده‌هاي موجود در فهرست را دسته‌بندي کرده و آن‌ها را بر اساس اهميت طبقه‌بندي مي‌کند تا نتيجه جستجو با کلمه‌هاي درخواست شده هر چه بيشتر منطبق و مربوط باشد.

رتبه‌بندي صفحات وب توسط موتورهاي جستجو

  وقتي شما از موتورهاي جستجوي پيمايشي چيزي را براي جستجو درخواست مي‌نماييد، تقريباً بلافاصله اين جستجو از ميان ميليون‌ها صفحه صورت گرفته و مرتب مي‌شود بطوريکه مربوط‌ترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتري را احراز مي نمايد. البته بايد در نظر داشته باشيد که موتورهاي جستجو همواره نتايج درستي را به شما ارائه نخواهند داد و مسلماً صفحات نامربوطي را هم در نتيجه جستجو دريافت مي‌کنيد و گاهي اوقات مجبور هستيد که جستجوي دقيقتري را براي آنچه مي‌خواهيد انجام دهيد. اما موتورهاي جستجو کار حيرت‌انگيز ديگري نيز انجام مي‌دهند. فرض کنيد که شما به يک کتابدار مراجعه مي‌کنيد و از وي درباره «سفر» کتابي مي‌خواهيد. او براي اين که جواب درستي به شما بدهد و کتاب مفيدي را به شما ارائه نمايد با پرسيدن سؤالاتي از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحويل خواهد داد. موتورهاي جستجو همچنين توانايي ندارند اما به نوعي آنها را شبيه‌سازي مي‌کنند. پس موتورهاي جستجوي پيمايشي چگونه به پاسخ مورد نظرتان از ميان ميليونها صفحه وب مي‌رسند؟ آنها يک مجموعه از قوانين را دارند که الگوريتم ناميده مي‌شود. الگوريتم‌هاي مورد نظر براي هر موتور جستجويي, خاص و تقريباً سري هستند اما به هر حال از قوانين زير پيروي مي‌کنند:

مکان و بسامد

  يکي از قوانين اصلي در الگوريتم‌هاي رتبه‌بندي موقعيت و بسامد (تعداد تکرار) واژه‌هايي است که در صفحه مورد استفاده قرار گرفته‌اند که بطور خلاصه روش مکان-بسامد (Location/Frequency Methode) ناميده مي‌شود. کتابدار مذکور را به خاطر مي‌آوريد؟ لازم است که او کتاب‌هايي در رابطه با واژه ي «سفر» را طبق درخواست شما بيابد. او در مرحله اول احساس مي‌کند که شما به دنبال کتاب‌هايي هستيد که در نامشان کلمه «سفر» را شامل شوند. موتورهاي جستجو هم دقيقاً همان کار را انجام مي‌دهند. آنها هم صفحاتي را برايتان فهرست مي‌کنند که در برچسب عنوان (Title) موجود در کد زبان نشانه‌گذاري اَبَرمتني (HTML) حاوي واژه «سفر» باشند. موتورهاي جستجو همچنين به دنبال واژه مورد نظر در بالاي صفحات و يا در آغاز بندها (پاراگراف‌ها) هستند. آنها فرض مي‌کنند که صفحاتي که حاوي آن واژه در بالاي خود و يا در آغاز بندها و عناوين باشند به نتيجه مورد نظر شما مربوط‌تر هستند. بسامد عامل بزرگ و مهم ديگري است که موتورهاي جستجو از طريق آن صفحات مربوط را شناسايي مي‌نمايند. موتورهاي جستجو صفحات را تجزيه کرده و با توجه به تکرار واژه‌اي در صفحه متوجه مي‌شوند که آن واژه نسبت به ديگر واژه‌ها اهميت بيش‌تري در آن صفحه دارد و آن صفحه را در درجه بالاتري نسبت به صفحات ديگر قرار مي‌دهند.

  چگونگي کارکرد دقيق موتورهاي جستجو درباره روش‌هايي از قبيل مکان-تکرار فاش نمي‌شود و هر موتور جستجويي روش خاص خود را دنبال مي‌کند. به همين دليل است که وقتي شما واژه‌هاي همانندي را در موتورهاي متفاوت جستجو مي‌کنيد، به نتايج متفاوتي مي‌رسيد. الگوريتم‌هاي اوليه موتورهاي جستجوي معتبر و بزرگ همچنان محرمانه نگهداري مي شوند. برخي موتورهاي جستجو نسبت به برخي ديگر صفحات بيشتري را فهرست کرده‌اند. نتيجه اين خواهد شد که هيچ موتور جستجويي نتيجه ي جستجوي مشترکي با موتور ديگر نخواهد داشت و شما نتايج متفاوتي را از آن‌ها دريافت مي‌کنيد. موتورهاي جستجو همچنين ممکن است برخي از صفحات را از فهرست خود حذف کنند. البته به شرطي که آن صفحات با هرزنامه (Spam) شدن سعي در گول زدن موتورهاي جستجو داشته باشند. فرستادن هرزنامه (Spamming) روشي است که برخي از صفحات براي احراز رتبه ي بالاتر در موتورهاي جستجو در پيش مي‌گيرند و آن به اين صورت است که با تکرار بيش از حد واژه‌ها و يا بزرگ نوشتن يا بسيار ريز نوشتن متن ها بطور عمدي كوشش، در بر هم زدن تعادل و در نتيجه فريب موتورهاي جستجو دارند. آنها سعي دارند که با افزايش عامل تکرار، در رتبه بالاتري قرار بگيرند. البته آنگونه که گفته شد تعداد تکرارها اگر از حد و اندازه خاصي فراتر رود نتيجه معکوس مي‌دهد. موتورهاي جستجو راه‌هاي متنوعي براي جلوگيري از فرستادن هرزنامه دارند و در اين راه از گزارش‌هاي کاربران خود نيز بهره مي‌برند. امروزه بهينه‌سازي سايت‌هاي اينترنت براي موتورهاي جستجو يکي از مهم‌ترين روش هاي جلب بازديدکننده به سايت است.

عوامل خارج از صفحه

  موتورهاي جستجوي پيمايشي اکنون تجربه فراواني در رابطه با وب‌دارهايي دارند که صفحات خود را براي کسب رتبه بهتر مرتباً بازنويسي مي‌کنند. بعضي از وب‌دارها ي خبره حتي ممکن است به سمت روش‌هايي مانند مهندسي معکوس براي کشف چگونگي روش‌هاي مکان-تکرار بروند. به همين دليل، تمامي موتورهاي جستجوي معروف از روش‌هاي امتيازبندي «خارج از صفحه» استفاده مي‌کنند. عوامل خارج از صفحه عواملي هستند که از تيررس وب‌دارها خارجند و آنها نمي‌توانند در آن دخالت کنند و مسأله مهم در آن تحليل ارتباطات و پيوندهاست. به وسيله تجزيه صفحات، موتورهاي جستجو پيوندها را بررسي کرده و از محبوبيت آنها مي‌فهمند که آن صفحات مهم بوده و شايسته ترفيع رتبه هستند. به علاوه تکنيک‌هاي پيشرفته به گونه‌اي است که از ايجاد پيوندهاي مصنوعي توسط وب‌دارها براي فريب موتورهاي جستجو جلوگيري مي‌نمايد. علاوه بر آن موتورهاي جستجو بررسي مي‌کنند که کدام صفحه توسط يک کاربر که واژه‌اي را جستجو کرده انتخاب مي‌شود و سپس با توجه به تعداد انتخاب‌ها، رتبه ي صفحه ي مورد نظر را تعيين کرده و مقام آن را در فهرست نتيجه ي جستجو جابه‌جا مي‌نمايند.

تعريف پورتال

  تعريف اوليه پورتال بسيار ساده است : "مکاني (Hub) که ساده ترين کاربران اينترنت با رجوع به آن بتوانند به راحتي از سرويس هاي متداول در اينترنت بهره مند شوند و يا اطلاعات مورد نياز خود در را بدست آورند ". هريک از اين کلمات دقيقا نشان دهنده ويژگي خاصي از پورتال هستند :

      مکان : در اکثر موارد پورتال به عنوان يک وب سايت با ويژگي هاي خاص شناخته مي شود. اين وب سايت مي تواند يک واسط (Interface) بين کاربران و تعدادي وب سايت زير مجموعه ي پورتال باشد و يا اينکه به عنوان وب سايتي واسط، بين کاربران و اينترنت قرار گيرد. اما تعاريفي نيز وجود دارند که مستقيما از لغت وب سايت استفاده نکرده در اين مورد سکوت مي کنند : "پورتال دروازه اي است به سايتهاي ديگر " و يا "پورتال نقطه ورود کاربران به اينترنت است " .

      ساده ترين کاربران : کاربراني که به پورتال مراجعه مي کنند ، لزوما کاربران حرفه اي اينترنت نيستند. پورتال اين توانايي را به کاربران مي دهد که حتي کم تجربه ترين آنها بتواند از اطلاعات و سرويسهاي ارائه شده استفاده کند . بر حسب نوع پورتال ، کاربران آن نيز متفاوتند و شامل کاربران معمولي ، مشتريان ، توليدکنندگان ، کارمندان سازمان و... باشند .

      سرويس هاي متداول در اينترنت : هر وب سايتي بر حسب نوع فعاليت کاري خود، ارائه دهنده ي سرويس خاصي است . اما يک پورتال بايد توانايي ارائه سرويس هاي عمومي باشد، نظير سرويس پست الکترونيک رايگان ، انجمن ،تالار گفتگو ، اخبار ، نقشه هاي مرتبط با موضوع پورتال ، جستجو در سايتهاي زير مجموعه و اينترنت ، شخصي سازي توسط کاربر و شخصي سازي توسط پورتال(Tailoring) باشد . در پورتالهاي تجاري، خدمات خريد و فروش آنلاين ، ارائه کاتالوگ و سيستمهاي پرداخت لحاظ مي گردند .

      اطلاعات مورد نياز : يکي از ويژگي هاي پورتال دريافت اطلاعات از سايتهاي ديگر است . پورتال تنها دريافت کننده ي اطلاعات است و آنها را به اشتراک مي گذارد . به عبارت بهتر پورتال اطلاعاتي که در سايت ها و پايگاه هاي مختلف وجود دارد را سازماندهي کرده و نمايش مي دهد. در نظر داشته باشيد که اين اطلاعات بايد استاندارد شده باشند .

  بنابراين :

  پورتال ، توليد کننده و مديريت کننده اطلاعات نيست .

  پورتال ، استاندارد کننده اطلاعات نيست .

  پورتال ، يک وب سايت همه کاره نيست .

  به عبارت ديگر پورتال چارچوبي است که اطلاعات و سرويس هاي منابع مختلف را کنار يکديگر قرار داده و تحت يک طرح امنيتي ارائه مي دهد . با استفاده از پورتال مي توان به يکپارچه سازي سيستم هاي مجزا کمک کرده و کاربران را براي استفاده از خدمات موجود ياري داد.

  Search Engine Dictionary فرهنگ لغت موتور جستجو

  عبارت مورد جستجو (Search Terms) يا درخواست (Query) : عبارتي كه جستجوگر در محل جستجوي موتور ثبت مي‌كند.

  فهرست (Index): مجموعه‌ اطلاعاتي موتور هاي جستجو.

  دايركتوري‌ها (Directories): نوعي موتور جستجو كه اطلاعات و اسامي در آنها گرد‌آوري شده و از سيستم جستجوي اتوماتيك در وب استفاده نمي کند و تنها با تحقيق افراد ميباشد . در اين سيستم فهرست اسامي و آدرس ها توسط تعدادي اپراتور ذخيره شده که موقع جستجو، از اطلاعات تهيه شده براي رسيدن به هدف استفاده مي کند.

  Robots.txt: اين فايل صفحات اينترنت را از ليست شدن و فهرست‌گيري توسط ديگر موتورهاي جستجو برحذر مي دارد.

  كاوشگر(Crawler) يا ربات عنكبوت( Spider): قسمتي از موتور جستجو كه بطور خودکار در وب تحقيق کرده اسامي را جمع‌آوري ميکند و براي رسيدن به صفحات اينترنتي لينك‌هاي گوناگون را دنبال و به هدف ميرسد.

  موتورهاي جستجوي متا (Meta Search Engine): موتورهاي كاوش كه به جاي جستجو در وب و پاسخ سوال جستجوگر، از فهرست و ليست‌هاي موتور هاي جستجوي ديگران پاسخ مي دهد.

  برچسب‌هاي متا (Meta Tags): اطلاعاتي كه براي انتقال اطلاعات به جستجوگر (Crawler)، نمايانگرهاي اينترنت و بعضي ديگر از نرم ‌افزارهاي كاربردي، در صفحات اينترنت گذارده مي‌شوند که قابل ديدن کاوشگر نيست.

  صفحه نتايج (Results Page): مخفف search Engine Result Pages يا SERPs صفحه جواب نهائي به سوال جستجوگر.

  فرمانبرداري (Submission): اجازه ورود به فهرست و ليست موتور جستجو، URL ثبت شده توسط سيستم کاوشگر .

  لينك‌هاي پشت‌صحنه (Back Links): کليه ي( Inbound Links) لينك‌هايي كه به يك صفحه اينترنتي خاص مربوط هستند.

  پنهان‌كاري (Cloaking): حرکاتي كه طي آن موتور جستجو، محتوياتي از يك آدرس اينترنتي (URL) را ذخيره مي‌كند كه متفاوت با محتويات آنچه كه جستجوگر مشاهده مي‌كند است.

  لينك دوطرفه (Reciprocal Link): لينك تبادل بين دو وب سايت.

  الگوريتم (Algorithm): قوانين موتور جستجو براي منظم کردن اسامي و کلمات در حافظه، تا قادر به پاسخ سوالي مشخص باشد.

  صفحه ي درگاه (Doorway Page): صفحه‌ ي مجازي، که از تعداد كلماتي كليدي و لينك‌هائي ديگر كه ترافيك موتورهاي جستجو را تعديل مي‌كند، ساخته شده است.

  صفحه فرود(Landing Page): صفحه ي نهائي نتايج جستجوگر، پس از كليك روي ليست.

  متن لينك(Link Text): متن شامل آدرس اينترنتي يا لينك.

  بازاريابي موتورهاي جستجو (Search Engine Marketting): بازاريابي وب‌سايت توسط موتورجستجو.

  ليست‌هاي پرداخت ‌شده (Paid Listings): ليست‌ فروشي، موتورهاي جستجو به تبليغ ‌كنندگان.

  هزينه ي هر كليك (Cost Per Click): در اين سيستم، شرکت تبليغ ‌كننده و افراد، مبلغي را در ازاء هر كليك روي لينكي كه كاربران را به سايت آنها ببرد، مي‌پردازند. به اين سيستم CPC يا PPC هم اطلاق مي‌شود.

  بازگشت سرمايه (ROI): مخفف Return on Investment درصد سود و منفعت سرمايه گذاري.

  نرخ كليك‌شدن (Click Through Rate): نسبت درصد افراد مشاهده کننده يک لينک در مقايسه با تعداد دفعات نمايش يك لينك در صفحه نتايج( Result Page).

  اجزاي هر موتور جستجوگر :

  Spider عنكبوت

  Crawler خزنده

  Indexer بايگاني كننده

  Database پايگاه داده

  Ranker سيستم رتبه‌بندي

  Spider (عنكبوت): نرم افزار جمع‌آوري اطلاعات مورد نياز موتور جستجوست. اسپايدر کاملاً كار كاربران وب را انجام مي‌دهد، فقط با اين فرق كه اسپايدر كد HTML صفحات را مي خواند، ولي كاربر نتيجه ي كنار هم قرار گرفتن كد را مشاهده مي کند. به صفحات گوناگون رفته، آنها را مي‌خواند، لينك‌ها را دنبال کرده، پس ازجمع‌آوري اطلاعات، آنها را در اختيار موتور جستجوگر قرار مي‌دهد. يكي از فعاليت‌هاي اصلي در SEM بررسي آمار ديد و بازديدها است. اسپايدر، موقع ديدن صفحات، روي سرور اثر مي‌گذارد. اگر اجازه ي دسترسي به آمار ديد و بازديدها از يك سايت و اتفاقات انجام شده در آن را داشته باشيم، مي‌توان تعيين کرد كه اسپايدر كدام يك از موتورهاي جستجوگر صفحات سايت را بازديد کرده است.

  Crawler (خزنده)، عمل كراولر، خزش (Crawling): مقدار بررسي موتور جستجو در محتواي هر سايت توسط پروتكل Robots انجام مي‌ پذيرد. موتور جستجو اگر صحيح باشد پيش از ورود به سايت قوانين آن سايت را (اگر باشد) بررسي کرده حقوق خود را مي خواند. ما که صاحب سايت هستيم، هر طور که مايليم ميتوانيم موتورهاي جستجو را تنظيم کنيم تا اطلاعات سايت ما را با خود ببرند، مي‌توانيم جستجوگران را از بعضي صفحات سايت‌مان محروم و اجازه دسترسي به محتواي آن صفحات را به آنها ندهيم. كراولر، نرم‌افزاري به عنوان يك فرمانده براي اسپايدر است. كراولر مشخص مي‌كند اسپايدر كدام صفحات را مورد بازديد قرار دهد. در واقع كراولر تصميم مي‌گيرد كه كدام يك از لينك‌هاي صفحه‌اي كه اسپايدر در حال حاضر در آن قرار دارد، دنبال شود. ممكن است همه آنها را دنبال كند، بعضي‌ها را دنبال كند و يا هيچ كدام را دنبال نكند. كراولر، ممكن است قبلاً برنامه‌ريزي شده باشد كه آدرس‌هاي خاصي را طبق برنامه در اختيار اسپايدر قرار دهد تا از آنها ديدن كند. تعقيب لينك‌هاي هر بخش مربوط ميشود به اينکه موتور کاوشگر چه مقدار اطلاعات سايت را مي‌خواهد حفظ كند. اجازه دستيابي به بخش هائي ممكن است به جستجوگر داده نشود.

تعدادي از موتورهاي جستجو
     
موتورهاي جستجو موتورهاي جستجو ابر جستجو گر ها
Alta Vista
HotBot
Lycos
Fast All The Web
Overture
Google
iLOR
Oingo
Ask Jeeves
iWon
GigaBlast
Openfind
Aesop.com
Teoma
SearchHippo
WiseNut
Pandia Metasearch
Search.com
SearchOnline
Metacrawler
Mamma
Dogpile
RedeSearch.com
C4
Ixquick
Subjex
qbSearch
Vivisimo
Query Server
     
دايرکتوري ها دايرکتوري ها پايگاه داده
Yahoo!
LookSmart
Zeal
Britannica
UKPlus
Euroseek
Femina Cybergrrl
Backwash
Joe Ant
Goguides.org
About.com
Argus
Librarians' index
BUBL UK
Infomine
Academic Info
BestoftheWeb.com
Gimpsy
Direct
Beaucoup!
Search.com
Invisible Web
Internets
WebData
     
موتورهاي جستجوي اختصاصي ساير ابزارها
SearchIQ
Searchability!
The InvsibleWeb
A collection of special search engines
Search Engine Guide
FinderSeeker
Fossick.com
Complete Planet
Invisible Web.net
FindTutorials
Search PDF
Better-Whois domains
Domain names
Yahoo! Webring
Find Articles.com
Wintel.com
MagPortal articles
eHow

  

  
back
طراحي شده توسط مرکز خدمات کامپيوتري دفتر برنامه ريزي و تاليف کتب درسي