وب جهان گستر یا همان World Wide Web بدون وجود موتورهای جستجوگر تقریبا بدون فایده است.
اما سئوال این است که موتورهای جستجوگر چگونه در میان این همه وب سایت اطلاعات مورد نیاز ما را پیدا میکنند.
اینترنت بسیار وسیع است و حداقل در حدود دو میلیارد کاربر فعال دارد. در این میان حداقل 250 میلیون وب سایت اینترنتی وجود دارد که در مجموع چیزی در حدود 30 میلیارد صفحه وب را در خود جای داده اند. گشتن در محیط وب زمانی که بسیار کوچک و وب سایت ها بسیار کم بودند معمولا اختصاص به پژوهشگران و اساتید دانشگاه داشت و میتوان گفت که کار دشواری نیز به شمار میرفت. با توسعه وب و زیاد شدن حجم اطلاعات و وب سایت ها نیاز به ابزاری جهت یافتن اطلاعات در این اقیانوس اطلاعات بیش از پیش احساس میشد. در همین حال در اوایل دهه نود میلادی بود که اولین موتورهای جستجوگر اینترنتی پا به عرصه حضور گذاشتند. اولین موتورهای جستجو W3Catalog و Aliweb نام داشتند.
امروزه پس از گذشت سالها چهار موتور جستجوگر اصلی در اینترنت وجود دارند. در میان این چهار وب سایت گوگل بیشترین سهم را به خود اختصاص داده است و روزانه بیش از 400 میلیون بار از این وب سایت برای جستجو استفده میشود. موتورهای جستجو معمولا در کمتر از چند ثانیه نتایج را نمایش میدهند. حال این سئوال پیش می آید که موتورهای جستجو چگونه این کار را انجام میدهند؟
یک موتور جستجوگر در قدم اول و قبل از آنکه بخواهد نتایجی را به کاربر نمایش دهد بایستی اطلاعات را جمع آوری و طبقه بندی کرده باشد. بنابراین موتورهای جستجو باید تا حد امکان وب سایت ها را مرور کنند و آدرس صفحات را با چکیده ای از محتویات صفحه ذخیره و طبقه بندی کنند. این وظیفه بسیار سنگین است و توسط خزندگان وب (Web Crawlers) انجام میشود.
این برنامه ها بصورت خودکار در وب میگردند و محتویات صفحات وب سایت ها را برای تحلیل بعدی ذخیره میکنند. از آنجا که تعداد صفحات و حجم آنها بسیار بالاست از اینرو این کار در مقیاس بسیار بزرگی انجام میشود و به زمان و پهنای باند بالایی نیاز دارد. موتورهای جستجوگر معروف کش بسیار بزرگی را در صفحات وب ایجاد کرده اند اما خزندگان جدیدتر باید این کار را از صفر شروع کنند. خزنده ها برای شروع معمولا به سراغ دایرکتوری های معروف میروند چون از طریق آنها میتوانند به لیست بزرگی از سایت های مرتبط دسترسی پیدا کنند و با مرور این وب سایت ها خزنده وب هر چه بیشتر در فضای داخلی وب سایت ها فرو میرود و اطلاعات بیشتری بدست می آورد. تمامی این اطلاعات در کش ذخیره میشوند تا بعدا مورد تجزیه و تحلیل قرار گیرند.
یک خزنده که طراحی خوبی داشته باشد میتواند محتوا صفحات وب را با سرعت بالایی مرور کند و در عین حال همگی خزندگان با کمک یک برنامه هماهنگ کننده اقدام به جستجو در وب میکنند تا دوباره کاری نشود. این هماهنگ کننده باعث میشود تا وب سایت ها مرتبا بازدید شوند تا جدیدترین نسخه آنها در بانک اطلاعاتی موتور جستجو قرار گیرد.
در واقع یک خزنده وب باید تمامی صفحات وب سایت را بررسی و ایندکس کند اما در عمل این اتفاق نمی افتد چون برخی از صفحات وب سایت ها هیچ لینک داخلی ندارند و بنابراین خزندگان وب هیچگاه آنها را پیدا نمیکنند. ممکن است برخی از آنها نیز در بخش های خاصی تنها برای اعضا در دسترس باشند. اصطلاحا به این صفحات وب نامرئی یا وب عمیق میگویند. در واقع این بخش ها خزندگان وب را با مشکلات زیادی روبرو میکنند. یکی از ابزاری که به کمک خزندگان وب میشتابد پروتکل نقشه سایت گوگل است. یک طراح وب از طریق یک نقشه سایت یا Site Map میتواند ساختار و محتوای وب سایت خود را به گوگل معرفی کند و حتی اگر خزنده وب هم به این صفحه دسترسی پیدا نکند میتواند از طریق نقشه سایت به درستی آن صفحات را ایندکس کند.
یکی دیگر از مشکلات خزندگان وب ایندکس کردن محتواهایی مانند عکس ، انیمیشن و فایل های فلش است. این گونه فایل ها برای ذخیره سازی نیز احتیاج به فضای بالایی دارند. حتی سرعت بالای خزندگان وب نیز میتواند برای سرورهایی که سرعت پایینی دارند مشکل آفرین باشد. در این حالت خزنده باید درخواست خود را از سایت برای چند ثانیه به وقفه بیندازد. این تنظیمات در فایل robots.txt وجود دارند.
پس از آنکه خزندگان اطلاعات را در صفخات وب جمع آوری کردند این اطلاعات باید بر روی سرورهای سایت جستجوکننده کش شوند. ایندکس سایت گوگل که در واقع بر روی سرورهای گوگل در کل دنیا ذخیره شده بیش از 100 هزار ترابایت حجم دارد اما با این حال شاهد هستیم که جستجو در گوگل بسیار سریع و در کمتر از ثانیه صورت میگیرد.
کش کردن و ایندکس کردن صفحات فراوان و بیشمار در وب یک چالش بزرگ است اما از آن مهمتر این است که موتور جستجو بداند که کاربرانش به دنبال چه چیزی هستند. هر چه قدر اطلاعات نمایش داده شده توسط یک موتور جستجو با عبارت جستجو شده توسط کاربر منطبق تر باشد ، موتور جستجو عملکرد و محبوبیت بهتری دارد. یکی از دلایل رشد گوگل این است که جستجو دقیق تر و بهتری را انجام میدهد.
اما آنچه که یک وب سایت را در نتیجه بالاتری قرار میدهد در واقع نوع الگوریتم موتور جستجوگر است. این الگوریتم مجموعه ای پیچیده از قواعد و ملاحظات گوناگون است که البته مدام در حال بهینه سازی است تا نتایج بهتری را در معرض نمایش کاربران قرار دهد. هر چه قدر الگوریتم یک موتور جستجوگر بهتر عمل کند آن وب سایت نیز نتایج بهتری را به کاربران ارائه میدهد و از همین رو ضامن موفقیت یک وب سایت جستجوگر همان معماری و نوع الگوریتم جستجوی آن وب سایت است. موتورهای جستجو همگی در کل صفحات را بر اساس کلمات موجود در آن مورد ارزیابی قرار میدهند. اهمیت یک وب سایت هم در رتبه آن تاثیر مهمی دارد و اگر سایت های زیادی به یک صفحه خاص لینک دهند ، موتور جستجو متوجه میشود که آن صفحه مهم است و به آن صفحه توجه بیشتری میکند. هر چه تعداد لینک ها از سایت های دیگر به یک سایت بیشتر باشد یعنی آن وب سایت مهمتر و معتبر تر است و Page Rank بالاتری میگیرد.
حال اگر وب سایتی که رتبه بالایی دارد به وب سایت دیگری لینک دهد ، آن لینک ارزش بیشتری نسبت به چندین لینک خواهد داشت. همچنین نوع کلماتی که کاربران را به یک وب سایت راهنمایی میکند نیز بسیار مهم است. گوگل از روی کلمات مورد جستجو نیز به میزان مرتبط بودن وب سایت با آن کلمات پی میبرد.
گوگل در ماه های اخیر اعلام کرد که به کیفیت صفحات نیز بسیار اهمیت میدهد. آزمایش کنندگان انسانی در وب محتوای صفحات را ارزیابی کرده و به محتوای آن نمره میدهند و نتایج آن برای آموزش یک الگوریتم موفق در اختیار موتورهای جستجوگر قرار گرفته اند. این روزها با افزایش محبوبیت شبکه های اجتماعی ، صفحات و لینک های موجود در این وب سایت ها نیز بسیار مورد توجه موتورهای جستجو قرار گرفته اند. در عین حال هر چقدر کاربران به این لینک ها توجه بیشتری نشان دهند و بیشتر آن را به اشتراک بگذارند ، توجه موتورهای جستجوگر نیز به آنها بیشتر معطوف میشود.