صفحه نخست ˂ وبلاگ ˂ وبلاگ ˂ سئو ˂ فایلtxt. robotsچیست؟ و کد های کاربردی آن

فایلtxt. robotsچیست؟ و کد های کاربردی آن

فایل robots.txt یکی از مهمترین عوامل برای بهینه‌سازی موتورهای جستجو می باشد که در این فایل اجازه یا ممنوعیت دسترسی به برخی از صفحات وب‌سایت شما را به موتورهای جستجو اعلام می‌کنیم. در این مطلب از تیم گلکسی، به بررسی عمیق و جامع این فایل و کدهای کاربردی آن می‌پردازیم.    robots.txt چیست؟ فایل robots.txt یک فایل متنی است که توسط وبمستران ساخته می شود. این فایل به ربات‌های موتورهای...
حدود زمان مطالعه 5 دقیقه

فایلtxt. robotsچیست؟ و کد های کاربردی آن

فایل robots.txt یکی از مهمترین عوامل برای بهینه‌سازی موتورهای جستجو می باشد که در این فایل اجازه یا ممنوعیت دسترسی به برخی از صفحات وب‌سایت شما را به موتورهای جستجو اعلام می‌کنیم. در این مطلب از تیم گلکسی، به بررسی عمیق و جامع این فایل و کدهای کاربردی آن می‌پردازیم.

 

 robots.txt چیست؟

فایل robots.txt یک فایل متنی است که توسط وبمستران ساخته می شود. این فایل به ربات‌های موتورهای جستجو فرمان می‌دهد کدام صفحات وب را خزش کرده یا کدام صفحات را نباید خزش کرال کنند. طبق پروتکل REP (Robots Exclusion Protocol) استانداردهایی برای ساماندهی به وضعیت خزیدن وب توسط ربات‌ها، دسترسی به صفحات وب و ایندکس کردن آن‌ها برای دسترسی کاربران تعیین شده است.

 

چرا باید فایل Robots.txt را در وبسایت داشته باشیم؟

ربات‌های موتورهای جستجو با خزیدن و بررسی کردن صفحات مختلف در سایت‌های مختلف، اطلاعات صفحات اینترنتی را در یک پایگاه داده عظیم (ایندکس) ذخیره می‌کنند. از طریق الگوریتم‌های خود، این موتورها نتایج را مرتب کرده و در صفحه نتایج خود نمایش می‌دهند. این فرآیند با بررسی و دنبال کردن لینک‌های موجود در هر صفحه شروع شده و از یک سایت به سایت دیگر حرکت می‌کند که از فواید بودن این فایل برروی وبسایل می توان به موارد زیر اشاره نمود:

  • کنترل دقیق تر برروی صفحات وبسایت : فایل robots.txt به مدیران وب‌سایت امکان می‌دهد که به صورت دقیق تعیین کنند کدام بخش‌های وب‌سایت قابل دسترس برای موتورهای جستجو هستند و کدام بخش‌ها باید محدود شوند. این کنترل دقیق اجازه می‌دهد تا بخش‌های مهم و محتوایی که برای جستجوی ارگانیک اهمیت دارد، به بهترین شکل ممکن نمایش داده شود.
  • حفاظت از اطلاعات مهم در وبسایت : در صورتی که بخواهید بخش‌هایی از وب‌سایت که حاوی اطلاعات حساس یا صفحات محتوای اختصاصی هستند، از دسترسی موتورهای جستجو محدود شوند، می‌توانید این موارد را در فایل robots.txt تعریف کنید. این کار به حفظ امنیت و حریم خصوصی کمک می‌کند.
  • بهینه‌سازی فرایند جستجو : با استفاده ازrobots.txt، می‌توانید موتورهای جستجو را به سرعت و بهینه‌تر به صفحات مهم و محتوای کلیدی هدایت کنید. این کار باعث افزایش کارایی فرایند جستجو و ارائه نتایج دقیق‌تر می‌شود.
  • جلوگیری از فراخوانی غیرضروری:  فایل robots.txt امکان جلوگیری از فراخوانی صفحاتی که برای موتورهای جستجو اهمیت ندارند یا بر روی سئو تأثیر منفی دارند را فراهم می‌کند. این کار باعث بهینه‌تر شدن فرایند جستجو و مصرف منابع سرور می‌شود.

 

نحوه ساخت فایل robots.txt

ساخت فایل robots.txt بسیار ساده است و این فایل به موتورهای جستجو می‌گوید کدام بخش‌های از وب‌سایت قابل دسترس هستند و کدام بخش‌ها باید محدود شوند. برای ساخت فایل robots.txt از مراحل زیر استفاده کنید:

  1. استفاده از یک ویرایشگر متنی: از یک ویرایشگر متنی مانند Notepad در ویندوز یا TextEdit در مک یا هر ویرایشگر متنی مورد علاقه خود استفاده کنید.
  2. ایجاد فایل جدید: یک فایل جدید با نام  txt ایجاد کنید.
  3. تعیین قوانین برای User-agent: ابتدا نوع موتورهای جستجو را تعیین کنید. می‌توانید از * برای همه موتورها یا نام مستقیم موتورهای خاص استفاده کنید.
  4. تعیین قوانین برای Disallow: سپس مسیرهایی که نمی‌خواهید موتورها به آنها دسترسی داشته باشند را مشخص کنید.
  5. ذخیره و انتشار: فایل را ذخیره کرده و در ریشه دامنه وب‌سایت خود قرار دهید.
  6. بررسی صحت: قبل از انتشار نهایی، مطمئن شوید که فایلtxt به درستی ساخته شده است. برای این کار، می‌توانید از ابزارهای آنلاین یا افزونه‌های مرورگرها استفاده کنید.

با این مراحل، شما یک فایل robots.txt ایجاد کرده‌اید که به موتورهای جستجو اطلاع می‌دهد چگونه باید با محتوای وب‌سایت شما برخورد کنند.

 

 

آشنایی با دستورات و کدهای فایل  Robots.txt

فایل robots.txt یک ابزار قدرتمند در کنترل بر روی نحوه عملکرد موتورهای جستجو در وب‌سایت شماست. در اینجا با چند دستور اصلی این فایل آشنا می‌شویم:

  1. :User-agent  این دستور برای تعیین نوع موتور جستجو یا ربات مشخصی استفاده می‌شود. می‌توانید از * برای اعمال یک دستور به تمام موتورها استفاده کنید.
  2. Disallow : این دستور مشخص می‌کند که موتور جستجو مجاز به دسترسی به یک یا چند مسیر مشخص نیست. مسیرهایی که می‌خواهید محدود شوند را با استفاده از این دستور مشخص کنید.
  3. Allow : این دستور برعکس دستور Disallow عمل می‌کند و به موتورها اجازه دسترسی به یک یا چند مسیر را می‌دهد. می‌توانید از آن برای مجاز کردن دسترسی به بخش‌های خاصی از وب‌سایت استفاده کنید.
  4.  :Sitemap این دستور به موتورها اطلاع می‌دهد که فایل sitemap وب‌سایت شما در کجا قرار دارد. این اطلاعات به موتورها کمک می‌کند تا بهتر و سریع‌تر صفحات وب‌سایت شما را ایندکس کنند.

Sitemap: https://www.example.com/sitemap.xml

این دستور به موتورها می‌گوید که فایل sitemap در این آدرس قرار دارد.

  1. Crawl-delay : این دستور مشخص می‌کند که موتورها باید چه مقدار زمان بین درخواست‌های متوالی به سرور شما گذاشته تا فشار زیادی روی سرور ایجاد نشود.

به عنوان مثال:

Crawl-delay: 5

این دستور به موتورها می‌گوید که بین هر درخواست به سرور، 5 ثانیه تاخیر داشته باشند.

این دستورات اصلی فایل robots.txt هستند که می‌توانند به بهبود نحوه نمایش وب‌سایت شما در نتایج جستجوی موتورهای جستجو کمک کنند.

دستور  user-agent

user-agent به معنای «عامل کاربری»، یک معرف است که توسط مرورگرها یا برنامه‌های کاربری برای ارتباط با وب‌سایت‌ها استفاده می‌شود. برای کاربران واقعی، این معرف شامل اطلاعاتی نظیر نوع مرورگر و سیستم عامل است و حاوی اطلاعات شخصی نمی‌باشد. این اطلاعات به وب‌سایت‌ها کمک می‌کند تا محتوا و تجربه کاربری خود را با توجه به ویژگی‌های سیستم کاربر بهینه‌سازی کنند.

در مفهوم فایل robots.txt، دستور  User-agent برای تعیین رفتار موتورهای جستجو و ربات‌های خزنده نسبت به وب‌سایت مورد استفاده قرار می‌گیرد. با استفاده از این دستور، می‌توانید قوانین خاصی را برای هر ربات جستجو مشخص کنید. نام ربات یا موتور جستجو پس از  User-agent: آورده می‌شود.

برای مثال:

User-agent: Googlebot

Disallow: /private/

Allow: /public/

در این مثال، برای موتور جستجوی Google (Googlebot)، دسترسی به بخش /private/ ممنوع شده است، اما به بخش /public/ اجازه دسترسی داده شده است.

همچنین، استفاده از * به عنوان wildcard (جایگزین هر چیزی) در  User-agent به معنای اعمال یک قانون برای تمام ربات‌های خزنده است. به عبارت دیگر، اگر * باشد، قانون زیر زیر برای همه ربات‌ها صادق است:

User-agent: *

Disallow: /restricted/

در این مثال، تمام ربات‌ها از دسترسی به بخش /restricted/ مسدود می‌شوند.

در لیست آخر معروف‌ترین ربات‌های خزنده و ویژگی‌های user-agent آن‌ها آمده است. این اطلاعات به مدیران وب‌سایت کمک می‌کند تا دستورات مرتبط با هر ربات را به درستی در فایل robots.txt اعمال کنند.

نحوه استفاده از دستور Disallow

دستور Disallow از جمله قدرتمندترین و پرکاربردترین دستورات در فایل robots.txt است. این دستور به ربات‌های خزنده وب می‌گوید که کدام صفحات یا دایرکتوری‌ها از دسترسی آنها محروم باشند. در ادامه، نحوه استفاده از دستور Disallow برای موارد مختلف توضیح داده خواهد شد.

جلوگیری از دسترسی به یک صفحه خاص

به عنوان مثال، اگر قصد داشته باشیم صفحه تماس با ما در سایت نردبان با آدرس                https://www.galaxy-adv.com/contact  را از دسترس ربات‌ها خارج کنیم، دستور مربوطه به شکل زیر خواهد بود:

User-agent: *

Disallow: /contact/

جلوگیری از دسترسی به یک دایرکتوری

در برخی موارد، ممکن است لازم باشد تا تمام صفحات موجود در یک دایرکتوری را از دسترس ربات‌ها خارج کرد. به عنوان مثال، اگر قصد داشته باشیم تمام صفحات موجود در وبلاگ به ادرس  https://www.galaxy-adv/blog را از دسترسی ربات‌ها محروم کنیم، دستور لازم به شکل زیر خواهد بود:

User-agent: Baiduspider

Disallow: /blog/

اعطای دسترسی کامل به موتورهای جستجو

برای صدور دسترسی کامل به کل سایت برای ربات‌های خزنده، دستور Disallow به شکل زیر خواهد بود:

Disallow:

مخفی کردن کل سایت از موتورهای جستجو

در صورت نیاز به مخفی کردن کل سایت از موتورهای جستجو، دستور Disallow به شکل زیر خواهد بود:

Disallow:/

در این حالت، تمامی صفحات وبسایت از دسترس ربات‌های جستجو خارج خواهند شد. البته باید توجه داشت که این روش تضمینی برای جلوگیری از نمایش سایت در نتایج جستجو نیست، بلکه برای اطمینان از این موضوع باید صفحات سایت را به صورت no-index تنظیم کرد.

با استفاده از این دستورات، می‌توانید با دقت مدیریت کنید که کدام بخش‌های وب‌سایت شما برای ربات‌های جستجو قابل دسترسی باشد و کدام بخش‌ها محروم باشند، که این امر به بهبود SEO و کنترل دقیق‌تر نحوه نمایش سایت در نتایج جستجو کمک خواهد کرد.

نحوه استفاده از دستور Allow

دستور Allow به ربات‌ها اجازه می‌دهد به یک صفحه یا بخش خاص از وبسایت دسترسی پیدا کنند. این دستور مفید است زمانی که شما بخشی از وبسایت خود را بسته‌اید ولی قصد دارید به ربات‌های خزنده اجازه دسترسی به یک یا چند صفحه از همان بخش را بدهید. باید توجه داشت که برخی از موتورهای جستجو این دستور را شناسایی نمی‌کنند؛ بنابراین در استفاده از آن باید احتیاط کنید.

در مثال زیر، تمامی ربات‌ها از دسترسی به دایرکتوری media منع شده‌اند، اما در عین حال اجازه دسترسی به یک فایل پی‌دی‌اف با عنوان terms-and-conditions.pdf موجود در دایرکتوری media داده شده است.

User-agent:*

Disallow: /media/

Allow: /media/terms-and-conditions.pdf

استفاده از دستور sitemap

نقشه سایت یا سایت‌مپ یک فایل با پسوند XML است که تمام محتواهای مهم روی یک سایت را فهرست می‌کند و نحوه ارتباط صفحات مختلف را نمایش می‌دهد. دستور sitemap که در ادامه آمده، یک روش برای نشان دادن نقشه سایت به موتور جستجو است. این دستور به منظور اطمینان از اینکه هیچ صفحه‌ای در حین خزیدن سایت فراموش نشود، مورد استفاده قرار می‌گیرد. با این حال، باید توجه داشت که وجود نقشه سایت تأثیری مستقیم بر اولویت‌بندی خزش صفحات توسط ربات ندارد.

به عنوان مثال، نحوه قرار دادن نقشه سایت در فایل robots.txt سایت نردبان به شکل زیر است:

Sitemap: https://www.galaxy-adv.com/sitemap.xml

استفاده از این دستور به موتورهای جستجو این اطمینان را می‌دهد که نقشه سایت شما در دسترس است و همه صفحات به درستی فهرست شده‌اند. این امر به بهبود نحوه فهرست‌بندی سایت شما توسط موتورهای جستجو کمک می‌کند.

 

نمونه فایل Robots.txt  برای سایت وردپرسی

برای مشاهده و ویرایش فایل ربات در وردپرس یا هر سایت دیگری، به فایل منیجر در پنل هاست مراجعه کنید و درون فولدر public_html به دنبال فایل robots.txt بگردید. اگر این فایل وجود ندارد، یک فایل متنی به نام robots.txt ایجاد کنید و دستورات لازم را در آن قرار دهید.

در زیر یک نمونه بهینه‌سازی شده فایل ربات برای سایت‌های وردپرسی ارائه شده است با فرض اینکه:

  • شما تمایل به دسترسی ربات‌ها به قسمت ادمین ندارید.
  • تمایل به فهرست شدن نتایج جستجوی درون سایت وردپرسی ندارید.
  • تمایلی به دسترسی ربات‌ها به صفحات برچسب و نویسندگان سایت ندارید.
  • تمایلی به دسترسی ربات‌ها به صفحه ۴۰۴ سایت ندارید.

تذکر:  لطفاً آدرس نقشه سایت خود را به جای  https://www.galaxy-adv.com/sitemap.xml در قسمت Sitemap قرار دهید.

 

بررسی وضعیت فایل Robots.txt  در گوگل سرچ کنسول

برای بررسی و وضعیت فایل Robots.txt در گوگل سرچ کنسول، مراحل زیر را دنبال کنید:

  1. وارد Google Search Console شوید: Google Search Console
  2. از منوی سمت چپ، سایت مورد نظر خود را انتخاب کنید.
  3. در قسمت “Index” به بخش “Coverage” بروید.
  4. در این قسمت، بخش “Excluded” را انتخاب کنید.
  5. اگر فایلtxt مشکلی دارد، شاید در این قسمت به عنوان “Blocked by robots.txt” یا موارد مشابه نمایش داده شود.
  6. برای مشاهده جزئیات بیشتر، می‌توانید روی هر یک از موارد نقره کنید.

از طریق این مراحل می‌توانید وضعیت فایل Robots.txt را در گوگل سرچ کنسول بررسی کنید و در صورت نیاز، با استفاده از گزینه “Request Indexing”، درخواست بازبینی فایل ربات را ارسال کنید.

نکته: این مراحل ممکن است در آینده تغییر کنند، بنابراین به تغییرات رابط کاربری Google Search Console توجه داشته باشید.

 

فایل ربات سایت در کجای وبسایت قرار می گیرد؟

فایل ربات (Robots.txt) در ریشه وبسایت (Root Directory) قرار می‌گیرد. ریشه وبسایت معمولاً مسیر اصلی وبسایت است که از طریق آدرس اصلی وبسایت (مثل https://www.example.com/) قابل دسترسی است. برای ایجاد یک فایل Robots.txt، شما باید این فایل را در دایرکتوری اصلی وبسایت (ریشه) قرار دهید. این فایل برای تنظیم دستورات مختلف برای ربات‌های جستجوی موتورها به‌کار می‌رود.

به عبارت دیگر، مسیر فایل Robots.txt باید به این شکل باشد:

https://www.example.com/robots.txt

همچنین می‌توانید از ابزارهای وبمسترها یا فایل منیجرهای هاست برای ایجاد و مدیریت فایل Robots.txt استفاده کنید.

 

نتیجه گیری

در نتیجه، فایل robots.txt یک ابزار مهم در مدیریت رفتار ربات‌های جستجو در وبسایت‌ها است. با استفاده از این فایل، می‌توانید کنترل کنید کدام بخش‌های وبسایت توسط ربات‌ها بررسی شوند و کدام بخش‌ها را نباید در نتایج جستجو نشان دهند. این امکان به وبمستران اجازه می‌دهد تا ترافیک ربات‌ها را مدیریت کرده و به بهینه‌سازی فرآیند خزش و ایندکس‌سازی کمک کنند. همچنین، از اهمیت آن برای بهبود Crawl Budget و جلوگیری از ایندکس شدن صفحات غیرمطلوب نیز یاد شد. بنابراین، ایجاد و مدیریت صحیح این فایل می‌تواند در بهبود سئو و نتایج جستجوی وبسایت تأثیرگذار باشد. ما در این از سایت گلکسی ادز به مفاهیم به فایل ربات وبسایت اشاره نمودیم امیدواریم که مفید بوده باشد.

 

سوالات متداول

 

 

 

اهمیت فایل robots.txt در سئو چیست؟

درست است. فایل robots.txt یک ابزار قدرتمند در دسترسی به منابع و محتوای وب‌سایت است، اما اگر تنظیمات آن به درستی انجام نشود، ممکن است منجر به مشکلات جدی شود. برخی از نکات کلیدی در استفاده از فایل robots.txt عبارتند از:

  1. استفاده صحیح از Disallow:
    • حتماً باید با دقت از دستور Disallow استفاده کنید. این دستور برای جلوگیری از دسترسی ربات‌ها به بخش‌های خاص سایت شما استفاده می‌شود. اگر از این دستور بی‌دقت استفاده شود، ممکن است صفحات اصلی یا محتوای مهم شما از نتایج جستجو خارج شوند.
  2. بررسی و اعتبارسنجی:
    • هنگامی که تغییراتی در فایل robots.txt اعمال می‌کنید، حتماً باید آن را بررسی و اعتبارسنجی کنید. استفاده از ابزارهای آنلاین برای بررسی صحت فایل robots.txt و اعتبارسنجی تنظیمات مختلف آن مفید است.
  3. استفاده از نقشه سایت:
    • اگر سایت شما نقشه سایت دارد، بهتر است آدرس آن را در فایل robots.txt اضافه کنید. این کار به موتورهای جستجو اطلاعات بیشتری درباره ساختار سایت شما می‌دهد و ممکن است به بهبود فرایند ایندکس‌شدن کمک کند.
  4. بررسی دوره‌های اعتبارسنجی گوگل:
    • گوگل ابزاری به نام “robots.txt Tester” در Google Search Console ارائه کرده است که به شما امکان بررسی و تست تنظیمات فایل robots.txt را می‌دهد. از این ابزار برای اطمینان از صحت تغییرات خود استفاده کنید.
  5. توجه به تغییرات در ساختار سایت:
    • هر زمان که تغییراتی در ساختار وب‌سایت اعمال می‌کنید، حتماً تأکید داشته باشید که تنظیمات فایل robots.txt نیز به‌روز شود. در غیر این صورت، ممکن است بخش‌های جدید سایت شما از دسترس موتورهای جستجو خارج شوند.

با رعایت این نکات و نگهداری یک فایل robots.txt مرتب و به‌روز، می‌توانید از بهترین عملکرد موتورهای جستجو بر روی وب‌سایت خود بهره‌مند شوید.

 

 

اگر ربات گوگل نتوانید فایل ربات را پیدا کند یا نتواند آنرا بخواند چه می‌شود؟

اگر فایل robots.txt برای یک دامنه یا زیردامنه پیدا نشود، گوگل فرض می‌کند که اجازه دارد هر URL را در آن دامنه بخزد. اگر گوگل فایل robots.txt را پیدا کند اما نتواند آن را واکشی کند، رفتارهای زیر را دنبال می‌کند:

  1. در 12 ساعت اول، گوگل خزیدن در سایت را متوقف می‌کند اما به تلاش برای واکشی فایل robots.txt ادامه می‌دهد.
  2. اگر گوگل نتواند نسخه جدید فایل ربات را واکشی کند، تا 30 روز آینده از آخرین نسخه قابل قبول فایل ربات استفاده خواهد کرد و همچنان در تلاش برای واکشی نسخه جدید خواهد بود.
  3. اگر بعد از 30 روز مشکلات برطرف نشدند:
    • اگر سایت به طور کلی در دسترس گوگل باشد، گوگل طوری رفتار می‌کند که گویی فایل robots.txt وجود ندارد (اما همچنان به بررسی نسخه جدید ادامه می‌دهد).
    • اگر سایت مشکل در دسترس بودن داشته باشد، گوگل خزیدن در سایت را متوقف می‌کند در حالی که هنوز به صورت دوره‌ای یک فایل robots.txt درخواست می‌کند.

اگر گوگل فایل robots.txt را پیدا کند و بتواند آن را واکشی کند، فایل را خط به خط می‌خواند. اگر خطی دارای خطا باشد یا نتواند آن را با دستورالعملهای استاندارد robots.txt تجزیه کند، از آن صرف‌نظر می‌شود. اگر هیچ خط معتبری در فایل وجود نداشته باشد، گوگل آن را به عنوان یک فایل robots.txt خالی در نظر می‌گیرد، به این معنی که هیچ قانونی برای سایت اعلام نشده است.

 

خطای “Indexed, though blocked by robots.txt” در سرچ کنسول چه موقعه ای رخ می دهد ؟

خطای “Indexed, though blocked by robots.txt” در گزارش‌های سرچ کنسول یا Google Search Console به معنای این است که گوگل توانسته است یک صفحه را ایندکس کند (یعنی آن را به پایگاه داده نتایج جستجو اضافه کند)، اما بر اساس فایل robots.txt، ایندکس کردن برای این صفحه ممنوع شده است.

به عبارت دیگر، وب‌سایت شما اجازه داده است تا گوگل اطلاعات مربوط به این صفحه را جمع‌آوری و به نتایج جستجو اضافه کند، اما در هنگام ایندکس‌کردن، مطابق دستورات فایل robots.txt، گوگل می‌تواند برخی از عملیات خود را در ارتباط با این صفحه محدود کند.

این ممکن است به دلیل تنظیمات خاص سئو یا مدیریت دقیق دسترسی به صفحات وب‌سایت باشد. این ممکن است هنگامی که می‌خواهید بخشی از وب‌سایت خود را از نمایش در نتایج جستجوی گوگل محافظت کنید یا تصمیم به عدم نمایش برخی صفحات در نتایج گوگل دارید.

در این حالت، گوگل این صفحه را ایندکس می‌کند، اما در هنگام نمایش نتایج جستجو، عملیاتی که در فایل robots.txt تعیین شده است را رعایت می‌کند.

 

 

این مطلب را به اشتراک بگذارید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *