كيفية استخدام ملف الروبوتات لمحركات البحث, في هذا المقال أود أن اشرح لكم عن ملف روبوت النصي والذي يساعد في ارشفة الموقع في محركات البحث مع التنبيه على ما تريد أرشفته ومالا تريد أرشفته. كنت قد واجهت مشاكل الفترة الاخيرة به والان بعد اضطلاع حللتها وأردت أن أنقل لكم الفائدة.
ما هو الغرض من ملف الروبوتات؟
عندما يزحف محرك بحث (يزور) موقع الويب الخاص بك، فإن أول شيء يبحث عنه هو ملف robots.txt الخاص بك. يخبر هذا الملف محركات البحث بما يجب عليها وما لا يجب فهرستها (حفظها وإتاحتها في صورة نتائج بحث للجمهور). قد يشير أيضًا إلى موقع خريطة موقع XML الخاصة بك. يرسل محرك البحث بعد ذلك “الروبوت” أو “الروبوت” أو “العنكبوت” الخاص به للزحف إلى موقعك وفقًا للتوجيهات الواردة في ملف robots.txt (أو عدم إرساله ، إذا قلت إنهم لا يستطيعون ذلك).
يُطلق على روبوت Google اسم Googlebot ، ويطلق على روبوت Microsoft Bing اسم Bingbot. مثل Excite و Lycos و Alexa و Ask Jeeves ، تمتلك العديد من محركات البحث الأخرى روبوتات خاصة بها. تأتي معظم برامج الروبوت من محركات البحث ، على الرغم من أن المواقع الأخرى ترسل أحيانًا برامج الروبوت لأسباب مختلفة. على سبيل المثال ، قد تطلب منك بعض المواقع وضع رمز على موقع الويب الخاص بك للتحقق من أنك تمتلك هذا الموقع ، ثم يرسلون روبوتًا لمعرفة ما إذا كنت قد وضعت الرمز على موقعك.
ضع في اعتبارك أن ملف robots.txt يعمل مثل علامة “عدم التعدي على ممتلكات الغير”. يخبر برامج الروبوت ما إذا كنت تريدها أن تزحف إلى موقعك أم لا. في الواقع لا يمنع الوصول. سوف تحترم الروبوتات الشريفة والشرعية توجيهاتك بشأن ما إذا كان بإمكانها الزيارة أم لا. قد تتجاهل الروبوتات المحتالة ملف robots.txt.
أين يذهب ملف robots.txt؟
ينتمي ملف robots.txt إلى المجلد الرئيسي في الموقع نفسه. يمكنك ببساطة إنشاء ملف فارغ وتسميته robots.txt. سيؤدي ذلك إلى تقليل أخطاء الموقع والسماح لجميع محركات البحث بترتيب أي شيء تريده.
منع الروبوتات ومحركات البحث من الزحف
إذا كنت تريد منع برامج الروبوت من زيارة موقعك وإيقاف محركات البحث من ترتيبك ، فاستخدم هذا الرمز:
#Code to not allow any search engines!
User-agent: *
Disallow: /
يمكنك أيضًا منع برامج الروبوت من الزحف إلى أجزاء من موقعك مع السماح لها بالزحف إلى أقسام أخرى. سيطلب المثال التالي من محركات البحث والروبوتات عدم الزحف إلى مجلد cgi-bin ومجلد tmp والمجلد junk وكل شيء في تلك المجلدات على موقع الويب الخاص بك.
# Blocks robots from specific folders / directories
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
في المثال أعلاه ، سيكون http://www.yoursitesdomain.com/junk/index.html أحد عناوين URL المحظورة, ولكن http://www.yoursitesdomain.com/index.html و http://www.yoursitesdomain.com/someotherfolder/ سيكونان قابلان للزحف.
Google وشبكة Bing
يمكنك إنشاء حسابات Google و Bing Network Webmaster وتكوين المجالات الخاصة بك بحيث يكون لها تأخير زحف أقل. اقرأ موقف Google الرسمي بشأن ملف robots.txt. يجب عليك استخدام أدوات مشرفي المواقع من Google لتعيين معظم المعلمات لبرنامج GoogleBot.
ما زلنا نوصي بتهيئة ملف robots.txt. سيؤدي ذلك إلى تقليل معدل بدء برامج الزحف طلبات مع موقعك وتقليل الموارد المطلوبة من النظام ، مما يسمح بتقديم المزيد من حركة المرور الشرعية.
إذا كنت ترغب في تقليل حركة المرور من برامج الزحف مثل Yandex أو Baidu ، فعادة ما يلزم القيام بذلك بتعديل شيء ما في طبيعة ملف.htaccess.