Robots.txt üçün tam bələdçi və bunun nə üçün vacib olduğunu
Robots.txt axtarış motoru robotları üçün hansı səhifələri tarayıb gedə bilməyəcəyinə dair təlimatları ehtiva edən mətn faylıdır.
Bu təlimatlar bəzi (və ya hamısı) botlara “icazə vermək” və ya “icazə verməkdən” ibarətdir .
robots.txt faylı belə görünür
Robots.txt faylları əvvəlcə mürəkkəb görünə bilər, lakin sintaksis (kompüter dili) olduqca sadədir. Biz bunu daha sonra araşdıracağıq.
Bu yazıda biz danışacağıq:
Robots.txt faylı veb taramaçıların fəaliyyətini idarə etməyə kömək edir , beləliklə, onlar vebsaytınızı və ya ictimai baxış üçün nəzərdə tutulmayan indeks səhifələrini yükləməsinlər.
Robots.txt faylından istifadə etməyiniz üçün bəzi səbəblər bunlardır:
1. Tarama Büdcəsini optimallaşdırın
“ Tarama büdcəsi ” və ya tarama büdcəsi, Google-un istənilən vaxt saytınızda skan edə biləcəyi səhifələrin sayıdır . Bu rəqəm saytınızın ölçüsünə, sağlamlığına və geri bağlantılarına görə dəyişə bilər.
Tarama büdcəsi vacibdir, çünki səhifələrinizin sayı saytınızın tarama büdcəsindən çox olarsa, saytınızda indekslənməyəcək səhifələr olacaq .
Və indeksləşdirilməyən səhifələr sıralanmır.
Robots.txt ilə lazımsız səhifələri bloklamaqla, Googlebot (Google-un tarayıcısı) saytınızdakı vacib səhifələrə tarama büdcəsinin daha çoxunu ayıra bilər.
2. Dublikat səhifələri və ictimai olmayan səhifələri bloklayın
Axtarış motorlarına saytınızdakı hər Sənaye E-poçt siyahısı səhifəni taramasına icazə vermək lazım deyil, çünki onların hamısının sıralama saytları, daxili axtarış nəticələri səhifələri, dublikat səhifələr və ya giriş səhifələri kimi sıralanması lazım deyil.
Məsələn, WordPress bütün taramaçılar üçün /wp-admin/-ni avtomatik olaraq söndürür.
Bu səhifələr mövcud olmalıdır, lakin onların indeksləşdirilməsinə və axtarış motorları tərəfindən tapılmasına ehtiyac yoxdur . Mükəmməl bir vəziyyət, robots.txt-dən istifadə edərək, sürünənlərin və botların bu səhifələrə daxil olmasını əngəlləməkdir.
3. Resursları gizlədin
Bəzi hallarda siz Google-dan PDF-lər, videolar və şəkillər kimi resursları axtarış nəticələrindən xaric etməsini istəyərsiniz .
Ola bilsin ki, bu resursları məxfi saxlamaq və ya Google-a diqqəti daha vacib məzmuna yönəltmək istəyirsiniz.
Bu halda robots.txt-dən istifadə bu VCPEIT 2024: Μια μοναδική προσέγγιση στην ασφάλεια με επίκεντρο δεδομένων səhifələrin indeksləşdirilməsinin qarşısını almağın ən yaxşı yoludur.
Robots.txt faylı necə işləyir?
Robots.txt faylları axtarış motoru botlarına hansı URL-ləri tara bildiklərini və daha da əhəmiyyətlisi hansını edə bilməyəcəyini bildirir .
Axtarış motorlarının iki əsas vəzifəsi var:
məzmunu tapmaq üçün interneti skan edin;
məlumat axtaran istifadəçilərə göstərilə bilməsi üçün məzmunu indeksləşdirin.
Axtarış motoru botları saytları taradıqca, onlar linkləri kəşf edir və onlara əməl edirlər . Bu proses onları milyardlarla bağlantılar və vebsaytlar vasitəsilə A saytından B saytına, C saytına aparır.
Sayta gələndə botun etdiyi ilk iş robots.txt faylını axtarmaqdır.
Tapsa, başqa bir iş görməzdən bulk lead əvvəl oxuyar.
Əgər xatırlayırsınızsa, robots.txt faylı belə görünür:
Sintaksis çox sadədir.
Siz botlara onların istifadəçi agentini (axtarış motoru botu), ardınca isə direktivləri (qaydalar) göstərməklə qaydalar təyin edirsiniz.
Siz həmçinin hər hansı bir istifadəçi
agentinə direktivlər təyin etmək üçün ulduz (*) simvolundan istifadə edə bilərsiniz. Bu o deməkdir ki, verilən qayda konkret deyil, bütün botlara aiddir.
Məsələn, DuckDuckGo-dan başqa bütün botların saytınızı taramasına icazə vermək istəsəniz, təlimatlar belə görünür:
Qeyd : robots.txt faylı təlimatlar təqdim edir, lakin onları tətbiq edə bilməz. Bu, davranış kodeksi kimidir: yaxşı botlar (məsələn, axtarış motoru botları) qaydalara əməl edəcək, pis botlar (spam botlar kimi) isə onlara məhəl qoymayacaqlar.