Ինչպես ստեղծել ռոբոտների txt ֆայլ: Ինչպես խմբագրել ռոբոտների txt. Ռոբոտների մետա թեգը և ինչպես է այն գրված

Host դիրեկտիվը հրաման կամ կանոն է, որը որոնիչին ասում է, թե որն է (www-ով կամ առանց www) պետք է համարվի հյուրընկալող: Host հրահանգը գտնվում է ֆայլում և նախատեսված է բացառապես Yandex-ի համար:

Հաճախ անհրաժեշտություն է առաջանում, որ որոնիչը չինդեքսավորի կայքի որոշ էջեր կամ դրա հայելիները։ Օրինակ, ռեսուրսը գտնվում է նույն սերվերի վրա, բայց կա նույնը ինտերնետում Տիրույթի անունը, որն օգտագործվում է ինդեքսավորման և որոնման արդյունքներում ցուցադրելու համար։

Yandex որոնողական ռոբոտները սողում են վեբկայքի էջերը և հավաքագրված տեղեկատվությունը ավելացնում տվյալների բազա՝ ըստ իրենց ժամանակացույցի: Ինդեքսավորման գործընթացում նրանք ինքնուրույն որոշում են, թե որ էջը պետք է մշակվի։ Օրինակ, ռոբոտները շրջանցում են տարբեր ֆորումներ, հաղորդագրությունների տախտակներ, գրացուցակներ և այլ ռեսուրսներ, որտեղ ինդեքսավորումն անիմաստ է: Նրանք կարող են նաև սահմանել հիմնական կայքը և հայելիները: Առաջինները ենթակա են ինդեքսավորման, երկրորդները՝ ոչ։ Ընթացքում հաճախ են լինում սխալներ։ Դուք կարող եք ազդել դրա վրա՝ օգտագործելով Host հրահանգը Robots.txt ֆայլում:

Ինչու՞ է անհրաժեշտ Robots.txt ֆայլը:

Ռոբոտները սովորական են տեքստային ֆայլ. Այն կարող է ստեղծվել notepad-ի միջոցով, սակայն խորհուրդ է տրվում աշխատել դրա հետ (բացել և խմբագրել տեղեկատվությունը): տեքստի խմբագիրՆոթատետր ++. Անհրաժեշտություն տրված ֆայլըՎեբ ռեսուրսների օպտիմալացման ժամանակ այն որոշվում է մի քանի գործոններով.

Եթե Robots.txt ֆայլը բացակայում է, ապա որոնողական համակարգերի աշխատանքի պատճառով կայքը մշտապես կծանրաբեռնվի։
Վտանգ կա, որ լրացուցիչ էջերը կամ հայելային կայքերը ինդեքսավորվեն:

Ինդեքսավորումը շատ ավելի դանդաղ կլինի, և եթե այն սխալ է տեղադրված պարամետրերըայն կարող է ամբողջությամբ անհետանալ Google-ի և Yandex-ի որոնման արդյունքներից։

Ինչպես ձևաչափել Host հրահանգը Robots.txt ֆայլում

Robots ֆայլը ներառում է Host դիրեկտիվ, որը որոնողական համակարգին ասում է, թե որտեղ է գտնվում հիմնական կայքը և որտեղ են նրա հայելիները:

Հրահանգն ունի հետևյալ ձևը. Հոսթ. Հրահանգ գրելու կանոնները պահանջում են պահպանել հետևյալ կետերը.

HTTPS արձանագրության առկայությունը Host դիրեկտիվում՝ գաղտնագրումը աջակցելու համար: Այն պետք է օգտագործվի, եթե հայելու մուտքն իրականացվում է միայն ապահով ալիքով:
Դոմենի անունը, որը IP հասցե չէ, և վեբ ռեսուրսի պորտի համարը:

Պատշաճ կազմված հրահանգը թույլ կտա վեբ վարպետին որոնողական համակարգերին ցույց տալ, թե որտեղ է գտնվում հիմնական հայելին: Մնացածը կհամարվի աննշան և, հետևաբար, չի ինդեքսավորվի: Որպես կանոն, հայելիները կարելի է տարբերել www հապավումի առկայությամբ կամ բացակայությամբ: Եթե օգտատերը Host-ի միջոցով չի նշում վեբ ռեսուրսի հիմնական հայելին, Yandex որոնողական համակարգը համապատասխան ծանուցում կուղարկի Webmaster-ին։ Նաև ծանուցում կուղարկվի, եթե Robots ֆայլում նշված է անհամապատասխան Host հրահանգ:

Որոնման համակարգի միջոցով կարող եք որոշել, թե որտեղ է գտնվում կայքի հիմնական հայելին։ Անհրաժեշտ է ռեսուրսի հասցեն քշել որոնման տող և նայել խնդրի արդյունքներին. այն կայքը, որտեղ www-ը գտնվում է հասցեագոտում տիրույթի դիմաց, հիմնական տիրույթն է:

Եթե ռեսուրսը չի ցուցադրվում թողարկման էջում, օգտվողը կարող է ինքնուրույն նշանակել այն որպես հիմնական հայելի՝ անցնելով Yandex.Webmaster-ի համապատասխան բաժին: Եթե վեբ վարպետին անհրաժեշտ է, որ կայքի տիրույթի անունը չպարունակի www, ապա այն չպետք է նշվի Հոսթում։

Շատ վեբ վարպետներ օգտագործում են կիրիլյան տիրույթներ՝ որպես լրացուցիչ հայելիներ իրենց կայքերի համար։ Այնուամենայնիվ, կիրիլիցան չի աջակցվում Հյուրընկալող հրահանգում: Դա անելու համար հարկավոր է կրկնօրինակել բառերը լատիներեն՝ պայմանով, որ դրանք հեշտությամբ ճանաչվեն՝ պատճենելով կայքի հասցեն հասցեագոտից:

Host file Robots

Այս հրահանգի հիմնական նպատակը կրկնօրինակ էջերի հետ կապված խնդիրների լուծումն է: Անհրաժեշտ է օգտագործել Host-ը, եթե վեբ-ռեսուրսի աշխատանքը կենտրոնացած է ռուսալեզու լսարանի վրա և, համապատասխանաբար, կայքի տեսակավորումը պետք է տեղի ունենա Yandex համակարգում։

Ոչ բոլոր որոնման համակարգերն են աջակցում Host հրահանգին: Ֆունկցիան հասանելի է միայն Yandex-ում: Միևնույն ժամանակ, նույնիսկ այստեղ երաշխիքներ չկան, որ տիրույթը նշանակվելու է որպես հիմնական հայելի, սակայն, ըստ Yandex-ի, առաջնահերթությունը միշտ մնում է հոսթում նշված անվան հետ։

Որպեսզի որոնման համակարգերը ճիշտ կարդան տեղեկատվությունը robots.txt ֆայլը մշակելիս, դուք պետք է համապատասխան խմբին ավելացնեք Host դիրեկտիվը՝ սկսած User-Agent բառերից հետո։ Այնուամենայնիվ, ռոբոտները կկարողանան օգտվել Host-ից՝ անկախ նրանից՝ հրահանգը գրված է կանոններով, թե ոչ, քանի որ այն խաչաձեւ է։

Բարև, ընկերներ: Հոդվածը ցույց է տալիս, թե որն է ճիշտ robots txt-ը այն կայքի համար, որտեղ այն գտնվում է, ինչպես ստեղծել ռոբոտների ֆայլ, ինչպես հարմարեցնել ռոբոտների ֆայլը մեկ այլ կայքից, ինչպես վերբեռնել այն ձեր բլոգում:

Ինչ է ֆայլըռոբոտներ txt,ինչու է դա անհրաժեշտ և ինչի համար է այն պատասխանատու

Robots txt ֆայլը տեքստային ֆայլ է, որը պարունակում է հրահանգներ որոնման ռոբոտների համար: Նախքան ձեր բլոգի էջերը մուտք գործելը, ռոբոտը նախ փնտրում է ռոբոտների ֆայլը, ինչի պատճառով այն այդքան կարևոր է: Robots txt ֆայլը ստանդարտ է ռոբոտի կողմից որոշ էջերի ինդեքսավորումից բացառելու համար: Robots txt ֆայլը կորոշի, թե արդյոք ձեր գաղտնի տվյալները կներառվեն թողարկման մեջ: Կայքի համար ռոբոտների ճիշտ txt-ը կօգնի դրա առաջխաղացմանը, քանի որ այն կարևոր գործիք է ձեր կայքի և որոնողական ռոբոտների միջև փոխգործակցության մեջ:

Զարմանալի չէ, որ robots txt ֆայլը կոչվում է SEO-ի ամենակարևոր գործիքը, այս փոքրիկ ֆայլն ուղղակիորեն ազդում է կայքի էջերի և ամբողջ կայքի ինդեքսավորման վրա: Ընդհակառակը, ռոբոտների սխալ txt-ը կարող է որոշակի էջեր, բաժիններ կամ ամբողջ կայքը բացառել որոնման արդյունքներից: Այս դեպքում բլոգում կարող ես ունենալ 1000 հոդված, իսկ կայքի այցելուներ պարզապես չեն լինի, կլինեն զուտ պատահական անցորդներ։

Yandex-ի վեբ-վարպետում կա ուսուցման տեսանյութ, որտեղ Yandex-ը համեմատում է ռոբոտների txt ֆայլը ձեր անձնական իրերի տուփի հետ, որը դուք չեք ցանկանում որևէ մեկին ցույց տալ: Որպեսզի անծանոթները չնայեն այս տուփը, դուք այն փակում եք ժապավենով և վրան գրում՝ «Մի բացիր»:

Ռոբոտները, որպես կրթված անհատներ, չեն բացում այս տուփը և չեն կարողանա ուրիշներին ասել, թե ինչ կա ներսում: Եթե չկա robots txt ֆայլ, ապա որոնողական ռոբոտը համարում է, որ բոլոր ֆայլերը հասանելի են, նա կբացի տուփը, կնայի ամեն ինչ և կասի ուրիշներին, թե ինչ կա տուփի մեջ։ Որպեսզի ռոբոտը չբարձրանա այս տուփի մեջ, անհրաժեշտ է արգելել նրան բարձրանալ այնտեղ, դա արվում է Արգելել հրահանգի միջոցով, որը անգլերենից թարգմանաբար նշանակում է արգելել, իսկ թույլ տալ՝ թույլ տալ:

Սա սովորական txt ֆայլ է, որը կազմվում է սովորական նոթատետրում կամ NotePad ++ ծրագրում, ֆայլ, որը ռոբոտներին հուշում է կայքի որոշ էջեր չցուցադրել։ Ինչի համար է դա:

ճիշտ կազմված robots txt ֆայլը թույլ չի տալիս ռոբոտներին ինդեքսավորել որևէ աղբ և չխցանել որոնման արդյունքները ավելորդ նյութերով, ինչպես նաև չարտադրել կրկնօրինակ էջեր, ինչը շատ վնասակար երևույթ է.
թույլ չի տալիս ռոբոտներին ինդեքսավորել պաշտոնական օգտագործման համար անհրաժեշտ տեղեկատվությունը.
թույլ չի տալիս լրտես բոտերին գողանալ զգայուն տվյալներ և օգտագործել դրանք սպամ ուղարկելու համար:

Սա չի նշանակում, որ մենք ուզում ենք ինչ-որ բան թաքցնել որոնիչներից, ինչ-որ գաղտնիք, պարզապես այդ տեղեկատվությունը ոչ մի արժեք չունի ոչ որոնման համակարգերի, ոչ այցելուների համար: Օրինակ՝ մուտքի էջ, RSS հոսքեր և այլն։ Բացի այդ, robots txt ֆայլը նշում է կայքի հայելին, ինչպես նաև կայքի քարտեզը: Լռելյայնորեն, WordPress կայքը չունի ռոբոտների txt ֆայլ: Հետևաբար, դուք պետք է ստեղծեք robots txt ֆայլ և վերբեռնեք այն ձեր բլոգի արմատային թղթապանակում, այս հոդվածում մենք կանդրադառնանք WordPress-ի համար robots txt-ին, դրա ստեղծմանը, ճշգրտմանը և վերբեռնմանը: Այսպիսով, նախ մենք կիմանանք, թե որտեղ է գտնվում robots txt ֆայլը:

Որտեղ էռոբոտներ txtինչպես տեսնել այն

Կարծում եմ՝ շատ սկսնակներ իրենց հարց են տալիս՝ որտեղ է ռոբոտները txt-ը: Ֆայլը գտնվում է կայքի արմատային թղթապանակում, public_html թղթապանակում, այն կարելի է տեսնել բավականին պարզ: Կարող եք գնալ հոսթինգ, բացել ձեր կայքի թղթապանակը և տեսնել՝ այս ֆայլը կա՞, թե՞ ոչ։ Ստորև ներկայացված տեսանյութը ցույց է տալիս, թե ինչպես դա անել: Դուք կարող եք նաև դիտել ֆայլը Yandex-ի վեբ-վարպետի և Google-ի վեբ-վարպետի միջոցով, սակայն մենք այդ մասին կխոսենք ավելի ուշ:

Կա նույնիսկ ավելի պարզ տարբերակ, որը թույլ է տալիս դիտել ոչ միայն ձեր ռոբոտները txt, այլ նաև ցանկացած կայքի ռոբոտներ: Կարող եք ռոբոտներ ներբեռնել ձեր համակարգչում, այնուհետև հարմարեցնել այն ինքներդ ձեզ և օգտագործել այն ձեր կայքում (բլոգում): Սա արվում է այսպես. դուք բացում եք ձեզ անհրաժեշտ կայքը (բլոգը) և ավելացնում եք robots.txt կտրվածքով (տե՛ս սքրինշոթը)

և սեղմեք Enter, ռոբոտների txt ֆայլը բացվում է: Այս դեպքում դուք չեք կարող տեսնել, թե որտեղ է գտնվում ռոբոտների txt-ը, բայց կարող եք դիտել և ներբեռնել այն:

Ինչպես ստեղծել ճիշտըռոբոտներ txt կայքի համար

Դուք կարող եք ստեղծել ռոբոտներ txt կայքի համար տարբեր ձևերով.

օգտագործեք առցանց գեներատորներ, որոնք արագ կստեղծեն ռոբոտների txt ֆայլ, կան բազմաթիվ կայքեր և ծառայություններ, որոնք կարող են դա անել.
օգտագործել պլագիններ WordPress-ի համար, որոնք կօգնեն լուծել այս խնդիրը.
կազմել ռոբոտների txt ֆայլը ձեր սեփական ձեռքերով սովորական նոթատետրում կամ NotePad ++ ծրագրում;
օգտագործել պատրաստի, ճիշտ robots txt ուրիշի կայքից (բլոգից)՝ դրանում փոխարինելով ձեր կայքի հասցեն։

Գեներատորներ

Այսպիսով, ես նախկինում չեմ օգտագործել գեներատորներ ռոբոտների txt ֆայլեր ստեղծելու համար, բայց նախքան այս հոդվածը գրելը, ես որոշեցի փորձարկել 4 ծառայություն ռոբոտների txt ֆայլեր ստեղծելու համար, ես որոշակի արդյունքներ ստացա, դրանց մասին ավելի ուշ կխոսեմ: Սրանք ծառայություններն են.

SEOlib ;
ծառայություն PR-CY ;
Raskruty.ru ծառայություն;
seo café կարող եք գնալ այստեղ այս հղումով՝ info.seocafe.info/tools/robotsgenerator:

Ինչպես գործնականում օգտագործել ռոբոտների txt գեներատորը, մանրամասն ներկայացված է ստորև ներկայացված տեսանյութում: Թեստի ընթացքում ես եկել եմ այն եզրակացության, որ դրանք հարմար չեն սկսնակների համար, և ահա թե ինչու. Գեներատորը թույլ է տալիս միայն ֆայլում առանց սխալների ճիշտ մուտքագրել, բայց ճիշտ robots txt կազմելու համար դեռ պետք է գիտելիք ունենալ, պետք է իմանալ, թե որ թղթապանակները փակել, որոնք՝ ոչ։ Այդ իսկ պատճառով, ռոբոտների txt գեներատորի օգտագործումը ֆայլ ստեղծելու համար խորհուրդ չի տրվում սկսնակների համար:

Փլագիններհամար WordPress

Ֆայլ ստեղծելու համար կան PC Robots.txt հավելվածներ: Այս plugin-ը թույլ է տալիս խմբագրել ֆայլը անմիջապես կայքի կառավարման վահանակում: Մեկ այլ iRobots.txt SEO-ի հավելվածը նման ֆունկցիոնալությամբ այս հավելվածն է: Դուք կարող եք գտնել մի շարք տարբեր պլագիններ, որոնք թույլ են տալիս աշխատել ռոբոտների txt ֆայլի հետ: Ցանկության դեպքում «Search plugins» դաշտում կարող եք սահմանել ռոբոտներ արտահայտությունը։ txt և սեղմեք «Որոնում» կոճակը և ձեզ կառաջարկվի մի քանի հավելումներ: Իհարկե, դուք պետք է կարդաք դրանցից յուրաքանչյուրի մասին, նայեք ակնարկներին:

WordPress-ի համար robots txt plugins-ի աշխատանքի սկզբունքը շատ նման է գեներատորների աշխատանքին: Կայքի համար ճիշտ ռոբոտների txt ստանալու համար անհրաժեշտ է գիտելիք և փորձ, բայց որտեղի՞ց կարող են այն ստանալ նորեկները: Իմ կարծիքով, նման ծառայությունները կարող են ավելի շատ վնաս հասցնել, քան օգուտ: Եվ եթե տեղադրեք փլագին, այն կբեռնի նաև հոսթինգը։ Այդ պատճառով ես խորհուրդ չեմ տալիս տեղադրել WordPress robots txt plugin-ը:

Ստեղծելռոբոտներ txtձեռքով

Դուք կարող եք ձեռքով ստեղծել robots txt՝ օգտագործելով սովորական նոթատետր կամ NotePad ++ ծրագիրը, սակայն դա պահանջում է գիտելիքներ և փորձ: Սկսնակների համար այս տարբերակը նույնպես հարմար չէ: Բայց ժամանակի ընթացքում, երբ փորձը հայտնվի, հնարավոր կլինի դա անել և կայքի համար ստեղծել robots txt ֆայլ, գրել Արգելել ռոբոտների հրահանգները և փակել այն ինդեքսավորումից: ցանկալի թղթապանակներ, կարող եք ստուգել ռոբոտներին և ուղղել այն ընդամենը 10 րոպեում։ Ստորև բերված սքրինշոթը ցույց է տալիս ռոբոտները txt նոթատետրում.

Մենք այստեղ չենք դիտարկի ռոբոտների txt ֆայլի ստեղծման կարգը, սա մանրամասն նկարագրված է բազմաթիվ աղբյուրներում, օրինակ, Yandex վեբ-վարպետում: Նախքան robots txt ֆայլը կազմելը, դուք պետք է գնաք Yandex Webmaster, որտեղ մանրամասն նկարագրված է յուրաքանչյուր հրահանգ, թե ինչի համար է այն պատասխանատու և այս տեղեկատվության հիման վրա ստեղծել ֆայլ: (տես սքրինշոթ):

Իմիջայլոց, նոր Yandexվեբ-վարպետն առաջարկում է մանրամասն և մանրամասն տեղեկատվություն, որի մասին հոդվածը կարելի է դիտել բլոգում: Ավելի ճիշտ՝ ներկայացված է երկու հոդված, որոնք մեծ օգուտ կտան բլոգերներին և ոչ միայն սկսնակներին, խորհուրդ եմ տալիս կարդալ։

Եթե դուք սկսնակ չեք և ցանկանում եք ինքներդ պատրաստել ռոբոտներ txt, ապա պետք է հետևեք մի շարք կանոնների.

Ռոբոտների txt ֆայլում ազգային նիշերի օգտագործումն անթույլատրելի է:
Ռոբոտների ֆայլի չափը չպետք է գերազանցի 32 ԿԲ:
Ռոբոտների ֆայլի անունը չի կարող գրվել ինչպես Robots կամ ROBOTS, ֆայլը պետք է ստորագրված լինի ճիշտ այնպես, ինչպես ցույց է տրված հոդվածում:
Յուրաքանչյուր հրահանգ պետք է սկսվի նոր տողից:
Դուք չեք կարող մեկ տողում նշել մեկից ավելի հրահանգներ:
Դատարկ տողով «Արգելել» հրահանգը համարժեք է «Թույլատրել» հրահանգին. թույլ տվեք, սա պետք է հիշել:
Դուք չեք կարող բացատ տեղադրել տողի սկզբում:
Եթե դուք «Օգտատեր-գործակալ» տարբեր հրահանգների միջև բաց չթողնեք, ապա ռոբոտները կընկալեն միայն վերին հրահանգը, մնացածը անտեսվելու է:
Ինքնին հրահանգի պարամետրը պետք է գրվի միայն մեկ տողում:
Դուք չեք կարող դիրեկտիվի պարամետրերը չակերտների մեջ ներառել:
Հրահանգից հետո տողը չես կարող փակել ստորակետով:
Եթե ռոբոտների ֆայլը չի գտնվել կամ դատարկ է, ապա ռոբոտները սա կընկալեն որպես «Ամեն ինչ թույլատրված է»:
Դուք կարող եք մեկնաբանություններ անել հրահանգի տողում (հասկանալու համար, թե դա ինչ տող է), բայց միայն ֆունտի # նշանից հետո։
Եթե տողերի միջև բաց եք դնում, ապա դա կնշանակի User-agent հրահանգի ավարտը:
Միայն մեկ պարամետր պետք է նշվի «Թույլատրել» և «Թույլատրել» հրահանգներում:
Հրահանգների համար, որոնք գրացուցակ են, դրվում է կտրվածք, օրինակ՝ Թույլ չտալ / wp-admin:
«Crawl-relay» բաժնում դուք պետք է ռոբոտներին առաջարկեք սերվերից փաստաթղթեր ներբեռնելու միջև ընկած ժամանակահատվածը, սովորաբար 4-5 վայրկյան:
Կարևոր է. հրահանգների միջև չպետք է դատարկ տողեր լինեն: Նոր հրահանգը սկսվում է մեկ բացատով։ Սա նշանակում է սողունի կանոնների ավարտը, կից տեսանյութում սա մանրամասն ցուցադրվում է։ Աստղանիշները նշանակում են ցանկացած նիշերի հաջորդականություն:
Խորհուրդ եմ տալիս Yandex ռոբոտի համար առանձին կրկնել բոլոր կանոնները, այսինքն՝ կրկնել բոլոր այն հրահանգները, որոնք գրվել են այլ ռոբոտների համար՝ Yandex-ի համար առանձին։ Yandex ռոբոտի համար տեղեկատվության վերջում դուք պետք է գրեք հյուրընկալող հրահանգը (Host - այն աջակցվում է միայն Yandex-ի կողմից) և նշեք ձեր բլոգը: Հաղորդավարը Yandex-ին ասում է, թե ձեր կայքի որ հայելին է գլխավորը www-ով կամ առանց www.
Բացի այդ, ռոբոտների txt ֆայլի առանձին գրացուցակում, այսինքն՝ առանձնացված բացատով, խորհուրդ է տրվում նշել ձեր կայքի քարտեզի հասցեն։ Ֆայլի ստեղծումը կարող է կատարվել մի քանի րոպեում և սկսվում է «User-agent:» արտահայտությամբ։ Եթե ցանկանում եք փակել, օրինակ, նկարները ինդեքսավորումից, ապա պետք է սահմանել Disallow՝ /images/:

Օգտագործեք ճիշտռոբոտներ txt ուրիշի կայքից

Իդեալական ֆայլ գոյություն չունի, ժամանակ առ ժամանակ անհրաժեշտ է փորձել փորձարկել և հաշվի առնել աշխատանքի փոփոխությունները որոնման համակարգեր, հաշվի առեք այն սխալները, որոնք ի վերջո կարող են հայտնվել ձեր բլոգում: Հետևաբար, սկզբի համար կարող եք վերցնել ուրիշի ստուգված ռոբոտների txt ֆայլը և տեղադրել այն ինքներդ:

Համոզվեք, որ փոխեք այն գրառումները, որոնք արտացոլում են ձեր բլոգի հասցեն Host գրացուցակում (տես սքրինշոթը, տես նաև տեսանյութը), ինչպես նաև այն փոխարինեք ձեր կայքի հասցեով կայքի քարտեզի հասցեում (երկու ներքևի տողեր): Ժամանակի ընթացքում այս ֆայլը պետք է մի փոքր շտկվի: Օրինակ, դուք նկատել եք, որ սկսել եք կրկնօրինակ էջեր ունենալ։

Վերևում գտնվող «Որտե՞ղ են ռոբոտները txt, ինչպես տեսնել» բաժնում մենք նայեցինք, թե ինչպես դիտել և ներբեռնել ռոբոտները txt: Հետևաբար, դուք պետք է ընտրեք լավ վստահության կայք, որն ունի Titz-ի բարձր տոկոսադրույքներ, բարձր տրաֆիկ, բացեք և ներբեռնեք ճիշտ ռոբոտների txt: Դուք պետք է համեմատեք մի քանի կայքեր, ընտրեք ինքներդ ցանկալի ֆայլ robots txt և վերբեռնեք այն ձեր կայք:

Ինչպես ֆայլ վերբեռնել կայքռոբոտներ txt դեպի կայքի արմատային թղթապանակ

Ինչպես արդեն նշվեց, WordPress-ում կայք ստեղծելուց հետո, լռելյայնորեն, robots txt ֆայլը բացակայում է։ Հետևաբար, այն պետք է ստեղծվի և բեռնվի մեր կայքի (բլոգի) արմատային թղթապանակում՝ հոսթինգի համար: Ֆայլի վերբեռնումը բավականին հեշտ է. TimeWeb հոստինգում, այլ հոսթինգներում կարող եք վերբեռնել կամ միջոցով կամ միջոցով: Ստորև բերված տեսանյութը ցույց է տալիս ռոբոտների txt ֆայլը TimeWeb հոսթինգ վերբեռնելու գործընթացը:

Ռոբոտների txt ֆայլի ստուգում

Ռոբոտների txt ֆայլը ներբեռնելուց հետո անհրաժեշտ է ստուգել դրա առկայությունը և աշխատանքը։ Դա անելու համար մենք կարող ենք դիտել ֆայլը բրաուզերից, ինչպես ցույց է տրված վերևում «Որտե՞ղ են ռոբոտները txt, ինչպես տեսնել» բաժնում: Եվ դուք կարող եք ստուգել ֆայլի աշխատանքը Yandex-ի վեբ-վարպետի և Google-ի վեբ-վարպետի միջոցով: Հիշեք, որ դրա համար պետք է լինի, և մեջ:

Yandex-ում ստուգելու համար այցելեք մեր Yandex վեբ-վարպետի հաշիվ, ընտրեք կայք, եթե ունեք մի քանիսը: Ընտրեք «Ինդեքսի կարգավորումներ», «Robots.txt վերլուծություն» և այնուհետև հետևեք հրահանգներին:

Google webmaster-ում մենք անում ենք նույնը, գնում ենք մեր հաշիվ, ընտրում ենք ցանկալի կայքը (եթե կան մի քանիսը), սեղմում ենք «Crawl» կոճակը և ընտրում «Robots.txt File Check Tool»: robots txt ֆայլը կբացվի, կարող եք ուղղել կամ ստուգել։

Նույն էջում կան ռոբոտների txt ֆայլի հետ աշխատելու հիանալի հրահանգներ, կարող եք կարդալ դրանք: Եզրափակելով, ես տալիս եմ տեսանյութ, որը ցույց է տալիս, թե ինչ է robots txt ֆայլը, ինչպես գտնել այն, ինչպես դիտել և ներբեռնել այն, ինչպես աշխատել ֆայլերի գեներատորի հետ, ինչպես գրել robots txt և հարմարեցնել այն ձեզ համար, ցուցադրվում են այլ տեղեկություններ: :

Եզրակացություն

Այսպիսով, այս հոդվածում մենք ուսումնասիրեցինք այն հարցը, թե որն է robots txt ֆայլը, պարզեցինք, որ այս ֆայլը շատ կարևոր է կայքի համար: Մենք սովորեցինք, թե ինչպես ճիշտ ռոբոտները պատրաստել txt, ինչպես հարմարեցնել robots txt ֆայլը ուրիշի կայքից ձեր սեփականին, ինչպես վերբեռնել այն ձեր բլոգում, ինչպես ստուգել այն:

Հոդվածից պարզ դարձավ, որ սկսնակների համար սկզբում ավելի լավ է օգտագործել պատրաստի և ճիշտ ռոբոտների txt, բայց չպետք է մոռանալ Հոսթ գրացուցակում տիրույթը փոխարինել ձեր սեփականով, ինչպես նաև գրել հասցեն. ձեր բլոգը կայքի քարտեզներում: Դուք կարող եք ներբեռնել իմ ռոբոտների txt ֆայլը այստեղ: Այժմ, այն շտկելուց հետո, կարող եք օգտագործել ֆայլը ձեր բլոգում:

Առանձին կա ռոբոտների txt ֆայլի կայք, կարող եք գնալ այնտեղ և ավելի մանրամասն տեղեկություններ իմանալ: Հուսով եմ, որ ամեն ինչ կստացվի ձեզ մոտ, և բլոգը լավ ինդեքսավորվի: Հաջողություն քեզ!

Հարգանքներով՝ Իվան Կունպան։

P.S.Բլոգի պատշաճ առաջխաղացման համար հարկավոր է ճիշտ գրել բլոգի հոդվածների օպտիմալացման մասին, այնուհետև այն կունենա բարձր տրաֆիկ և վարկանիշներ։ Իմ տեղեկատվական արտադրանքները, որոնցում ներդրված է իմ եռամյա փորձը, կօգնեն ձեզ այս հարցում։ Դուք կարող եք ձեռք բերել հետևյալ ապրանքները.

վճարովի գիրք;
հետախուզական քարտեզ;
վճարովի վիդեո դասընթաց «»:

Ստացեք նոր բլոգային հոդվածներ անմիջապես ձեր մուտքի արկղում: Լրացրեք ձևը, սեղմեք «Բաժանորդագրվել» կոճակը

SEO-ում մանրուքներ չկան։ Երբեմն ընդամենը մեկ փոքր ֆայլ՝ Robots.txt, կարող է ազդել կայքի առաջխաղացման վրա:Եթե ցանկանում եք, որ ձեր կայքը ինդեքսավորվի այնպես, որ որոնման ռոբոտները շրջանցեն ձեզ անհրաժեշտ էջերը, դուք պետք է առաջարկություններ գրեք նրանց համար։

"Դա հնարավոր է?", - հարցնում ես։Միգուցե. Դա անելու համար ձեր կայքը պետք է ունենա robots.txt ֆայլ:Ինչպես պատրաստել ֆայլ ռոբոտներ, կազմաձևեք և ավելացրեք կայք - մենք հասկանում ենք այս հոդվածում:

Ինչ է robots.txt-ը և ինչի համար է այն

Robots.txt-ը պարզ տեքստային ֆայլ է, որը պարունակում է առաջարկություններ որոնման ռոբոտների համար՝ որ էջերը պետք է սուզվեն, որոնք՝ ոչ։

Կարևոր է. ֆայլը պետք է կոդավորված լինի UTF-8-ով, հակառակ դեպքում որոնման ռոբոտները կարող են չընդունել այն:

Կայքը, որը չունի այս ֆայլը, կմտնի՞ ինդեքս:Դա տեղի կունենա, բայց ռոբոտները կարող են «գրավել» այն էջերը, որոնք անցանկալի են որոնման արդյունքներում. օրինակ՝ մուտքի էջեր, ադմինիստրատորի վահանակ, օգտատերերի անձնական էջեր, հայելային կայքեր և այլն: Այս ամենը համարվում է «որոնողական աղբ».

Եթե անձնական տվյալները ներառված են որոնման արդյունքներում, կարող եք տուժել և՛ դուք, և՛ կայքը: Մեկ այլ կետ՝ առանց այս ֆայլի, կայքի ինդեքսավորումն ավելի երկար կտևի։

Robots.txt ֆայլում կարելի է նշել որոնման սարդերի երեք տեսակի հրամաններ.

սկանավորումն արգելված է;
թույլատրվում է սկանավորում;
սկանավորումը մասամբ թույլատրվում է:

Այս ամենը գրված է հրահանգների միջոցով:

Ինչպես ստեղծել ճիշտ Robots.txt ֆայլը կայքի համար

Robots.txt ֆայլը կարող է ստեղծվել պարզապես Notepad ծրագրում, որը լռելյայն հասանելի է ցանկացած համակարգչի վրա: Ֆայլի նշանակումը նույնիսկ սկսնակին կպահանջի առավելագույնը կես ժամ (եթե գիտեք հրամանները):

Կարող եք նաև օգտագործել այլ ծրագրեր՝ օրինակ Notepad: Այնտեղ կան նաեւ առցանց ծառայություններորը կարող է ավտոմատ կերպով ստեղծել ֆայլը: Օրինակ, ինչպես, օրինակCYPR.comկամ Մեդիասովա.

Պարզապես պետք է նշել ձեր կայքի հասցեն, որի որոնման համակարգերի համար պետք է կանոններ սահմանել, հիմնական հայելին (www-ով կամ առանց): Այնուհետև ծառայությունն ինքն ամեն ինչ կանի։

Անձամբ ես նախընտրում եմ հին «պապիկ» եղանակը՝ ֆայլը ձեռքով գրանցել նոթատետրում։ Կա նաև «ծույլ ճանապարհ»՝ սրանով գլուխ հանել ձեր ծրագրավորողին 🙂 Բայց նույնիսկ այս դեպքում դուք պետք է ստուգեք՝ արդյոք այնտեղ ամեն ինչ ճիշտ է գրված: Հետևաբար, եկեք պարզենք, թե ինչպես կարելի է կազմել հենց այս ֆայլը և որտեղ այն պետք է գտնվի:

Ավարտված Robots.txt ֆայլը պետք է տեղակայված լինի կայքի արմատային թղթապանակում: Պարզապես ֆայլ, առանց թղթապանակի.

Ցանկանու՞մ եք ստուգել, արդյոք այն ձեր կայքում է: Քշել ներս հասցեի բարհասցեն: site.ru/robots.txt. Դուք կտեսնեք հետևյալ էջը (եթե ֆայլը գոյություն ունի).

Ֆայլը բաղկացած է մի քանի բլոկներից, որոնք բաժանված են նահանջով: Յուրաքանչյուր բլոկ պարունակում է առաջարկություններ տարբեր որոնման համակարգերի որոնման ռոբոտների համար (գումարած բլոկ հետ ընդհանուր կանոններբոլորի համար), և առանձին բլոկ՝ կայքի քարտեզի հղումներով՝ Կայքի քարտեզ:

Կարիք չկա բլոկի ներսում նահանջ անել մեկ որոնման ռոբոտի կանոններով:

Յուրաքանչյուր բլոկ սկսվում է User-agent հրահանգով:

Յուրաքանչյուր հրահանգին հաջորդում է «:» նշանը (սև կետ), բացատ, որից հետո նշվում է արժեք (օրինակ, թե որ էջը փակել ինդեքսավորումից):

Դուք պետք է նշեք հարաբերական էջի հասցեները, ոչ թե բացարձակ: Հարաբերական - սա առանց «www.site.ru»-ի: Օրինակ, դուք պետք է անջատեք էջի ինդեքսավորումըwww.site.ru/shop. Այսպիսով, երկու կետից հետո մենք դնում ենք բացատ, շեղ և «խանութ».

Արգելել՝ /խանութ.

Աստղանիշը (*) նշանակում է նիշերի ցանկացած շարք:

Դոլարի նշանը ($) տողի վերջն է:

Դուք կարող եք որոշել. ինչու՞ գրել ֆայլ զրոյից, եթե կարող եք այն բացել ցանկացած կայքում և պարզապես պատճենել այն ինքներդ:

Յուրաքանչյուր կայքի համար պետք է սահմանել յուրահատուկ կանոններ: Հարկավոր է հաշվի առնել առանձնահատկությունները CMS. Օրինակ, նույն ադմինիստրատորի վահանակը գտնվում է /wp-admin հասցեում WordPress շարժիչի վրա, մեկ այլ հասցեում այն տարբեր կլինի: Նույնը առանձին էջերի հասցեներով, կայքի քարտեզով և այլն։

Robots.txt ֆայլի կարգավորում՝ ինդեքսավորում, հիմնական հայելին, հրահանգներ

Ինչպես արդեն տեսել եք սքրինշոթում, Օգտատիրոջ-գործակալի հրահանգն առաջին տեղում է: Այն ցույց է տալիս, թե որ որոնման ռոբոտի համար են գործելու ստորև նշված կանոնները:

Օգտագործող-գործակալ՝ * - կանոններ բոլոր որոնողական ռոբոտների համար, այսինքն՝ ցանկացած որոնման համակարգի (Google, Yandex, Bing, Rambler և այլն):

Օգտագործող-գործակալ՝ Googlebot - Ցույց է տալիս Google որոնման սարդի կանոնները:

Օգտագործող-գործակալ. Yandex - կանոններ Yandex որոնման ռոբոտի համար:

Որ որոնման ռոբոտը նախ սահմանի կանոնները, տարբերություն չկա: Բայց սովորաբար առաջին հերթին գրվում են բոլոր ռոբոտների վերաբերյալ առաջարկությունները:

Արգելել. Արգելել ինդեքսավորումը

Կայքի ամբողջական կամ առանձին էջերի ինդեքսավորումն անջատելու համար օգտագործեք Թույլատրել հրահանգը:

Օրինակ, դուք կարող եք ամբողջությամբ փակել կայքը ինդեքսավորումից (եթե ռեսուրսը վերջնական տեսքի է բերվում, և դուք չեք ցանկանում, որ այն մտնի որոնման արդյունքներ այս վիճակում): Դա անելու համար գրեք հետևյալը.

Օգտագործող-գործակալ՝ *

թույլ չտալ:/

Այսպիսով, բոլոր որոնման ռոբոտներին արգելվում է ինդեքսավորել բովանդակությունը կայքում:

Եվ այսպես կարող եք բացել կայք ինդեքսավորման համար.

Օգտագործող-գործակալ՝ *

Արգելել՝

Հետևաբար, եթե ցանկանում եք փակել կայքը, ստուգեք, թե արդյոք «Արգելել» հրահանգից հետո կտրվածք կա: Եթե ցանկանում եք բացել այն ավելի ուշ, մի մոռացեք հեռացնել կանոնը (և դա հաճախ է պատահում):

Ինդեքսավորումից փակելու համար առանձին էջերդուք պետք է նշեք նրանց հասցեն: Ես արդեն գրել եմ, թե ինչպես է դա արվում.

Օգտագործող-գործակալ՝ *

Թույլ չտալ՝ /wp-admin

Այսպիսով, ադմինիստրատորի վահանակը փակվեց կայքում երրորդ կողմի դիտումներից:

Այն, ինչ դուք պետք է փակեք ինդեքսավորումից առանց ձախողման.

վարչական վահանակ;
օգտվողների անձնական էջեր;
զամբյուղներ;
կայքի որոնման արդյունքներ;
մուտքի, գրանցման, թույլտվության էջեր:

Դուք կարող եք փակել ինդեքսավորումից և որոշակի տեսակի ֆայլերից: Ենթադրենք, դուք ունեք մի քանի .pdf ֆայլեր ձեր կայքում, որոնք չեք ցանկանում ինդեքսավորել: Իսկ որոնողական ռոբոտները շատ հեշտությամբ սկանավորում են կայք բեռնված ֆայլերը։ Դուք կարող եք դրանք փակել ինդեքսավորումից հետևյալ կերպ.

Օգտագործող-գործակալ՝ *

Արգելել՝ /*. pdf$

Ինչպես բացել կայք ինդեքսավորման համար

Նույնիսկ ինդեքսավորումից ամբողջությամբ փակված կայքի դեպքում կարող եք ռոբոտների համար բացել որոշակի ֆայլեր կամ էջեր տանող ճանապարհը: Ենթադրենք, դուք վերաձևավորում եք կայքը, բայց ծառայությունների գրացուցակը մնում է անփոփոխ: Դուք կարող եք ուղղորդել որոնման ռոբոտներին այնտեղ, որպեսզի նրանք շարունակեն ինդեքսավորել բաժինը: Դրա համար «Թույլատրել» հրահանգն օգտագործվում է.

Օգտագործող-գործակալ՝ *

Թույլատրել՝ /ծառայություններ

թույլ չտալ:/

Հիմնական կայքի հայելին

Մինչև 2018 թվականի մարտի 20-ը Yandex որոնման ռոբոտի robots.txt ֆայլում անհրաժեշտ էր նշել կայքի հիմնական հայելին Host հրահանգի միջոցով։ Այժմ ձեզ հարկավոր չէ դա անել, բավական է ստեղծեք էջ առ էջ 301 վերահղում .

Ո՞րն է հիմնական հայելին: Սա ձեր կայքի հասցեն է հիմնականը՝ www-ով կամ առանց www. Եթե վերահղում չկատարեք, ապա երկու կայքերն էլ ինդեքսավորվեն, այսինքն՝ կլինեն բոլոր էջերի կրկնօրինակները։

Կայքի քարտեզ՝ robots.txt կայքի քարտեզ

Ռոբոտների համար բոլոր հրահանգները գրվելուց հետո դուք պետք է նշեք Կայքի քարտեզի ուղին: Կայքի քարտեզը ռոբոտներին ցույց է տալիս, որ բոլոր URL-ները, որոնք պետք է ինդեքսավորվեն, գտնվում են որոշակի հասցեում: Օրինակ:

Կայքի քարտեզ՝ site.ru/sitemap.xml

Երբ ռոբոտը սողում է կայքը, կտեսնի, թե ինչ փոփոխություններ են կատարվել այս ֆայլում: Արդյունքում նոր էջերն ավելի արագ կինդեքսավորվեն։

Clean-param հրահանգ

2009 թվականին Yandex-ը ներկայացրեց նոր հրահանգ՝ Clean-param: Այն կարող է օգտագործվել դինամիկ պարամետրեր նկարագրելու համար, որոնք չեն ազդում էջերի բովանդակության վրա: Ամենից հաճախ այս հրահանգը օգտագործվում է ֆորումներում: Այստեղ շատ աղբ կա, օրինակ նիստի id, տեսակավորման պարամետրեր։ Եթե գրանցեք այս հրահանգը, Yandex որոնման ռոբոտը բազմիցս չի ներբեռնի կրկնվող տեղեկատվությունը:

Դուք կարող եք գրել այս հրահանգը robots.txt ֆայլի ցանկացած վայրում:

Պարամետրերը, որոնք ռոբոտը պետք չէ հաշվի առնել, թվարկված են արժեքի առաջին մասում՝ & նշանի միջոցով.

Clean-param. sid&sort /forum/viewforum.php

Այս հրահանգը խուսափում է դինամիկ URL-ներով կրկնվող էջերից (որոնք պարունակում են հարցական նշան):

Սողալ-հետաձգման հրահանգ

Այս հրահանգը կօգնի նրանց, ովքեր ունեն թույլ սերվեր:

Որոնող ռոբոտի ժամանումը լրացուցիչ բեռ է սերվերի վրա: Եթե դուք ունեք կայքի բարձր տրաֆիկ, ապա ռեսուրսը կարող է պարզապես չդիմանալ և «պառկել»: Արդյունքում ռոբոտը կստանա 5xx սխալի հաղորդագրություն: Եթե այս իրավիճակը անընդհատ կրկնվի, ապա կայքը կարող է ճանաչվել որոնողական համակարգի կողմից որպես չաշխատող:

Պատկերացրեք, որ աշխատում եք, և դրան զուգահեռ պետք է անընդհատ պատասխանեք զանգերին։ Ձեր արտադրողականությունն այնուհետև նվազում է:

Նմանապես սերվերի դեպքում:

Վերադառնանք հրահանգին. Crawl-delay-ը թույլ է տալիս ուշացում սահմանել վեբկայքի էջերի սկանավորման մեջ՝ սերվերի վրա բեռը նվազեցնելու համար: Այսինքն՝ սահմանում եք այն ժամանակահատվածը, որից հետո կայքի էջերը կբեռնվեն։ Նշված է տրված պարամետրվայրկյաններով, ամբողջ թիվ:

Այս հոդվածը WordPress robots.txt ֆայլի լավագույն, իմ կարծիքով, կոդի օրինակն է, որը կարող եք օգտագործել ձեր կայքերում:

Սկզբից հիշենք ինչու է անհրաժեշտ robots.txt-ը- robots.txt ֆայլը անհրաժեշտ է բացառապես որոնողական ռոբոտների համար, որպեսզի նրանց «ասեն», թե կայքի որ բաժինները / էջերը պետք է այցելեն, և որոնք պետք չէ այցելել: Այն էջերը, որոնք փակ են այցելությունից, չեն ինդեքսավորվի որոնման համակարգերի կողմից (Yandex, Google և այլն):

Տարբերակ 1. WordPress-ի օպտիմալ robots.txt կոդը

Օգտատեր-գործակալ՝ * Թույլ չտալ՝ /cgi-bin # classic... Արգելել՝ /? Հարցման բոլոր ընտրանքները գլխավոր էջում Արգելել՝ /wp- # բոլոր WP ֆայլերը՝ /wp-json/, /wp-includes, /wp-content/plugins Արգելել՝ *?s= # որոնել Արգելել՝ *&s= # որոնել Արգելել՝ /որոնել # որոնել Արգելել՝ /հեղինակ/ # հեղինակի արխիվ Արգելել՝ */embed # բոլոր ներկառուցումները Արգելել՝ */page/ # բոլոր տեսակի էջադրումը Թույլատրել՝ */uploads # բաց վերբեռնումներ Թույլատրել՝ /*/*.js # ներսում /wp - (/*/ - առաջնահերթության համար) Թույլատրել՝ /*/*.css # inside /wp- (/*/ - առաջնահերթության համար) Թույլատրել՝ /wp-*.png # պատկերներ հավելվածներում, քեշի թղթապանակում և այլն: . Թույլատրել՝ /wp-*.jpg # պատկերներ հավելվածներում, քեշի թղթապանակում և այլն: Թույլատրել՝ /wp-*.jpeg # պատկերներ հավելվածներում, քեշի թղթապանակում և այլն: Թույլատրել՝ /wp-*.gif # նկարներ պլագիններում, քեշի թղթապանակում և այլն: Թույլատրել՝ /wp-*.svg # պատկերներ հավելվածներում, քեշի պանակում և այլն: Թույլատրել՝ /wp-*.pdf # ֆայլեր պլագիններում, քեշի թղթապանակում և այլն: Թույլատրել՝ /wp-admin/admin-ajax.php #Թույլ չտալ՝ /wp/ # երբ WP-ն տեղադրված է wp ենթագրքում Կայքի քարտեզ՝ http://example.com/sitemap.xml Կայքի քարտեզ՝ http://example.com/sitemap2 xml # այլ ֆայլ #Կայքի քարտեզ՝ http://example.com/sitemap.xml.gz # սեղմված տարբերակ (.gz) # Կոդի տարբերակ՝ 1.1 # Մի մոռացեք փոխել «site.ru»-ն ձեր կայք:

Կոդի վերլուծություն.

User-agent: * տողում մենք նշում ենք, որ բոլոր հետևյալ կանոնները կաշխատեն բոլոր սողացողների համար * Եթե ցանկանում եք, որ այս կանոնները գործեն միայն մեկ կոնկրետ ռոբոտի համար, ապա *-ի փոխարեն նշեք ռոբոտի անունը (User-agent՝ Yandex, User-agent՝ Googlebot):

Թույլատրել. Այս կանոնը պարտադիր է, քանի որ վերևում մենք արգելում ենք ինդեքսավորել /wp--ով սկսվող էջերը և /wp-մեջ ներառված /wp-content/uploads. Հետևաբար, «Disllow: /wp-» կանոնը խախտելու համար ձեզ հարկավոր է «Թույլատրել» տողը. */uploads, քանի որ նման հղումներում /wp-content/uploads/...մենք կարող ենք ունենալ նկարներ, որոնք պետք է ինդեքսավորվեն, ինչպես նաև կարող են լինել որոշ վերբեռնված ֆայլեր, որոնք թաքցնելու կարիք չկա: Թույլատրել՝ կարող է լինել «առաջ» կամ «հետո» Արգելել՝ .

Մնացած տողերը թույլ չեն տալիս ռոբոտներին «քայլել» հղումներով, որոնք սկսվում են հետևյալով.

Թույլ չտալ. /cgi-bin - փակում է սկրիպտների գրացուցակը սերվերի վրա
Թույլ չտալ. /feed - փակում է բլոգի RSS հոսքը
Թույլ չտալ՝ /trackback - Անջատել ծանուցումները
Արգելել՝ ?s= կամ Արգելել՝ *?s= - փակել որոնման էջերը
Թույլ չտալ՝ */page/ - փակում է բոլոր տեսակի էջադրումները

Կայքի քարտեզի կանոնը՝ http://example.com/sitemap.xml, ռոբոտին ուղղորդում է դեպի XML կայքի քարտեզի ֆայլ: Եթե դուք ունեք նման ֆայլ ձեր կայքում, ապա գրեք դրա ամբողջական ուղին: Նման ֆայլերը կարող են լինել մի քանիսը, այնուհետև մենք նշում ենք յուրաքանչյուրի ուղին առանձին:

Host: site.ru տողում մենք նշում ենք կայքի հիմնական հայելին: Եթե կայքը ունի հայելիներ (այլ տիրույթների կայքի պատճենները), ապա որպեսզի Yandex-ը բոլորը հավասարապես ինդեքսավորի, պետք է նշել հիմնական հայելին։ Directive Host. հասկանում է միայն Yandex-ը, Google-ը չի հասկանում: Եթե կայքը աշխատում է https արձանագրության ներքո, ապա այն պետք է նշվի Host: Host: http://example.com

Yandex-ի փաստաթղթերից. «Հոսթն անկախ հրահանգ է և աշխատում է ֆայլի ցանկացած կետում (խաչհատված)»: Հետևաբար, մենք այն դնում ենք ֆայլի վերևում կամ հենց վերջում՝ դատարկ տողի միջով։

Քանի որ բաց հոսքերի առկայությունը պահանջվում է, օրինակ, Yandex Zen-ի համար, երբ պետք է կայքը միացնել ալիքին (շնորհիվ Թվային մեկնաբանի): Միգուցե բաց սնուցումներն այլ տեղ են պետք:

Միևնույն ժամանակ, հոսքերն ունեն պատասխան վերնագրերի իրենց ձևաչափը, որի շնորհիվ որոնման համակարգերը հասկանում են, որ դա այդպես չէ. HTML էջ, մինչդեռ կերակրումը և ակնհայտորեն այլ կերպ վարվում են:

Yandex-ի համար հյուրընկալող հրահանգն այլևս անհրաժեշտ չէ

Yandex-ը ամբողջությամբ հրաժարվում է Host հրահանգից, այն փոխարինվել է 301 վերահղումներով։ Հոսթը կարող է ապահով կերպով հեռացվել robots.txt-ից: Այնուամենայնիվ, կարևոր է, որ կայքի բոլոր հայելիներն ունենան 301 վերահղում դեպի հիմնական կայք (հիմնական հայելի):

Սա կարևոր է՝ տեսակավորման կանոնները վերամշակումից առաջ

Yandex-ը և Google-ը չեն մշակում «Թույլատրել» և «Թույլատրել» հրահանգները այն հաջորդականությամբ, որով դրանք նշված են, այլ նախ դրանք դասավորում են կարճ կանոնից երկարին, այնուհետև մշակում են վերջին համապատասխան կանոնը.

Օգտագործող-գործակալ՝ * Թույլատրել՝ */վերբեռնումներ Արգելել՝ /wp-

կկարդա այսպես.

Օգտագործող-գործակալ՝ * Թույլ չտալ՝ /wp- Թույլատրել՝ */վերբեռնումներ

Տեսակավորման առանձնահատկությունն արագ հասկանալու և կիրառելու համար հիշեք այս կանոնը. «որքան երկար է կանոնը robots.txt-ում, այնքան ավելի առաջնահերթություն ունի: Եթե կանոնների երկարությունը նույնն է, ապա «Թույլատրել» հրահանգը գերակա է»:

Տարբերակ 2. Ստանդարտ robots.txt WordPress-ի համար

Ես չգիտեմ, թե ինչպես որևէ մեկը, բայց ես կողմ եմ առաջին տարբերակին: Որովհետև դա ավելի տրամաբանական է. ձեզ հարկավոր չէ ամբողջությամբ կրկնօրինակել բաժինը՝ Yandex-ի համար Host դիրեկտիվը նշելու համար, որը խաչաձև է (ռոբոտը հասկանում է ձևանմուշի ցանկացած կետում՝ առանց նշելու, թե որ ռոբոտին է այն վերաբերում) . Ինչ վերաբերում է ոչ ստանդարտ Թույլատրել հրահանգին, այն աշխատում է Yandex-ի և Google-ի համար, և եթե այն չի բացում վերբեռնումների թղթապանակը այլ ռոբոտների համար, որոնք չեն հասկանում այն, ապա 99%-ով դա ոչ մի վտանգավոր բան չի ենթադրի: Ես դեռ չեմ նկատել, որ առաջին ռոբոտները չեն աշխատում այնպես, ինչպես պետք է:

Վերոնշյալ կոդը փոքր-ինչ սխալ է: Շնորհակալություն «» մեկնաբանին սխալը մատնանշելու համար, թեև ես ինքս պետք է պարզեի, թե դա ինչ է։ Եվ ահա այն, ինչ ես հանգեցի (կարող եմ սխալվել).

Որոշ ռոբոտներ (ոչ Yandex-ը և Google-ը) չեն հասկանում 2-ից ավելի հրահանգներ՝ User-agent և Disallow:

Yandex դիրեկտիվի Host: պետք է օգտագործվի Disallow-ից հետո, քանի որ որոշ ռոբոտներ (ոչ Yandex-ը և Google-ը) կարող են չհասկանալ այն և ընդհանրապես մերժել robots.txt-ը: Դատելով փաստաթղթերից՝ Yandex-ին ինքնին չի հետաքրքրում, թե որտեղ և ինչպես օգտագործել Host:, նույնիսկ եթե դուք ստեղծում եք robots.txt միայն մեկ տողով Host՝ www.site.ru, որպեսզի սոսնձեք կայքի բոլոր հայելիները:

3. Կայքի քարտեզ. խաչաձև հրահանգ Yandex-ի և Google-ի և, ըստ երևույթին, շատ այլ ռոբոտների համար, այնպես որ մենք այն գրում ենք վերջում դատարկ տողի միջով և այն կաշխատի միանգամից բոլոր ռոբոտների համար:

Այս փոփոխությունների հիման վրա ճիշտ ծածկագիրը պետք է այսպիսի տեսք ունենա.

Օգտատիրոջ գործակալ. Yandex Արգելել. /wp-admin Արգելել. /wp-includes Արգելել. /wp-content/plugins Թույլ չտալ. */embed Արգելել. /wp-includes Արգելել. /wp-content/plugins Արգելել. /wp-json/ Արգելել. /wp-login.php Արգելել. cgi-bin Արգելել՝ *?s= Թույլատրել՝ /wp-admin/admin-ajax.php Կայքի քարտեզ՝ http://example.com/sitemap.xml

Մենք ավելացնում ենք մեզ համար

Եթե Ձեզ անհրաժեշտ է արգելել այլ էջեր կամ էջերի խմբեր, կարող եք ներքևում ավելացնել կանոն (դիրեկտիվ): Արգելել՝. Օրինակ, մենք պետք է փակենք կատեգորիայի բոլոր գրառումները ինդեքսավորումից նորություններ, ապա առաջ կայքի քարտեզ:ավելացնել կանոն.

Արգելել՝ /նորություններ

Այն թույլ չի տալիս ռոբոտներին հետևել հետևյալ հղումներին.

http://example.com/news
http://example.com/news/drugoe-name/

Եթե Ձեզ անհրաժեշտ է փակել /news -ի ցանկացած երևույթ, ապա մենք գրում ենք.

Արգելել՝ */news

http://example.com/news
http://example.com/my/news/drugoe-name/
http://example.com/category/newsletter-name.html

Դուք կարող եք ավելին իմանալ robots.txt հրահանգների մասին Yandex-ի օգնության էջում (սակայն հիշեք, որ այնտեղ նկարագրված ոչ բոլոր կանոններն են աշխատում Google-ի համար):

Robots.txt ստուգում և փաստաթղթեր

Դուք կարող եք ստուգել, թե արդյոք սահմանված կանոնները ճիշտ են գործում հետևյալ հղումներով.

Յանդեքս՝ http://webmaster.yandex.ru/robots.xml:
Google-ում դա արվում է որոնման վահանակ. Ձեզ անհրաժեշտ է թույլտվություն և կայքի առկայությունը վեբ-վարպետի վահանակում...
robots.txt ֆայլ ստեղծելու ծառայություն՝ http://pr-cy.ru/robots/
Ծառայություն robots.txt-ի ստեղծման և ստուգման համար՝ https://seolib.ru/tools/generate/robots/

Ես հարցրեցի Yandex-ին...

Դրանցում հարց տվեց. Yandex-ի աջակցություն Host-ի և Կայքի քարտեզի հրահանգների խաչաձեւ օգտագործման համար.

Հարց:

Բարեւ Ձեզ!
Ես հոդված եմ գրում robots.txt-ի մասին իմ բլոգում։ Ես կցանկանայի ստանալ այսպիսի հարցի պատասխան (փաստաթղթերում միանշանակ «այո» չգտա).

Եթե ես պետք է սոսնձեմ բոլոր հայելիները, և դրա համար ես օգտագործում եմ Host հրահանգը robots.txt ֆայլի հենց սկզբում.
Հաղորդավար՝ site.ru Օգտվողի գործակալ. * Արգելել՝ /asd
Կլինի՞ ներս այս օրինակըճիշտ աշխատել Հյուրընկալող՝ site.ru? Արդյո՞ք դա ռոբոտներին ցույց կտա, որ site.ru-ն գլխավոր հայելին է: Նրանք. Ես օգտագործում եմ այս հրահանգը ոչ թե բաժնում, այլ առանձին (ֆայլի սկզբում)՝ չնշելով, թե որ User-agent-ին է այն վերաբերում։

Նաև ուզում էի իմանալ՝ Կայքի քարտեզի հրահանգը պետք է օգտագործվի՞ բաժնի ներսում, թե՞ դրսում, օրինակ՝ դատարկ տողի միջոցով, հատվածից հետո։
Օգտվողի գործակալ. Yandex Արգելել. /asd Օգտվողի գործակալ. * Արգելել. /asd Կայքի քարտեզ՝ http://example.com/sitemap.xml
Արդյո՞ք ռոբոտը կհասկանա Կայքի քարտեզի հրահանգը այս օրինակում:

Հուսով եմ ձեզնից այնպիսի պատասխան կստանամ, որը վերջ կդնի իմ կասկածներին։

Պատասխան.

Բարեւ Ձեզ!

Host-ի և Sitemap-ի հրահանգները խաչաձեւ են, ուստի դրանք կօգտագործվեն ռոբոտի կողմից՝ անկախ նրանից, թե որտեղ են նշված robots.txt ֆայլում:

--
Հարգանքներով՝ Պլատոն Շուկին
Յանդեքսի աջակցություն

Եզրակացություն

Կարևոր է հիշել, որ robots.txt-ում փոփոխություններն արդեն աշխատող կայքում նկատելի կլինեն միայն մի քանի ամիս հետո (2-3 ամիս):

Խոսակցություններ կան, որ Google-ը երբեմն կարող է անտեսել robots.txt-ի կանոնները և էջ վերցնել ինդեքսում, եթե համարում է, որ էջը շատ յուրահատուկ և օգտակար է, և այն պարզապես պետք է լինի ինդեքսում: Սակայն այլ լուրեր հերքում են այս վարկածը՝ ասելով, որ անփորձ օպտիմիզատորները կարող են սխալ կերպով նշել կանոնները robots.txt-ում և փակել այն այդպես։ ցանկալի էջերինդեքսավորումից և թողնել ավելորդները։ Ես ավելի շատ հակված եմ երկրորդ առաջարկին...

Դինամիկ robots.txt

WordPress-ում robots.txt ֆայլի հարցումը մշակվում է առանձին և պարտադիր չէ ֆիզիկապես ստեղծել robots.txt ֆայլը կայքի արմատում, ավելին, խորհուրդ չի տրվում, քանի որ այս մոտեցմամբ դա շատ դժվար կլինի։ հավելումների համար այս ֆայլը փոխելու համար, և դա երբեմն անհրաժեշտ է:

Կարդացեք այն մասին, թե ինչպես է աշխատում robots.txt ֆայլի դինամիկ ստեղծումը ֆունկցիայի նկարագրության մեջ, իսկ ներքևում ես օրինակ կբերեմ, թե ինչպես կարող եք փոխել այս ֆայլի բովանդակությունը անմիջապես կեռիկի միջոցով:

Դա անելու համար ձեր functions.php ֆայլին ավելացրեք հետևյալ կոդը.

Add_action ("do_robotstxt", "my_robotstxt"); ֆունկցիա my_robotstxt()( $lines = [ "Օգտվողի գործակալ. *", "Արգելել. /wp-admin/", "Արգելել. /wp-includes/", "", ]; echo implode("\r\n ", $lines); die; // դադարեցնել PHP)

Օգտատիրոջ գործակալ. * Արգելել՝ /wp-admin/ Արգելել՝ /wp-includes/

Crawl-relay - խելագար ռոբոտների ժամանակի դադարեցում (հաշվի չի առնվում 2018 թվականից)

Յանդեքս

Ինդեքսավորման խնդիրների վերաբերյալ մեր աջակցության համար վերջին երկու տարվա էլ․ նամակները վերլուծելուց հետո պարզեցինք, որ փաստաթղթերի դանդաղ ներբեռնման հիմնական պատճառներից մեկը robots.txt-ում սխալ կազմաձևված Crawl-relay հրահանգն է, […] Այլևս չպետք է անհանգստանաք այս մասին, և որպեսզի կայքերի բոլոր իսկապես անհրաժեշտ էջերը հայտնվեն և արագ թարմացվեն որոնման մեջ, մենք որոշեցինք հրաժարվել հաշվի առնել «Crawl-relay» հրահանգը:

Երբ Yandex ռոբոտը խելագարի պես սողում է կայքը, և դա անհարկի բեռ է ստեղծում սերվերի վրա։ Ռոբոտին կարող են խնդրել «դանդաղեցնել» տեմպերը:

Դա անելու համար դուք պետք է օգտագործեք Crawl-relay հրահանգը: Այն վայրկյաններով նշում է այն ժամանակը, երբ ռոբոտը պետք է անգործության մատնվի (սպասի) կայքի յուրաքանչյուր հաջորդ էջը սողալու համար:

Robots.txt ստանդարտին չհամապատասխանող ռոբոտների հետ համատեղելիության համար Crawl-relay-ը պետք է նշվի խմբում (User-Agent բաժնում) Արգելել և Թույլատրել անմիջապես հետո:

Yandex ռոբոտը հասկանում է կոտորակային արժեքները, օրինակ՝ 0,5 (կես վայրկյան): Սա չի երաշխավորում, որ սողունը կայցելի ձեր կայք յուրաքանչյուր կես վայրկյանը մեկ, սակայն թույլ է տալիս արագացնել կայքի սողալը։

Օգտատիրոջ գործակալ. Յանդեքս Արգելել. /wp-admin Արգելել. gif Crawl-relay. 2 # timeout 2 վայրկյանից

Google

Googlebot-ը չի հասկանում «Crawl-relay» հրահանգը: Իր ռոբոտների համար ժամկետը կարող է նշվել վեբ-վարպետի վահանակում:

Avi1.ru ծառայությունում դուք արդեն կարող եք գնել SMM խթանումավելի քան 7 ամենատարածվածը սոցիալական ցանցերում. Միևնույն ժամանակ, ուշադրություն դարձրեք կայքի բոլոր ծառայությունների բավականին ցածր արժեքին:

Robots.txt ֆայլը ամենակարեւորներից մեկն է ցանկացած կայքի օպտիմալացման ժամանակ: Դրա բացակայությունը կարող է հանգեցնել կայքի մեծ բեռի որոնման ռոբոտների կողմից և դանդաղ ինդեքսավորման և վերաինդեքսավորման, իսկ սխալ կարգավորումը կարող է հանգեցնել նրան, որ կայքը ամբողջովին անհետանում է որոնումից կամ պարզապես չի ինդեքսավորվում: Հետեւաբար, այն չի որոնվի Yandex-ում, Google-ում և այլ որոնողական համակարգերում: Եկեք նայենք բոլոր նրբերանգներին ճիշտ կարգավորում robots.txt

Նախ, կարճ տեսանյութ, որը ձեզ ընդհանուր պատկերացում կտա, թե ինչ է robots.txt ֆայլը:

Ինչպես է robots.txt-ն ազդում կայքի ինդեքսավորման վրա

Որոնման ռոբոտները ինդեքսավորելու են ձեր կայքը՝ անկախ robots.txt ֆայլի առկայությունից: Եթե այդպիսի ֆայլ կա, ապա ռոբոտները կարող են առաջնորդվել այն կանոններով, որոնք գրված են այս ֆայլում։ Միևնույն ժամանակ, որոշ ռոբոտներ կարող են անտեսել որոշակի կանոններ, կամ որոշ կանոններ կարող են հատուկ լինել միայն որոշ բոտերի համար: Մասնավորապես, GoogleBot-ը չի օգտագործում Host և Crawl-Delay հրահանգները, YandexNews-ը վերջերս սկսել է անտեսել Crawl-Delay հրահանգը, իսկ YandexDirect-ը և YandexVideoParser-ը անտեսում են ռոբոտների ավելի ընդհանուր դիրեկտիվները (սակայն առաջնորդվում են հատուկ նրանց համար նախատեսվածներով):

Ավելին բացառությունների մասին.
Յանդեքսի բացառություններ
Ռոբոտի բացառության ստանդարտ (Վիքիպեդիա)

Կայքի առավելագույն ծանրաբեռնվածությունը ստեղծվում է ռոբոտների կողմից, որոնք ձեր կայքից բովանդակություն են ներբեռնում: Հետևաբար, նշելով, թե ինչն է ինդեքսավորել և ինչն անտեսել, ինչպես նաև ներբեռնել ժամանակային ընդմիջումներով, կարող եք մի կողմից զգալիորեն նվազեցնել կայքի բեռը ռոբոտներից, իսկ մյուս կողմից՝ արագացնել ներբեռնումը։ գործընթացը՝ արգելելով ավելորդ էջերի շրջանցումը:

Նման անհարկի էջերը ներառում են ajax, json սկրիպտներ, որոնք պատասխանատու են թռուցիկ ձևերի համար, բաններներ, captcha ելք և այլն, պատվերի ձևեր և գնումների զամբյուղ՝ վճարման բոլոր քայլերով, որոնման գործառույթներ, Անձնական տարածք, ադմին.

Ռոբոտների մեծ մասի համար ցանկալի է նաև անջատել բոլոր JS-ի և CSS-ների ինդեքսավորումը: Բայց GoogleBot-ի և Yandex-ի համար նման ֆայլերը պետք է թողնվեն ինդեքսավորման համար, քանի որ դրանք օգտագործվում են որոնողական համակարգերի կողմից՝ վերլուծելու կայքի հարմարավետությունը և դրա վարկանիշը (Google proof, Yandex proof):

robots.txt հրահանգներ

Հրահանգները կանոններ են ռոբոտների համար: 1994 թվականի հունվարի 30-ից W3C-ի հստակեցում կա և 1996 թվականից ընդլայնված ստանդարտ: Այնուամենայնիվ, ոչ բոլոր որոնման համակարգերն ու ռոբոտներն են աջակցում որոշակի հրահանգների: Այս առումով մեզ համար ավելի օգտակար կլինի իմանալ ոչ թե ստանդարտը, այլ այն, թե ինչպես են հիմնական ռոբոտներն առաջնորդվում որոշակի հրահանգներով։

Դիտարկենք ըստ հերթականության։

օգտագործող-գործակալ

Սա ամենակարևոր հրահանգն է, որը որոշում է, թե որ ռոբոտների համար են պահպանվում կանոնները:

Բոլոր ռոբոտների համար.
Օգտագործող-գործակալ՝ *

Հատուկ բոտի համար.
Օգտագործողի գործակալ՝ GoogleBot

Նկատի ունեցեք, որ robots.txt-ը մեծատառերի զգայուն չէ: Նրանք. Google-ի օգտատերերի գործակալը նույնքան լավ կարող է գրվել այսպես.
օգտվողի գործակալ՝ googlebot

Ստորև ներկայացված է տարբեր որոնման համակարգերի հիմնական օգտագործողների գործակալների աղյուսակը:

Բոտ	Գործառույթ
Google
Googlebot	Google-ի հիմնական ինդեքսավորման ռոբոտը
Googlebot News	Google News
Googlebot պատկեր	Google Pictures
Googlebot Video	տեսանյութ
Mediapartners-Google
մեդիա գործընկերներ	Google Adsense, Google Mobile Adsense
AdsBot-Google	վայրէջքի էջի որակի ստուգում
AdsBot-Google-Mobile-Apps	Google Robot for Apps
Յանդեքս
YandexBot	Yandex-ի հիմնական ինդեքսավորման ռոբոտը
YandexImages	Yandex.Images
YandexVideo	Յանդեքս.Տեսանյութ
YandexMedia	մուլտիմեդիա տվյալներ
YandexBlogs	բլոգի որոնման ռոբոտ
YandexAddurl	ռոբոտը մուտք է գործում էջ, երբ այն ավելացվում է «Ավելացնել URL» ձևի միջոցով
YandexFavicons	ռոբոտ, որը ինդեքսավորում է կայքի պատկերակները (favicons)
YandexDirect	Yandex.Direct
YandexMetrika	Yandex.Metrica
YandexCatalog	Yandex.Catalog
YandexNews	Yandex.News
YandexImageResizer	բջջային ծառայությունների ռոբոտ
Բինգ
bingbot	հիմնական ինդեքսավորման ռոբոտը Bing
Yahoo!
Slurp	հիմնական ինդեքսավորող ռոբոտ Yahoo!
Mail.Ru
Mail.Ru	հիմնական ինդեքսավորող ռոբոտ Mail.Ru
Ռամբլեր
StackRambler	Նախկինում գլխավոր ինդեքսավորող ռոբոտը Rambler: Այնուամենայնիվ, 2011 թվականի հունիսի 23-ից Rambler-ը դադարում է աջակցել սեփական որոնողական համակարգին և այժմ օգտագործում է Yandex տեխնոլոգիան իր ծառայությունների վրա: Այլևս տեղին չէ:

Թույլ չտալ և թույլ տալ

Թույլ չտալ, փակում է կայքի էջերն ու հատվածները ինդեքսավորումից:
Թույլ տալ, որ ստիպողաբար բացում է կայքի էջերն ու բաժինները ինդեքսավորման համար:

Բայց այստեղ ամեն ինչ այնքան էլ պարզ չէ.

Նախ, դուք պետք է իմանաք լրացուցիչ օպերատորներև հասկանալ, թե ինչպես են դրանք օգտագործվում. դրանք են *, $ և #:

* ցանկացած թվով նիշ է, ներառյալ դրանց բացակայությունը: Միևնույն ժամանակ, դուք չեք կարող աստղանիշ դնել տողի վերջում, հասկանալի է, որ այն կա լռելյայն:
$ - ցույց է տալիս, որ դրանից առաջ կերպարը պետք է լինի վերջինը:
# - մեկնաբանություն, տողում այս նիշից հետո ամեն ինչ հաշվի չի առնվում ռոբոտի կողմից։

Օգտագործման օրինակներ.

Արգելել՝ *?s=
Արգելել՝ /category/$

Երկրորդը, դուք պետք է հասկանաք, թե ինչպես են ներդրված կանոնները կատարվում:
Հիշեք, որ հրահանգները գրելու հերթականությունը կարևոր չէ: Կանոնների ժառանգականությունը, թե ինչ պետք է բացել կամ փակել ինդեքսավորումից, որոշվում է նրանով, թե որ դիրեկտորիաներն են նշված: Օրինակ բերենք.

Թույլատրել՝ *.css
Արգելել՝ /կաղապար/

http://site.ru/template/ - փակված է ինդեքսավորումից
http://site.ru/template/style.css - փակված է ինդեքսավորումից
http://site.ru/style.css - բաց է ինդեքսավորման համար
http://site.ru/theme/style.css - բաց է ինդեքսավորման համար

Եթե ցանկանում եք, որ բոլոր .css ֆայլերը բաց լինեն ինդեքսավորման համար, դուք պետք է լրացուցիչ գրանցեք սա փակված թղթապանակներից յուրաքանչյուրի համար: Մեր դեպքում.

Թույլատրել՝ *.css
Թույլատրել՝ /template/*.css
Արգելել՝ /կաղապար/

Կրկին, հրահանգների հերթականությունը կարևոր չէ։

Կայքի քարտեզ

Ուղին հստակեցնելու հրահանգ XML կայքի քարտեզ. URL-ը գրված է այնպես, ինչպես հասցեի տողում:

Օրինակ,

Կայքի քարտեզ՝ http://site.ru/sitemap.xml

Կայքի քարտեզի հրահանգը նշված է robots.txt ֆայլի ցանկացած կետում՝ առանց որևէ կոնկրետ օգտագործողի գործակալի հետ կապվելու: Դուք կարող եք նշել կայքի քարտեզի մի քանի կանոններ:

Հյուրընկալող

Կայքի հիմնական հայելին նշելու հրահանգ (շատ դեպքերում՝ www-ով կամ առանց www-ի): Խնդրում ենք նկատի ունենալ, որ հիմնական հայելին նշված է ԱՌԱՆՑ http://, բայց https://-ով: Նաև, անհրաժեշտության դեպքում, նշվում է նավահանգիստը:
Հրահանգին աջակցում են միայն Yandex և Mail.Ru բոտերը: Մյուս ռոբոտները, մասնավորապես՝ GoogleBot-ը, հաշվի չեն առնի հրամանը։ Հոսթինգը գրանցվում է միայն մեկ անգամ:

Օրինակ 1:
Հաղորդավար՝ site.ru

Օրինակ 2:
Հաղորդավար՝ https://site.ru

Սողալ-ուշացում

Հրահանգ՝ ռոբոտի կողմից կայքի էջերը ներբեռնելու միջև ընկած ժամանակահատվածը սահմանելու համար: Աջակցում են Yandex ռոբոտները, Mail.Ru, Bing, Yahoo: Արժեքը կարող է սահմանվել ամբողջ թվով կամ կոտորակային միավորներով (բաժանարար - կետ), ժամանակը վայրկյաններով:

Օրինակ 1:
Սողալու ուշացում՝ 3

Օրինակ 2:
Սողացող ուշացում՝ 0,5

Եթե կայքը փոքր ծանրաբեռնվածություն ունի, ապա նման կանոն սահմանելու կարիք չկա։ Այնուամենայնիվ, եթե ռոբոտի կողմից էջերի ինդեքսավորումը հանգեցնում է նրան, որ կայքը գերազանցում է սահմանները կամ զգալի բեռներ է ապրում, ընդհուպ մինչև սերվերի անջատումներ, ապա այս հրահանգը կօգնի նվազեցնել բեռը:

Որքան մեծ է արժեքը, այնքան ավելի քիչ էջեր կներբեռնի ռոբոտը մեկ նստաշրջանում: Օպտիմալ արժեքը որոշվում է անհատապես յուրաքանչյուր կայքի համար: Ավելի լավ է սկսել ոչ շատ մեծ արժեքներից՝ 0,1, 0,2, 0,5 և աստիճանաբար ավելացնել դրանք։ Որոնողական ռոբոտների համար, որոնք ավելի քիչ կարևոր են խթանման արդյունքների համար, ինչպիսիք են Mail.Ru-ն, Bing-ը և Yahoo-ն, սկզբում կարող եք ավելի բարձր արժեքներ սահմանել, քան Yandex ռոբոտների համար:

Մաքուր պարամ

Այս կանոնը սողունին ասում է, որ նշված պարամետրերով URL-ները չպետք է ինդեքսավորվեն: Կանոնին տրվում է երկու փաստարկ՝ պարամետր և բաժնի URL: Հրահանգին աջակցում է Yandex-ը:

Clean-param: author_id http://site.ru/articles/

Clean-param՝ author_id&sid http://site.ru/articles/

Clean-Param՝ utm_source&utm_medium&utm_campaign

Այլ Ընտրանքներ

Ընդլայնված robots.txt ճշգրտման մեջ կարող եք գտնել նաև Request-rate և Visit-time պարամետրերը: Այնուամենայնիվ, նրանք միացված են այս պահինչի աջակցվում հիմնական որոնման համակարգերի կողմից:

Հրահանգների իմաստը.
Հարցման դրույքաչափը՝ 1/5 - բեռնել ոչ ավելի, քան մեկ էջ հինգ վայրկյանում
Այցելության ժամ. 0600-0845 - Էջերը բեռնվում են միայն առավոտյան 6-ից մինչև 8:45 GMT-ը:

robots.txt-ը փակվում է

Եթե Ձեզ անհրաժեշտ է կարգավորել ձեր կայքը այնպես, որ ՉԻ ինդեքսավորվի որոնման ռոբոտների կողմից, ապա դուք պետք է գրեք հետևյալ հրահանգները.

Օգտագործող-գործակալ՝ *
թույլ չտալ:/

Համոզվեք, որ այս հրահանգները գրված են ձեր կայքի փորձարկման կայքերում:

robots.txt-ի ճիշտ կարգավորում

Ռուսաստանի և ԱՊՀ երկրների համար, որտեղ Yandex-ի մասնաբաժինը շոշափելի է, հրահանգները պետք է գրվեն բոլոր ռոբոտների համար, իսկ Yandex-ի և Google-ի համար՝ առանձին։

robots.txt-ը ճիշտ կարգավորելու համար օգտագործեք հետևյալ ալգորիթմը.

Փակեք կայքի ադմինիստրատորի վահանակը ինդեքսավորումից
Փակեք անձնական հաշիվը, թույլտվությունը, գրանցումը ինդեքսավորումից
Փակեք զամբյուղը, պատվերի ձևերը, առաքման և պատվերի տվյալները ինդեքսավորումից
Փակել ajax ինդեքսավորումից, json սկրիպտներից
Փակեք cgi պանակը ինդեքսավորումից
Փակեք պլագինները, թեմաները, js-ը, css-ը բոլոր ռոբոտների ինդեքսավորումից, բացառությամբ Yandex-ի և Google-ի
Փակեք որոնման գործառույթը ինդեքսավորումից
Փակեք ծառայության բաժինները ինդեքսավորումից, որոնք որևէ արժեք չեն պարունակում որոնման մեջ գտնվող կայքի համար (սխալ 404, հեղինակների ցուցակ)
Փակեք էջերի տեխնիկական կրկնօրինակները ինդեքսավորումից, ինչպես նաև այն էջերը, որոնցում ամբողջ բովանդակությունը այս կամ այն ձևով կրկնօրինակված է այլ էջերից (օրացույցներ, արխիվներ, RSS)
Փակել ինդեքսավորման էջերը զտիչով, տեսակավորել, համեմատել տարբերակները
Դադարեցրեք էջերի ինդեքսավորումը UTM պիտակներով և նիստերի պարամետրերով
Ստուգեք, թե ինչ է ինդեքսավորվում Yandex-ի և Google-ի կողմից՝ օգտագործելով «site:» պարամետրը (որոնման տողում մուտքագրեք «site:site.ru»): Եթե որոնման մեջ կան էջեր, որոնք նույնպես պետք է փակվեն ինդեքսավորումից, ավելացրեք դրանք robots.txt-ում:
Նշեք կայքի քարտեզ և հոսթ
Անհրաժեշտության դեպքում գրեք Crawl-Delay և Clean-Param
Ստուգեք robots.txt-ի ճիշտությունը՝ օգտագործելով Google և Yandex գործիքները (նկարագրված է ստորև)
2 շաբաթ անց կրկին ստուգեք, արդյոք SERP-ում նոր էջեր կան, որոնք չպետք է ինդեքսավորվեն: Անհրաժեշտության դեպքում կրկնեք վերը նշված քայլերը:

robots.txt օրինակ

# Հիպոթետիկ կայք ստեղծելու համար robots.txt ֆայլի օրինակ https://site.ru Օգտվողի գործակալ. * Արգելել՝ /admin/ Արգելել. /?s= Արգելել՝ *տեսակավորել= Արգելել. */?s = Թույլ չտալ. *.jpg Թույլատրել՝ /plugins/*.gif Օգտատիրոջ գործակալ. Yandex Արգելել՝ /admin/ Արգելել. *view= Թույլատրել՝ /plugins/*.css Թույլատրել՝ /plugins/*.js Թույլատրել՝ /plugins/*.png Թույլ տալ՝ /plugins/*.jpg Թույլ տալ՝ /plugins/*.gif Clean-Param՝ utm_source&utm_medium&utm_campaign Crawl- Ուշացում՝ 0.5 Կայքի քարտեզ՝ https://site.ru/sitemap.xml Հյուրընկալող՝ https://site.ru

Ինչպես ավելացնել և որտեղ է robots.txt-ը

robots.txt ֆայլը ստեղծելուց հետո այն պետք է տեղադրվի ձեր կայքում՝ site.ru/robots.txt - այսինքն. արմատային գրացուցակում: Սողունը միշտ մուտք է գործում ֆայլ URL հասցեով /robots.txt

Ինչպես ստուգել robots.txt-ը

Robots.txt-ի ստուգումն իրականացվում է հետևյալ հղումներով.

Yandex.Webmaster-ում — Tools>Robots.txt վերլուծության ներդիրում
AT Google Search Console- Սկան ներդիրում > robots.txt ֆայլերի ստուգման գործիք

Ընդհանուր սխալներ robots.txt-ում

Հոդվածի վերջում ես մի քանիսը կտամ ընդհանուր սխալներ robots.txt ֆայլ

robots.txt-ը բացակայում է
robots.txt-ում կայքը փակ է ինդեքսավորումից (Արգելել՝ /)
ֆայլը պարունակում է միայն ամենահիմնական հրահանգները, ֆայլի մանրամասն ուսումնասիրություն չկա
UTM պիտակներով և նիստի ID-ներով էջերը արգելափակված չեն ֆայլում ինդեքսավորելու համար
ֆայլը պարունակում է միայն հրահանգներ
Թույլատրել՝ *.css
Թույլատրել՝ *.js
Թույլատրել՝ *.png
Թույլատրել՝ *.jpg
Թույլատրել՝ *.gif
որտեղ css ֆայլեր, js, png, jpg, gif-ը փակված են որոշ դիրեկտորիաների այլ հրահանգներով
Հոսթի հրահանգը գրված է մի քանի անգամ
Host-ը չի նշում https արձանագրությունը
դեպի Կայքի քարտեզ տանող ուղին սխալ է, կամ նշված է սխալ արձանագրություն կամ կայքի հայելին

P.S.

P.S.2

Օգտակար տեսանյութ Yandex-ից (Ուշադրություն. Որոշ առաջարկություններ հարմար են միայն Yandex-ի համար):