{"id":1217,"date":"2018-12-17T11:00:50","date_gmt":"2018-12-17T10:00:50","guid":{"rendered":"https:\/\/www.eugigufo.net\/it\/?page_id=1217"},"modified":"2024-10-01T13:58:26","modified_gmt":"2024-10-01T11:58:26","slug":"paragrafo15","status":"publish","type":"page","link":"https:\/\/eugigufo.net\/it\/inerario\/paragrafo15\/","title":{"rendered":"\u00a7\u00a015. Come creare un\u00a0buon robots.txt per WordPress"},"content":{"rendered":"<p>Come ben sanno molti di&nbsp;voi, un&nbsp;file robots.txt di&nbsp;qualit&agrave; ha&nbsp;una notevole importanza per la&nbsp;popolarit&agrave; della maggioranza dei siti web. Nel <a href=\"http:\/\/eugigufo.net\/it\/inerario\/paragrafo14\/\">paragrafo precedente<\/a> abbiamo visto i&nbsp;principi generali per la&nbsp;creazione di&nbsp;un&nbsp;buon robots.txt.<br \/>\nMolti di&nbsp;voi sanno per&ograve; altrettanto bene che un&nbsp;sito web basato su&nbsp;un&nbsp;CMS ci&nbsp;aggiunge delle difficolt&agrave; in&nbsp;pi&ugrave; nella creazione del robots.txt realmente efficiente. Le&nbsp;difficolt&agrave; consistono nel dover vietare l&rsquo;indicizzazione di&nbsp;una molteplicit&agrave; di&nbsp;pagine generate automaticamente dal CMS (nel nostro specifico caso il&nbsp;WordPress) che ripetono i&nbsp;contenuti delle pagine originali create dagli amministratori del sito. Si&nbsp;tratta quindi delle pagine-doppioni sulle quali i&nbsp;contenuti vengono richiamati e&nbsp;visualizzati perch&eacute; selezionati per categoria, tag, data, anno, mese etc. Eliminando tutti i&nbsp;doppioni dai risultati di&nbsp;ricerca sui &laquo;motori&raquo; (Google e&nbsp;altri) facciamo aumentare l&rsquo;affidabilit&agrave; del sito e&nbsp;la&nbsp;quantit&agrave; delle visite alle sue pagine originali.<br \/>\nInoltre, per motivi di&nbsp;sicurezza conviene eliminare dai risultati di&nbsp;ricerca tutte le&nbsp;pagine che riguardano l&rsquo;amministrazione del nostro sito.<br \/>\nVediamo subito un&nbsp;esempio pratico di&nbsp;un&nbsp;file robots.txt scritto appositamente per un&nbsp;sito costruito su&nbsp;WordPress. Ecco il&nbsp;suo testo minimo indispensabile (l&rsquo;unica cosa che dovrete necessariamente cambiare &egrave;&nbsp;l&rsquo;indirizzo del sito all&rsquo;ultima riga):<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 1; notranslate\" title=\"listing 1\">\nUser-agent: * # la direttiva per i robots diversi da quelli di Google e Yandex\nDisallow: \/cgi-bin # una directory del vostro spazio web\nDisallow: \/? # tutti i parametri della ricerca sulla home\nDisallow: \/wp- # tutti i file di WP: \/wp-json\/, \/wp-includes, \/wp-content\/plugins\nDisallow: \/wp\/ # nel caso della eventuale esistenza del sottocatalogo \/wp\/ dove e installata la CMS\nDisallow: *?s= # ricerca\nDisallow: *&amp;s= # ricerca\nDisallow: \/search\/ # risultati ricerca\nDisallow: \/author\/ # archivio autori\nDisallow: \/users\/ # archivio autori\nDisallow: *\/trackback # tutti i trackback nei commenti\nDisallow: *\/feed # tutti i feed\nDisallow: *\/rss # i feed via rss\nDisallow: *\/embed # tutti gli elementi incorporati\nDisallow: *\/wlwmanifest.xml # il file xml del Windows Live Writer (se non lo utilizzate, eliminate la direttiva)\nDisallow: \/xmlrpc.php # il file  WordPress API\nDisallow: *utm= # i link con i parametri utm\nDisallow: *openstat= # i link con i parametri openstat\nAllow: *\/uploads # la directory con i file uploads\n\nUser-agent: GoogleBot # la direttiva per Google (evito di ripetere i commenti identici)\nDisallow: \/cgi-bin\nDisallow: \/?\nDisallow: \/wp-\nDisallow: \/wp\/\nDisallow: *?s=\nDisallow: *&amp;s=\nDisallow: \/search\/\nDisallow: \/author\/\nDisallow: \/users\/\nDisallow: *\/trackback\nDisallow: *\/feed\nDisallow: *\/rss\nDisallow: *\/embed\nDisallow: *\/wlwmanifest.xml\nDisallow: \/xmlrpc.php\nDisallow: *utm=\nDisallow: *openstat=\nAllow: *\/uploads\nAllow: \/*\/*.js # gli script js dentro alla \/wp- (\/*\/ \u2014 per la priorita)\nAllow: \/*\/*.css # i file css dentro alla \/wp- (\/*\/ \u2014 per la priorita)\nAllow: \/wp-*.png # le immagini nei plugin, cartella cache etc\nAllow: \/wp-*.jpg # le immagini nei plugin, cartella cache etc\nAllow: \/wp-*.jpeg # le immagini nei plugin, cartella cache etc\nAllow: \/wp-*.gif # le immagini nei plugin, cartella cache etc\nAllow: \/wp-admin\/admin-ajax.php # utilizzata dai plugin per non bloccare JS e CSS\n\nUser-agent: Yandex # la direttiva per Yandex.ru (non ripeto i commenti in quanto sarebbero uguali ai precedenti)\nDisallow: \/cgi-bin\nDisallow: \/?\nDisallow: \/wp-\nDisallow: \/wp\/\nDisallow: *?s=\nDisallow: *&amp;s=\nDisallow: \/search\/\nDisallow: \/author\/\nDisallow: \/users\/\nDisallow: *\/trackback\nDisallow: *\/feed\nDisallow: *\/rss\nDisallow: *\/embed\nDisallow: *\/wlwmanifest.xml\nDisallow: \/xmlrpc.php\nAllow: *\/uploads\nAllow: \/*\/*.js\nAllow: \/*\/*.css\nAllow: \/wp-*.png\nAllow: \/wp-*.jpg\nAllow: \/wp-*.jpeg\nAllow: \/wp-*.gif\nAllow: \/wp-admin\/admin-ajax.php\n\n# Non dimenticatevi di indicare il file Sitemap (senza indicarlo per ogni User-agent\nSitemap: http:\/\/nomesito.it\/sitemap.xml\n<\/pre>\n<p>\nCome potete vedere, il&nbsp;significato di&nbsp;ogni direttiva &egrave;&nbsp;spiegato dal relativo commento (come ben sapete, nei file robots.txt i&nbsp;commenti iniziano con il&nbsp;simbolo #).<br \/>\nAlla fine della lista di&nbsp;istruzioni per ogni User-agent potete eventualmente aggiungere tutte le&nbsp;direttive che ritenete necessarie secondo le&nbsp;vostre esigenze. Infatti, una volta dichiarate tutte le&nbsp;istruzioni rese necessarie dalle particolarit&agrave; tecniche del WordPress, si&nbsp;passa a&nbsp;stabilire le&nbsp;regole&nbsp;&mdash; questa volta sulla indicizzazione o&nbsp;non delle pagine del sito&nbsp;&mdash; di&nbsp;carattere pi&ugrave; ampio gi&agrave; descritte nel paragrafo precedente.<br \/>\nInoltre, come ho&nbsp;gi&agrave; scritto, &egrave;&nbsp;consigliato non far indicizzare le&nbsp;pagine-doppioni, quali gli archivi (creati secondo vari possibili criteri) e&nbsp;i&nbsp;raggruppamenti per categorie e&nbsp;tag. A&nbsp;tal fine dobbiamo aggiungere nell&rsquo;esempio appena riportato le&nbsp;seguenti righe:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 2; notranslate\" title=\"listing 2\">\nDisallow: \/tag # le pagine dei tag\nDisallow: \/category # le pagine delle categorie\nDisallow: \/archive # lepagine degli archivi\n<\/pre>\n<p>\nPotete metterle in&nbsp;ogni blocco User-agent dopo la&nbsp;riga Disallow:&nbsp;\/users\/<br \/>\nA&nbsp;questo punto mi&nbsp;restano da&nbsp;aggiungere solo tre precisazioni:<br \/>\n1.&nbsp;Il&nbsp;percorso della mappa del sito (Sitemap) va&nbsp;indicato solo una volta in&nbsp;tutto il&nbsp;file robots.txt.<br \/>\n2.&nbsp;A&nbsp;causa della evoluzione dei meccanismi di&nbsp;Google e&nbsp;altri &laquo;motori&raquo; di&nbsp;ricerca, non ha&nbsp;pi&ugrave; senso vietare l&rsquo;indicizzazione delle cartelle wp-content, cache, plugins e&nbsp;themes. Ma&nbsp;anche se&nbsp;lo&nbsp;fate, non succede nulla di&nbsp;grave.<br \/>\n3.&nbsp;Evitate di&nbsp;inventare delle regole particolari troppo strane. Per esempio, la&nbsp;direttiva Disallow:&nbsp;\/10 nasconder&agrave; non solo i&nbsp;vari archivi con le&nbsp;date, ma&nbsp;anche gli articoli con i&nbsp;nomi del tipo &laquo;10&nbsp;consigli su&nbsp;come conquistare le&nbsp;ragazze cinesi&raquo; (se&nbsp;l&rsquo;URL &egrave;&nbsp;stato generato dal nome dell&rsquo;articolo).<br \/>\nEcco, ora penso di&nbsp;avervi fornito tutte le&nbsp;informazioni essenziali.<br \/>\nP.S.: ovviamente, il&nbsp;file robots.txt deve essere caricato nella root.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Il paragrafo dell\u2019\u201cInerario\u201d che spiega come va fatto un buon file robots.txt per i siti costruiti con il WordPress.<br \/>\nQuesto paragrafo potrebbe essere utile ai web developers e agli addetti al SEO.<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":452,"menu_order":15,"comment_status":"open","ping_status":"closed","template":"inerarioart.php","meta":{"footnotes":""},"class_list":["post-1217","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/pages\/1217","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/comments?post=1217"}],"version-history":[{"count":0,"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/pages\/1217\/revisions"}],"up":[{"embeddable":true,"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/pages\/452"}],"wp:attachment":[{"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/media?parent=1217"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}