{"id":1202,"date":"2018-12-10T11:00:57","date_gmt":"2018-12-10T10:00:57","guid":{"rendered":"https:\/\/www.eugigufo.net\/it\/?page_id=1202"},"modified":"2024-10-01T13:58:26","modified_gmt":"2024-10-01T11:58:26","slug":"paragrafo14","status":"publish","type":"page","link":"https:\/\/eugigufo.net\/it\/inerario\/paragrafo14\/","title":{"rendered":"\u00a7\u00a014. Come creare un\u00a0buon robots.txt"},"content":{"rendered":"<p>[<a href=\"#1\" onclick=\"inverse_elem('inrar14art1_0');\">Visualizza l&rsquo;indice<\/a>]<\/p>\n<div id=\"inrar14art1_0\" style=\"display: none\"><a name=\"#art14p1\">1.&nbsp;Come creare un&nbsp;file robots.txt<\/a><br \/>\n<a name=\"#art14p2\">2.&nbsp;Qual &egrave;&nbsp;il&nbsp;contenuto minimo del file robots.txt<\/a><br \/>\n<a name=\"#art14p3\">3.&nbsp;Le&nbsp;impostazioni corrette del file robots.txt<\/a><br \/>\n<a name=\"#art14p4\">4.&nbsp;La&nbsp;sintassi del file robots.txt<\/a><br \/>\n<a name=\"#art14p5\">5.&nbsp;Come verificare il&nbsp;funzionamento del file robots.txt<\/a><br \/>\n<a name=\"#art14p6\">6.&nbsp;&Egrave;&nbsp;meglio un&nbsp;robots.txt generico o&nbsp;dedicato?<\/a><br \/>\n<a name=\"#art14p7\">7.&nbsp;La&nbsp;direttiva Disallow vista in&nbsp;dettaglio<\/a><br \/>\n<a name=\"#art14p8\">8.&nbsp;La&nbsp;direttiva Allow vista in&nbsp;dettaglio<\/a><br \/>\n<a name=\"#art14p9\">9.&nbsp;Le&nbsp;direttive Allow e&nbsp;Disallow con i&nbsp;parametri di&nbsp;valore vuoto<\/a><br \/>\n<a name=\"#art14p10\">10.&nbsp;La&nbsp;direttiva sitemap<\/a><br \/>\n<a name=\"#art14p11\">11.&nbsp;La&nbsp;direttiva Clean-param<\/a><br \/>\n<a name=\"#art14p12\">12.&nbsp;La&nbsp;direttiva Crawl-delay<\/a><br \/>\n<a name=\"#art14p13\">13.&nbsp;I&nbsp;commenti nel file robots.txt<\/a><br \/>\n<a name=\"#art14p14\">14.&nbsp;L&rsquo;esempio di&nbsp;un&nbsp;file robots.txt completo<\/a><\/div>\n<p>\nDiamo pure per scontato che tutti sappiano che cosa sia un&nbsp;file robots.txt (in&nbsp;sostanza, regola la&nbsp;comparsa o&nbsp;meno delle pagine del sito tra i&nbsp;risultati di&nbsp;ricerca sui cosiddetti &laquo;motori&raquo; di&nbsp;ricerca) e&nbsp;perch&eacute; &egrave;&nbsp;importante farlo bene (per escludere dai risultati di&nbsp;ricerca le&nbsp;pagine tecniche e&nbsp;quelle con i&nbsp;contenuti privati e\/o non significanti, migliorando il&nbsp;posizionamento di&nbsp;quelle importanti).<br \/>\nL&rsquo;obbiettivo del presente paragrafo &egrave;&nbsp;fornire alcuni consigli sulla creazione di&nbsp;un&nbsp;file robots.txt realmente efficace. Evitiamo le&nbsp;lungaggini manualistiche e&nbsp;andiamo per punti.<\/p>\n<p><a name=\"art14p1\"><\/a><b>1.&nbsp;Come creare un&nbsp;file robots.txt<\/b><br \/>\nApriamo un&nbsp;qualsiasi editor di&nbsp;testo (gli utenti di&nbsp;Windows si&nbsp;troveranno benissimo con il&nbsp;Blocco note presente su&nbsp;tutti i&nbsp;computer) e&nbsp;salviamo un&nbsp;file vuoto con il&nbsp;nome robots e&nbsp;l&rsquo;estensione .txt (infatti, &egrave;&nbsp;un&nbsp;semplice file di&nbsp;testo, non uno script).<\/p>\n<blockquote><p>Attenzione: al&nbsp;99,99% il&nbsp;vostro sito ha&nbsp;gi&agrave; questo file (si&nbsp;trova nella root, quindi il&nbsp;suo indirizzo &egrave;&nbsp;nomesito.it\/robots.txt). Seguendo i&nbsp;consigli di&nbsp;questo paragrafo potete modificarlo o&nbsp;sostituirlo con la&nbsp;vostra versione.<\/p><\/blockquote>\n<p>\nI&nbsp;pi&ugrave; pigri possono utilizzare uno dei numerosissimi servizi online per generare un&nbsp;file robots.txt in&nbsp;automatico. Allo stesso tempo bisogna ricordare che il&nbsp;file creato manualmente rispecchier&agrave; in&nbsp;modo pi&ugrave; preciso le&nbsp;vostre preferenze circa il&nbsp;rapporto del sito con i&nbsp;motori di&nbsp;ricerca. L&rsquo;interpretazione del file generato online e&nbsp;la&nbsp;sua correzione, invece, possono portare alle sviste tragiche per il&nbsp;vostro successo su&nbsp;internet. In&nbsp;ogni caso, il&nbsp;file robots.txt pu&ograve; essere aggiornato e&nbsp;perfezionato manualmente in&nbsp;qualsiasi momento.<\/p>\n<p><a name=\"art14p2\"><\/a><b>2.&nbsp;Qual &egrave;&nbsp;il&nbsp;contenuto minimo del file robots.txt<\/b><br \/>\nIl&nbsp;contenuto minimo indispensabile di&nbsp;un&nbsp;file robots.txt &egrave;&nbsp;quello che autorizza l&rsquo;indicizzazione del 100% del sito. Questo significa che tutti i&nbsp;file caricati&nbsp;&ndash; anche quelli non utilizzati sulle pagine del sito&nbsp;&ndash; potranno uscire tra i&nbsp;risultati delle ricerche.<br \/>\nTale contenuto minimo&nbsp;&egrave;:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 1; notranslate\" title=\"listing 1\">\nUser-agent: *\nAllow: \/\n<\/pre>\n<p>\nSe, invece, volessimo vietare l&rsquo;indicizzazione dell&rsquo;intero sito, il&nbsp;contenuto minimo del file robots.txt diventa questo:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 2; notranslate\" title=\"listing 2\">\nUser-agent: *\nDisallow: \/\n<\/pre>\n<p><a name=\"art14p3\"><\/a><b>3.&nbsp;Le&nbsp;impostazioni corrette del file robots.txt<\/b><br \/>\nLa&nbsp;prima cosa che dobbiamo sapere del file robots.txt &egrave;: le&nbsp;istruzioni in&nbsp;esso contenute sono solo delle istruzioni e&nbsp;non delle barriere insuperabili. I&nbsp;meccanismi&nbsp;&ndash; robots&nbsp;&ndash; dei motori di&nbsp;ricerca di&nbsp;qualit&agrave; (come, per esempio, Google o&nbsp;Yandex) seguono fedelmente le&nbsp;istruzioni contenute nei file robots.txt, mentre gli altri potrebbero anche ignorarle.<br \/>\nMa&nbsp;questo non significa che non dobbiamo impegnarci. Dobbiamo dunque comprendere bene le&nbsp;regole, la&nbsp;sintassi e&nbsp;le&nbsp;direttive del file robots.txt.<br \/>\nUn&nbsp;buon file robots.txt inizia con la&nbsp;direttiva User-agent che indica al&nbsp;quale robot sono rivolte le&nbsp;direttive elencate nelle righe che la&nbsp;seguono.<br \/>\nGli esempi del User-agent nel file robots.txt:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 3; notranslate\" title=\"listing 3\">\n# Indica le direttive a tutti i robot contemporaneamente\nUser-agent: *\n\n# Indica le direttive a tutti i robot del Google\nUser-agent: Googlebot\n\n# Indica le direttive a tutti i robot del Yandex\nUser-agent: Yandex\n\n# Indica le direttive solo al robot principale del Yandex\nUser-agent: YandexBot\n<\/pre>\n<p>\nDel codice appena riportato &egrave;&nbsp;importantissimo capire due cose. In&nbsp;primo luogo, vediamo che in&nbsp;un&nbsp;file robots.txt possono essere indicati pi&ugrave; User-agent (uno generico e&nbsp;uno per ogni &laquo;motore&raquo; di&nbsp;ricerca al&nbsp;quale vogliamo dare delle istruzioni). In&nbsp;secondo luogo, vediamo che a&nbsp;ogni &laquo;motore&raquo; di&nbsp;ricerca vengono fornite solo le&nbsp;istruzioni elencate per il&nbsp;User-agent con il&nbsp;suo nome (quindi potremmo anche dare istruzioni diverse ai&nbsp;&laquo;motori&raquo; diversi).<br \/>\nFacciamo un&nbsp;esempio pratico:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 4; notranslate\" title=\"listing 4\">\n# Sara utilizzata da tutti i robot del Google\nUser-agent: Googlebot\nDisallow: \/*utm_\n\n# Sara utilizzata da tutti i robot del Yandex\nUser-agent: Yandex\nDisallow: \/*utm_\n\n# Sara utilizzata da tutti i robot tranne quelli di Google e Yandex\nUser-agent: *\nAllow: \/*utm_\n<\/pre>\n<p>\nLa&nbsp;direttiva User-agent si&nbsp;limita a&nbsp;&laquo;richiamare l&rsquo;attenzione&raquo; del rispettivo robot del &laquo;motore&raquo; di&nbsp;ricerca, mentre le&nbsp;direttive seguenti danno le&nbsp;istruzioni concrete da&nbsp;eseguire. Nell&rsquo;ultimo esempio la&nbsp;direttiva &laquo;Disallow&raquo; (diniego) ha&nbsp;il&nbsp;valore &laquo;*utm_&raquo;. In&nbsp;tal modo escludiamo dai risultati di&nbsp;ricerca tutte le&nbsp;pagine con i&nbsp;parametri UTM.<br \/>\nSempre dall&rsquo;ultimo esempio possiamo imparare che nel file robots.txt le&nbsp;istruzioni per ogni robot (cio&egrave; gli User-agent) vanno raggruppati in&nbsp;blocchi divisi con una riga vuota l&rsquo;uno dall&rsquo;altro (&egrave;&nbsp;una regola obbligatoria!). Un&nbsp;blocco pu&ograve; contenere le&nbsp;istruzioni per un&nbsp;solo robot oppure le&nbsp;regole comuni a&nbsp;tutti i&nbsp;robot (in&nbsp;questo ultimo caso il&nbsp;valore del User-agent &egrave; &laquo;*&raquo;).<br \/>\nUn&rsquo;altra cosa importante &egrave;&nbsp;il&nbsp;rispetto dell&rsquo;ordine corretto delle direttive &laquo;Disallow&raquo; (diniego) e&nbsp;&laquo;Allow&raquo; (permesso, quindi il&nbsp;contrario della precedente). Facciamo subito un&nbsp;esempio pratico:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 5; notranslate\" title=\"listing 5\">\nUser-agent: *\nDisallow: \/blog\nAllow: \/blog\/page\n<\/pre>\n<p>\nNell&rsquo;esempio appena riportato abbiamo negato a&nbsp;tutti i&nbsp;robot (si&nbsp;veda &laquo;*&raquo;) l&rsquo;indicizzazione (la&nbsp;visualizzazione tra i&nbsp;risultati) di&nbsp;tutte le&nbsp;pagine il&nbsp;cui indirizzo inizia con &laquo;\/blog&raquo; (quindi l&rsquo;indirizzo nomesito.it\/blog non comparir&agrave; tra i&nbsp;risultati). Allo stesso tempo abbiamo consentito l&rsquo;indicizzazione delle pagine i&nbsp;cui indirizzi iniziamo con il&nbsp;percorso &laquo;\/blog\/page&raquo;. L&rsquo;ordine di&nbsp;indicazione del diniego e&nbsp;del permesso deve essere proprio quello: vietare tutta la&nbsp;sezione e&nbsp;poi autorizzare quelle sue parti che secondo noi possono essere trovate dai terzi.<br \/>\nPrima di&nbsp;procedere dobbiamo vedere le&nbsp;nozioni essenziali sulla sintassi del file robots.txt.<\/p>\n<p><a name=\"art14p4\"><\/a><b>4.&nbsp;La&nbsp;sintassi del file robots.txt<\/b><br \/>\nPer creare un&nbsp;file robots.txt interpretabile in&nbsp;modo corretto dai robot di&nbsp;ricerca, bisogna seguire una serie di&nbsp;semplicissime regole:<br \/>\n1.&nbsp;Ogni direttiva inizia da&nbsp;una riga nuova;<br \/>\n2.&nbsp;Non iniziare una riga con uno spazio [vuoto];<br \/>\n3.&nbsp;Il&nbsp;parametro di&nbsp;una direttiva deve essere tutto sulla stessa riga;<br \/>\n4.&nbsp;I&nbsp;parametri delle direttive non devono essere racchiuse tra le&nbsp;virgolette;<br \/>\n5.&nbsp;I&nbsp;parametri delle direttive non richiedono il&nbsp;punto e&nbsp;virgola di&nbsp;chiusura;<br \/>\n6.&nbsp;Le&nbsp;istruzioni in&nbsp;un&nbsp;file robots.txt hanno il&nbsp;formato [Nome_direttiva]:[spazio_non_obbligatorio][valore][spazio_non_obbligatorio]<br \/>\n7.&nbsp;I&nbsp;commenti sono possibili nel file robots.txt, ma&nbsp;devono iniziare con il&nbsp;simbolo &laquo;#&raquo;;<br \/>\n8.&nbsp;Una riga vuota &egrave;&nbsp;considerata come il&nbsp;segno della fine della direttiva User-agent;<br \/>\n9.&nbsp;La&nbsp;direttiva &laquo;Disallow:&nbsp;&raquo; (cio&egrave; con il&nbsp;valore vuoto) equivale a&nbsp;&laquo;Allow:&nbsp;\/&raquo; (cio&egrave; autorizzare tutto);<br \/>\n10.&nbsp;Per ogni direttiva &laquo;Allow&raquo; o&nbsp;&laquo;Disallow&raquo; pu&ograve; essere indicato solo un&nbsp;parametro;<br \/>\n11.&nbsp;Il&nbsp;nome del file robots.txt deve contenere solo le&nbsp;lettere minuscole;<br \/>\n12.&nbsp;&Egrave;&nbsp;fortemente consigliato di&nbsp;evitare le&nbsp;maiuscole nei nomi delle direttive (tranne la&nbsp;prima lettera) e&nbsp;nei parametri: il&nbsp;file robots.txt non fa&nbsp;la&nbsp;differenza tra le&nbsp;maiuscole e&nbsp;le&nbsp;minuscole, ma&nbsp;i&nbsp;nomi dei file e&nbsp;delle directory spesso&nbsp;s&igrave;;<br \/>\n13.&nbsp;Se&nbsp;il&nbsp;parametro di&nbsp;una direttiva &egrave;&nbsp;una directory, quest&rsquo;ultima deve essere preceduta da&nbsp;uno slash &laquo;\/&raquo;, per esempio: Disallow:&nbsp;\/category<br \/>\n14.&nbsp;I&nbsp;file robots.txt troppo pesanti (pi&ugrave; di&nbsp;32&nbsp;KB) vengono interpretati come completamente permissivi, quindi equivalenti a&nbsp;&laquo;Disallow:&nbsp;&raquo; (di&nbsp;conseguenza, evitate di&nbsp;metterci delle direttive inutili, meglio averne poche ma&nbsp;realmente necessarie);<br \/>\n15.&nbsp;Il&nbsp;file robots.txt inaccessibile o&nbsp;assente viene considerato completamente permissivo;<br \/>\n16.&nbsp;Il&nbsp;file robots.txt vuoto viene considerato completamente permissivo;<br \/>\n17.&nbsp;Nel caso della indicazione di&nbsp;pi&ugrave; direttive &laquo;User-agent&raquo; non divise tra loro da&nbsp;una riga vuota, solo la&nbsp;prima &laquo;User-agent&raquo; viene interpretata, mentre quelle seguenti andranno ignorate (l&rsquo;unica eccezione &egrave;&nbsp;il&nbsp;robot del russo Yandex);<br \/>\n18.&nbsp;L&rsquo;uso dei simboli appartenenti agli alfabeti nazionali non &egrave;&nbsp;ammissibile (quindi niente vocali accentate italiane).<\/p>\n<p><a name=\"art14p5\"><\/a><b>5.&nbsp;Come verificare il&nbsp;funzionamento del file robots.txt<\/b><br \/>\nPrima di&nbsp;tutto il&nbsp;file robots.txt va&nbsp;creato, salvato e&nbsp;caricato nella root del sito. Successivamente, accertata la&nbsp;sua presenza all&rsquo;indirizzo nomesito.it\/robots.txt, &egrave;&nbsp;possibile servirsi degli strumenti di&nbsp;controllo disponibili su&nbsp;internet. Io&nbsp;ne&nbsp;indico solo due:<br \/>\n&ndash;&nbsp;lo&nbsp;strumento di&nbsp;controllo di&nbsp;Google: <a href=\"https:\/\/www.google.com\/webmasters\/tools\/siteoverview?hl=it\">https:\/\/www.google.com\/webmasters\/tools\/siteoverview?hl=it<\/a><br \/>\n&ndash;&nbsp;lo&nbsp;strumento di&nbsp;controllo di&nbsp;Yandex (molte cose si&nbsp;capiscono anche senza la&nbsp;conoscenza del russo): <a href=\"http:\/\/webmaster.yandex.ru\/robots.xml\">http:\/\/webmaster.yandex.ru\/robots.xml<\/a><\/p>\n<p><a name=\"art14p6\"><\/a><b>6.&nbsp;&Egrave;&nbsp;meglio un&nbsp;robots.txt generico o&nbsp;dedicato?<\/b><br \/>\nLe&nbsp;persone esperte hanno osservato che i&nbsp;file robots.txt dedicati (cio&egrave; con i&nbsp;&laquo;User-agent: Googlebot&raquo;, &laquo;User-agent: Yandex&raquo; etc anche quando i&nbsp;loro contenuti sono identici) funzionano meglio del solo generico &laquo;User-agent:&nbsp;*&raquo;. Non si&nbsp;conosce una spiegazione razionale di&nbsp;questo fenomeno. Probabilmente, anche ai&nbsp;grossi siti piace essere chiamati per nome.<\/p>\n<p><a name=\"art14p7\"><\/a><b>7.&nbsp;La&nbsp;direttiva Disallow vista in&nbsp;dettaglio<\/b><br \/>\nDisallow &egrave;&nbsp;la&nbsp;direttiva pi&ugrave; frequentemente utilizzata nei file robots.txt. Essa pu&ograve; essere utilizzata per il&nbsp;diniego della indicizzazione dei siti interi o&nbsp;delle loro parti singole (che altrimenti sarebbero indicizzati per default, senza la&nbsp;necessita della direttiva Allow).<br \/>\nAbbiamo gi&agrave; visto che il&nbsp;diniego della indicizzazione generica dell&rsquo;intero sito va&nbsp;fatta nel seguente modo:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 6; notranslate\" title=\"listing 6\">\nUser-agent: *\nDisallow: \/\n<\/pre>\n<p>\nNei parametri della Direttiva Disallow &egrave;&nbsp;ammissibile l&rsquo;uso dei simboli speciali &laquo;*&raquo; e&nbsp;&laquo;$&raquo;. Vediamoli molto brevemente:<br \/>\n* &ndash; il&nbsp;simbolo indica un&nbsp;insieme illimitato di&nbsp;simboli di&nbsp;ogni genere. Cos&igrave;, per esempio, al&nbsp;parametro \/page* corrispondono \/page, \/page1, \/page-ciao-mario, \/page-che-ne-so etc. Allo stesso tempo &egrave;&nbsp;importante ricordare che non &egrave;&nbsp;necessario mettere il&nbsp;simbolo&nbsp;* alla fine di&nbsp;ogni parametro, ma&nbsp;solo quando a&nbsp;un&nbsp;inizio comune a&nbsp;pi&ugrave; parametri possibili seguono, appunto, le&nbsp;diverse varianti. Mentre queste due direttive saranno interpretate allo stesso modo:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 7; notranslate\" title=\"listing 7\">\nUser-agent: Googlebot\nDisallow: \/page\n\nUser-agent: Googlebot\nDisallow: \/page*\n<\/pre>\n<p>\n$&nbsp;&ndash; il&nbsp;simbolo indica la&nbsp;precisa corrispondenza del parametro alla pagina che si&nbsp;vuole escludere dai risultati di&nbsp;ricerca. Se, per esempio, volessimo negare l&rsquo;indicizzazione della pagina \/page ma&nbsp;non delle pagine \/page, \/page1, \/page-ciao-mario, \/page-che-ne-so etc la&nbsp;direttiva dovr&agrave; essere fatta in&nbsp;questo modo:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 8; notranslate\" title=\"listing 8\">\nUser-agent: Googlebot\nDisallow: \/page$\n<\/pre>\n<p><a name=\"art14p8\"><\/a><b>8.&nbsp;La&nbsp;direttiva Allow vista in&nbsp;dettaglio<\/b><br \/>\nAllow &egrave;&nbsp;la&nbsp;direttiva permissiva, l&rsquo;opposto della appena vista direttiva Disallow. La&nbsp;direttiva Allow funziona secondo la&nbsp;stessa logica e&nbsp;sintassi della Disallow.<br \/>\nFacciamo solo un&nbsp;esempio pratico. Immaginiamo di&nbsp;voler vietare l&rsquo;indicizzazione di&nbsp;tutto il&nbsp;sito tranne quelle sue pagine i&nbsp;cui indirizzi iniziano con \/page.<br \/>\nEcco la&nbsp;direttiva:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 9; notranslate\" title=\"listing 9\">\nUser-agent: *\nDisallow: \/\nAllow: \/page\n<\/pre>\n<p><a name=\"art14p9\"><\/a><b>9.&nbsp;Le&nbsp;direttive Allow e&nbsp;Disallow con i&nbsp;parametri di&nbsp;valore vuoto<\/b><br \/>\nLa&nbsp;direttiva Allow senza alcun parametro vieta l&rsquo;indicizzazione dell&rsquo;intero sito:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 10; notranslate\" title=\"listing 10\">\nUser-agent: *\nAllow:\n<\/pre>\n<p>\nLo&nbsp;stesso fa&nbsp;un&nbsp;esempio che abbiamo gi&agrave; visto in&nbsp;precedenza:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 11; notranslate\" title=\"listing 11\">\nUser-agent: *\nDisallow: \/\n<\/pre>\n<p>\nLa&nbsp;direttiva Disallow senza alcun parametro non vieta alcunch&eacute; e&nbsp;quindi autorizza l&rsquo;indicizzazione dell&rsquo;intero sito:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 12; notranslate\" title=\"listing 12\">\nUser-agent: *\nDisallow:\n<\/pre>\n<p>\nLo&nbsp;stesso fa&nbsp;un&nbsp;esempio che abbiamo visto in&nbsp;precedenza:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 13; notranslate\" title=\"listing 13\">\nUser-agent: *\nAllow: \/\n<\/pre>\n<p><a name=\"art14p10\"><\/a><b>10.&nbsp;La&nbsp;direttiva sitemap<\/b><br \/>\nLe&nbsp;due scuole di&nbsp;pensiero esistenti cercano di&nbsp;imporci due opinioni opposte sulla opportunit&agrave; o&nbsp;meno di&nbsp;far indicizzare la&nbsp;mappa del sito. Il&nbsp;mio compito non &egrave;&nbsp;quello di&nbsp;appoggiare una delle due. Mi&nbsp;limito a&nbsp;dire che per negare l&rsquo;indicizzazione dovete utilizzare la&nbsp;direttiva Disallow, mentre per farla indicizzare utilizzate la&nbsp;direttiva apposita Sitemap:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 14; notranslate\" title=\"listing 14\">\nUser-agent: *\nDisallow: \/page\nSitemap: http:\/\/www.mysite.ru\/sitemap.xml\n<\/pre>\n<p><a name=\"art14p11\"><\/a><b>11.&nbsp;La&nbsp;direttiva Clean-param<\/b><br \/>\nLa&nbsp;direttiva Clean-param permette di&nbsp;escludere dalla indicizzazione le&nbsp;pagine con i&nbsp;parametri dinamici. Tali pagine potrebbero avere gli URL diversi tra loro ma&nbsp;i&nbsp;contenuti identici. Pensate agli articoli raggruppati per tag, categorie e&nbsp;date: &egrave;&nbsp;abbastanza facile che su&nbsp;pi&ugrave; pagine compaiano gli stessi testi. Quindi la&nbsp;stessa pagina potrebbe essere disponibile a&nbsp;pi&ugrave; indirizzi. Molti di&nbsp;quei indirizzi sono dinamici e&nbsp;noi li&nbsp;escludiamo dalla indicizzazione con l&rsquo;aiuto della direttiva Clean-param.<br \/>\nLa&nbsp;sintassi della direttiva Clean-param &egrave;:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 15; notranslate\" title=\"listing 15\">\nClean-param: parm1&#x5B;&amp;parm2&amp;parm3&amp;parm4&amp;..&amp;parmn] &#x5B;Percorso]\n<\/pre>\n<p>\nImmaginiamo di&nbsp;avere una pagina con l&rsquo;URL www.nomesito.it\/page.html?&#038;parm1=1&#038;parm2=2&#038;parm3=3<br \/>\nQuindi nel nostro file robots.txt la&nbsp;direttiva Clean-param avr&agrave; questo parametro:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 16; notranslate\" title=\"listing 16\">\nClean-param: parm1&amp;parm2&amp;parm3 \/page.html # solo per page.html\n<\/pre>\n<p>\nMa, se&nbsp;serve, possiamo fare anche cos&igrave;:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 17; notranslate\" title=\"listing 17\">\nClean-param: parm1&amp;parm2&amp;parm3 \/ # per tutte le pagine\n<\/pre>\n<p><a name=\"art14p12\"><\/a><b>12.&nbsp;La&nbsp;direttiva Crawl-delay<\/b><br \/>\nLa&nbsp;direttiva Crawl-delay permette di&nbsp;ridurre il&nbsp;carico sul nostro server qualora i&nbsp;robot &laquo;visitassero&raquo; troppo spesso il&nbsp;nostro server. Tale direttiva &egrave;&nbsp;utile prevalentemente nel caso dei siti con una alta quantit&agrave; delle pagine.<br \/>\nQuindi ipotizziamo di&nbsp;voler chiedere ai&nbsp;&laquo;motori&raquo; di&nbsp;ricerca di&nbsp;scaricare le&nbsp;pagine del nostro sito non pi&ugrave; spesso di&nbsp;una volta in&nbsp;&ndash; per esempio&nbsp;&ndash; tre secondi. La&nbsp;direttiva sar&agrave; fatta cos&igrave;:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 18; notranslate\" title=\"listing 18\">\nUser-agent: Googlebot\nDisallow: \/page\nCrawl-delay: 3\n<\/pre>\n<p>\nOvviamente il&nbsp;numero dei secondi pu&ograve; essere cambiato.<\/p>\n<p><a name=\"art14p13\"><\/a><b>13.&nbsp;I&nbsp;commenti nel file robots.txt<\/b><br \/>\nNel file robots.txt i&nbsp;commenti devono iniziare con il&nbsp;simbolo &laquo;#&raquo;. Tutto ci&ograve; che &egrave;&nbsp;scritto da&nbsp;quel simbolo fino al&nbsp;termine della riga &egrave;&nbsp;considerato un&nbsp;commento e&nbsp;viene dunque ignorato dai robot di&nbsp;ricerca.<br \/>\nVediamo un&nbsp;esempio pratico dei possibili modi corretti di&nbsp;scrivere i&nbsp;commenti nel file robots.txt:<\/p>\n<pre class=\"brush: xml; collapse: false; title: listing 19; notranslate\" title=\"listing 19\">\nUser-agent: *\n# Il commento puo' iniziare all'inizio di una riga nuova\nDisallow: \/page # oppure essere la continuazione della riga con una direttiva\n# I robot\n# ignorano\n# i commenti\n<\/pre>\n<p><a name=\"art14p14\"><\/a><b>14.&nbsp;L&rsquo;esempio di&nbsp;un&nbsp;file robots.txt completo<\/b><br \/>\nUn&nbsp;esempio di&nbsp;un&nbsp;file robots.txt completo &egrave;&nbsp;impossibile da&nbsp;fare. Infatti, il&nbsp;file deve rispecchiare le&nbsp;necessit&agrave; concrete dell&rsquo;amministratore del sito e&nbsp;corrispondere alla organizzazione di&nbsp;quest&rsquo;ultimo.<br \/>\nSpero che questo paragrafo vi&nbsp;sia d&rsquo;aiuto nella creazione di&nbsp;un&nbsp;robots.txt ottimale.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Il paragrafo dell\u2019\u201cInerario\u201d dedicato alla costruzione di un file robots.txt corretto e ottimale.<br \/>\nQuesto paragrafo sar\u00e0 utile agli amministratori dei siti web, ai backend developers e agli addetti al SEO.<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":452,"menu_order":14,"comment_status":"open","ping_status":"closed","template":"inerarioart.php","meta":{"footnotes":""},"class_list":["post-1202","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/pages\/1202","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/comments?post=1202"}],"version-history":[{"count":0,"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/pages\/1202\/revisions"}],"up":[{"embeddable":true,"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/pages\/452"}],"wp:attachment":[{"href":"https:\/\/eugigufo.net\/it\/wp-json\/wp\/v2\/media?parent=1202"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}