Ciao a tutti!
Ieri, dovendo fare un'analisi su un sito abbastanza grande di un cliente (circa 5.000 pagine) mi sono ritrovato gli stessi contenuti (o molto molto simili) disposti in pagine e sezioni diverse, dove a cambiare era solo il menu e poco altro.
Il livello di similitudine è molto alto, ma andarle a scovare a mano è proibitivo.
Ho fatto una ricerca online, ma ho trovato solo soft che fanno spidering e poi confrontano titles, hash, size o altri elementi "esterni", trovando solo i duplicati ESATTI.
A me invece interessa un soft che mi faccia il confronto di similitudine tra tutte le pag. di un sito, segnalandomi quelle che superano una certa soglia di uguaglianza. E comparando SOLO il testo visibile, ovviamente, non tags html.
Esiste un software così? lo conoscete?
Aspetto i vostri consigli e suggerimenti!
Voglio stanare i maledetti duplicati che affliggono i miei siti, please!
