Come funziona l’algoritmo di ricerca Google: storia e aggiornamenti
I motori di ricerca, che una volta avevano un impatto marginale sulla vita delle persone, sono oggi una realtà quotidiana caratteristica della nostra società.
Chiunque, infatti, è consapevole dell’importanza del web tanto per il lato consumer quanto per quello business, e praticamente ogni azienda vorrebbe vedere i propri prodotti o servizi tra i primi risultati di ricerca su smartphone e computer desktop.
Aggiornamenti continui (come il prossimo Page Experience, in arrivo a Febbraio 2022) rendono del resto queste tecnologie sempre più al passo con i tempi e in grado di soddisfare le aspettative degli utenti.
Ma come funziona esattamente un motore di ricerca? Quali aspetti permettono a Google di posizionare un sito rispetto ad un altro? Quali sono stati i principali aggiornamenti (core updates) del passato e quali sono gli scenari futuri?
Per scoprirlo, continuate a leggere l’articolo e seguiteci in questa breve guida a Google e ai motori di ricerca.
Come funziona un motore di ricerca: come Google trova i contenuti
Come funziona un motore di ricerca? Prima di tutto, è bene ricordare che non tutti i motori di ricerca operano allo stesso modo. Bing, Google, Yandex in Russia e Baidu in Cina hanno infatti tutti caratteristiche differenti, che devono essere rispettate per ottenere un buon posizionamento su ciascuno di loro.
Tuttavia, per quanto marcate possano essere le differenze e i dettagli, il funzionamento di base dei motori di ricerca è piuttosto simile e richiama da molto vicino quello di Google, il motore per distacco più usato al mondo con una percentuale mondiale che si attesta attorno al 92%.
Prima di scendere nei dettagli, osserviamo questo video di Matt Cutts (software engineer di Google) che spiega le basi del funzionamento di Google.
Come menzionato nel video, Google esegue la scansione del Web utilizzando un bot chiamato "spider" o “crawler”.
Questo bot non è altro che un piccolo programma che segue i collegamenti da una pagina all'altra: ogni pagina su cui arriva viene quindi copiata e passata ai server.
Il web (da cui lo “spider”) è enorme, e proprio per questo diverrebbe ingestibile se Google tenesse un registro di tutti i contenuti che trova.
Questo è il motivo per cui Google registrerà solo il codice delle pagine che ritiene di valore tralasciando tutti i contenuti che non ritiene utili (duplicati, ma anche contenuti di basso valore ecc.).
I crawler funzionano in un modo molto specifico saltando da un collegamento all'altro alla scoperta di nuove pagine. Questo è il motivo per cui se il tuo contenuto non è collegato a nessuna pagina, molto probabilmente non verrà indicizzato.
Quando uno spider incontra un nuovo dominio cercherà dapprima questa pagina:
domain.com/robots.txt
questo, per un motivo molto semplice: è infatti in questa pagina che potete lasciare indicazioni specifiche allo spider su come leggere i vostri contenuti, come ad esempio quali vadano indicizzati e quali no, o ancora dove trovare la mappa del vostro sito.
In questo caso, tuttavia, è bene ricordare che gli spider riceveranno le vostre indicazioni come linee guida o raccomandazioni, ma non come un comando o un ordine.
In altre parole, essi saranno liberi di rispettarle o meno. Generalmente, se fate le cose fatte bene, gli spider seguiranno le vostre dritte .
Si capisce quindi come gli spider, benchè caratterizzati da un funzionamento di base molto semplice, siano in realtà altamente efficienti - ma attenzione, non intelligenti.
Un crawler infatti si limita a trovare un contenuto: il processo di indicizzazione e il successivo posizionamento verranno solo in un secondo momento.
Come funziona l'indicizzazione
Quando si dispone di una enorme quantità di contenuti, è necessario trovare un modo efficiente per consultarli.
Consultare l'intero database e riordinare i contenuti ogni qualvolta venga effettuata una query sarebbe per Google troppo dispendioso, generando una ricerca lenta e farraginosa.
Al contrario, Google si serve di diverse tecnologie che permettono di risparmiare dati, potenza di calcolo e risorse di sistema mantenendo comunque altamente efficiente il processo di ricerca: stiamo parlando dell'indicizzazione Google.
La ricerca nell'indice risulta infatti molto più rapida rispetto a quella basata sull’intera consultazione del database.
Un esempio dell'efficienza garantita dal processo di indicizzazione si ha con il caso delle così dette stopwords.
Infatti, parole comuni come ad esempio "e", "il", "se" (stopwords, parole di arresto) non vengono memorizzate.
Generalmente non si aggiungono all'interpretazione del contenuto da parte del motore di ricerca e quindi vengono rimosse per risparmiare spazio (sebbene ci siano delle eccezioni: l’espressione “essere o non essere”, ad esempio è composta da stop word).
Questo risparmio di potenza computazionale può sembrare ristretto, ma quando parliamo del funzionamento di Google e di un motore di ricerca dobbiamo sempre tenere bene a mente un aspetto fondamentale: la larga scala di dati su cui essi operano.
Un cambiamento come l’eliminazione delle stopwords, all’apparenza irrilevante per una singola pagina, diventa totalizzante quando moltiplicato per tutte le pagine presenti in rete.
Algoritmi di classificazione
Il contenuto viene quindi indicizzato (Google ne ha preso una copia e ha inserito un collegamento nell'indice). Il che, tradotto in termini pratici, vuol dire che ora il contenuto può essere trovato e visualizzato quando abbinato a una query di ricerca pertinente.
Ma ogni ricerca effettuata su Google produrrà probabilmente migliaia di risultati, quindi per Google è arrivato il momento di decidere con quale ordine mostrare i risultati di ricerca.
Questo è davvero il cuore della SEO: regolare i fattori di ranking dei contenuti web per manipolare l'ordine dei risultati.
Google decide il posizionamento dei siti web attraverso il suo famigerato algoritmo. Un algoritmo è un termine generico che indica un processo o un insieme di regole che viene seguito per risolvere un problema.
In riferimento a Google, le regole dell’algoritmo non sono altro che l'insieme delle metriche ponderate che determina l'ordine in cui vengono classificate le pagine web.
Comprendere l'algoritmo di Google
L’algoritmo di Google non è più la materia oscura di una volta, e sebbene ovviamente sia ancora segreto va pur detto che molti dei suoi parametri di funzionamento sono stati svelati nel corso degli anni (spesso per volontà di Google stessa, che al fine di avere contenuti ben strutturati per il suo motore di ricerca rilascia periodicamente guide ai principali aggiornamenti).
Quindi, sappiamo ormai quali siano tutte le principali metriche on-page e off-page. La parte difficile è capire la correlazione tra loro e dunque la loro interazione.
Se, per esempio, avete cercato "ricette per torte al cioccolato", l'algoritmo valuterà naturalmente le pagine in base a quella parola chiave di ricerca.
Diamo quindi uno sguardo semplificato a due metriche e al modo in cui potrebbero influenzarsi a vicenda per questa query di ricecra.
La metrica 1 riguarda l'URL. Le parole chiave potrebbero infatti apparire nell'URL, ad esempio: www.ricette.com/torte-cioccolato
Google può vedere le parole chiave "torte al cioccolato" e "ricette" nell'URL in modo da poter applicare una selezione di conseguenza.
Ora passiamo alla metrica numero 2, i backlink per la pagina.
I backlink sono sostanzialmente link di altri domini che puntano a un contenuto specifico di un sito web. Molti di questi link, come è facilmente intuibile, potrebbero contenere le parole chiave "torta al cioccolato" e "ricette".
Ma l’importanza di una metrica rispetto all’altra per il posizionamento di un contenuto è a totale discrezione di Google.
Se infatti il nostro contenuto contenesse le principali parole chiave nell’URL come nell’esempio sopra (www.ricette.com/torte-cioccolato) Google conferirebbe quasi sicuramente maggiore importanza alla prima metrica sulla seconda.
Ma se la nostra URL includesse parole diverse come www.cucinaincasa.com/dolci, Google conferirebbe una maggiore importanza al backlink contente parole chiave specifiche come “torte al cioccolato”
Si capisce quindi come tutti i diversi fattori esaminati da Google si influenzino a vicenda. Ognuno può valere di volta in volta avere maggiore rilevanza nel calcolo del posizionamento, e la relazione tra loro è in continua evoluzione.
Google rilascia infatti centinaia di aggiornamenti ogni anno, modificandoli costantemente il suo algoritmo di ricerca.
E più che le metriche stesse, è proprio l’interazione tra loro ad essere mirino costante degli aggiornamenti di Google, che talvolta possono essere anche molto impattanti come nel caso di Penguin o Panda.
Le diverse metriche possono essere suddivise in quattro aree chiave:
Rilevanza
Quanto è rilevante il contenuto rispetto a una determinata query? Il primo vero test per la rilevanza è l'indicizzazione, che determina se il contenuto dovrebbe apparire nei risultati di ricerca.
Ma oltre alla rilevanza occorre anche valutare la pertinenza, poiché se cercate qualcosa vorreste anche visualizzare non solo contenuti sensati, ma anche il più pertinenti possibili.
La pertinenza è determinata da un mix di fattori on-page e off-page. Entrambe le tipologie di fattori sulla posizione delle parole chiave all’interno di un contenuto, valutandone la collocazione ad esempio nei titoli o nel testo di ancoraggio.
Alcune metriche sono poi una combinazione di queste. Ad esempio, se il dominio nel suo insieme è considerato rilevante per il termine di ricerca, questo aumenterà il punteggio di pertinenza della singola pagina valutata.
Autorità
L’autorità trova le sue radici nel PageRank, algoritmo inventato da Larry Page (da cui il nome). È la spina dorsale del criterio con cui Google classifica i contenuti.
Comprendere il PageRank è dunque un passo fondamentale per capire come funziona Google, ma vale la pena ricordare che ci sono oggi centinaia di fattori aggiuntivi che possono influenzare il posizionamento e il PageRank è meno importante di quanto non fosse in passato.
Il PageRank può essere spiegato in termini di voti. Ogni collegamento a una pagina è un voto: più voti ha una pagina, migliore dovrebbe essere la sua posizione in classifica. Se una pagina con molti voti si collega a un'altra pagina, anche parte di quel potere di voto viene trasferito.
Quindi, anche se una pagina ha un solo collegamento, se quel collegamento proviene da una pagina che ha molti voti, potrebbe comunque essere classificato bene e anche le pagine a cui si collega ne trarranno beneficio.
Il valore passato da una pagina all'altra tramite i collegamenti è noto come link juice.
La pertinenza è importante anche nel contesto dell'autorità. Un collegamento con un testo di ancoraggio pertinente può avere più peso di un collegamento che non proviene da un sito pertinente e non ha un testo di ancoraggio pertinente e che, quindi, Google ha maggiori probabilità di ignorare nel contesto di tale risultato di ricerca.
Trust
Il trust è fondamentalmente un algoritmo anti-spam, che ha come principale scopo quello di rendere più difficile manipolare la manipolazione artificiale dei risultati di ricerca.
Google, infatti, ha un rapporto di amore-odio con la SEO, che da un lato produce contenuti ottimizzati per il motore di ricerca, ma dall’altro tende in ultima analisi a manipolare il motore stesso.
Trust si colloca perfettamente all’interno di questa dinamica, cercando di limitare i tentativi di manipolazione da parte dei webmaster.
Questo algoritmo conferisce infatti maggiore peso ad aspetti come la storicità del dominio o del contenuto in questione, ma non solo.
Se per esempio un sito in esame ha molti link (voti) provenienti però da siti poco autorevoli, questi link non solo saranno inutili ai fini del posizionamento, ma addirittura dannosi in quanto peggioreranno l’autorevolezza di quella pagina facendole perdere posizioni nei risultati di ricerca.
Google in effetti può anche essere vista come un registrar di domini, il che significa che può vedere tutti i dati whois per diversi domini.
Ciò consente al motore di ricerca di includere tra le metriche trust informazioni come la frequenza con cui un dominio è passato di mano da proprietario a proprietario, o quanto tempo manca alla scadenza della registrazione. E questi dati sono molto più difficili da manipolare.
L’autorevolezza è determinata anche dal tipo di dominio che rimanda a un sito. I siti accademici come i domini .edu, ad esempio, hanno un'elevata autorevolezza.
Anche altri tipi di dominio possono avere un punteggio di affidabilità elevato, il che rende i collegamenti da essi più preziosi.
Usabilità
Google vuole che i contenuti mostrati nei suoi risultati di ricerca siano attraenti tanto per gli utenti che per i crawler come Googlebot.
Esistono quindi una serie di metriche dedicate proprio a questi fattori. Avere ottimi contenuti ma poi, ad esempio, coprirli con pop-up di annunci pubblicitari non creerà un'ottima esperienza utente.
Questo è il motivo per cui Google attribuirà un punteggio inferiore a pagine affollate di annunci pubblicitari prominenti.
La velocità di una pagina è un altro fattore importante legato all’usabilità.
Le pagine che si caricano troppo lentamente, infatti, sono un fastidio per gli utenti che effettuano ricerche, inducendo le persone ad abbandonarle in fretta in favore di pagine più reattive.
Google, naturalmente, vuole che le persone continuino a utilizzare il suo motore di ricerca, ed quindi nel suo interesse che i risultati visualizzati vengano caricati rapidamente.
Pertanto, procede alla misurazione della velocità delle pagine analizzandone il codice ma anche utilizzando i dati utente di Chrome.
I principali aggiornamenti dell’algoritmo di Google
Numerosi sono stati gli aggiornamenti all’algoritmo di Google nel corso della sua storia.
Ripercorrerli tutti sarebbe un’impresa proibitiva, ed è per questo che in questo paragrafo ci limiteremo ad illustrare i più importanti.
Panda
Pubblicato nel 2011, Panda è un aggiornamento dell’algoritmo di Google concepito per contrastare le cosiddette content farm, ossia grandi aziende il cui scopo dichiarato era quello di generare migliaia di contenuti al giorno per posizionarsi per molte aree di mercato ogni giorno.
Il problema di questa situazione era proprio legato alla qualità dei contenuti, che si posizionavano grazie all’autorevolezza del dominio e a qualche parola chiave al loro interno, pur essendo di fatto di bassa qualità per l’utente. Con questo aggiornamento, quindi, Google ha di fatto posto ancora una volta l’utente al centro dei suoi servizi.
Penguin
Sempre nell’ottica di privilegiare la qualità del contenuto per l’utente si colloca Penguin, core update di Google risalente al 2012.
Con questo aggiornamento, infatti, Google intendeva contrastare le tecniche di manipolazione di molti webmaster che, per ottenere rapidamente ottimi risultati di posizionamento senza generare contenuti di qualità, facevano affidamento a tecniche di link building massive e aggressive (spam) linkando i siti in maniera artificiosa con domini di bassissima qualità.
Proprio con l’introduzione di Penguin, backlink da siti di bassa autorevolezza non solo diventano ininfluenti, ma addirittura peggiorano il posizionamento di un sito web.
Hummingbird
Hummingbird può essere considerato un aggiornamento dell’algoritmo di ricerca diverso dai precedenti in quanto non votato al contrasto diretto delle tecniche di spam, ma comunque non meno importante.
Fino al 2012, infatti, Google restituiva risultati di ricerca basandosi essenzialmente sulla corrispondenza tra parole chiave, fossero esse secche o a coda lunga.
Con l’introduzione nel 2013 dell’aggiornamento Hummingbird, tuttavia, Google apriva le porte del suo motore di ricerca alla semantica.
In altre parole, l’algoritmo ora non solo era in grado di rilevare la corrispondenza tra parole chiave, ma anche di dedurne la presenza in base al contenuto.
Facendo un esempio concreto, questo è il motivo per cui se oggi cerchiamo “the globe”, Google restituisce una serie di risultati legati al famosissimo Globe theatre di Shakespeare, mentre la stessa ricerca nel 2012 avrebbe prodotto un assortimento di risultati tra il globo terreste, un centro commerciale e il famoso teatro.
Mobilegaddon
Nell’ormai non più vicino 2015, Google introdusse una pietra miliare nel suo algoritmo.
Infatti per la prima volta la mobile friendliness di un sito entrava a far parte dei fattori di ranking, e tutti i siti poco ottimizzati in questo senso iniziarono a risentirne notevolmente, portando da quel momento in poi le aziende di tutto il mondo a realizzare siti in ottica mobile first.
Fred
Uscito nel 2017, Fred è stato un core update (aggiornamento importante) che ha penalizzato notevolmente tutti i siti che generavano contenuti di bassa qualità supportati da pop-up e advertising particolarmente aggressivi.
Un’altra volta, quindi, ritroviamo la volontà di Google di premiare contenuti di alta qualità pensati in primo luogo per gli utenti.
Conclusioni
Comprendere le basi del funzionamento dell'algoritmo di ricerca Google è fondamentale per creare contenuti di alta qualità, in grado di incontrare le aspettative degli utenti.
Tuttavia, abbiamo visto come anche rimanere aggiornati sugli ultimi cambiamenti dei motori di ricerca sia estremamente importante per acquisire un vantaggio competitivo sui propri competitor: per questo i nostri esperti tecnici SEO sono sempre a vostra disposizione per aiutarvi nella creazione di pagine e siti sempre allineate con le ultime novità del settore.