Database e motore di ricerca delle sequenze di SARS-CoV-2

0
321
SARS-CoV-2

Dall’inizio del 2020, laboratori di tutto il mondo sequenziano materiale genetico derivante dai tamponi di persone affette da COVID-19 e poi depositano le sequenze virali in tre banche dati principali :

  • GenBank,
  • COG-UK,
  • GISAID.

Per effettuare agevolmente ricerche tra questa enorme mole di dati e individuare connessioni tra i dati,  un gruppo di ricerca del Politecnico di Milano, guidato da Stefano Ceri, ha realizzato ViruSurf, un motore di ricerca che si avvale di un database centralizzato collocato al Politecnico.

Questo database viene aggiornato periodicamente e attualmente contiene 200.516 sequenze di SARS-CoV-2 e 33.256 sequenze di altre specie associate a epidemie di interesse per l’uomo, tra le quali SARS, MERS, Ebola e Dengue.

Ogni sequenza è descritta secondo quattro criteri:

  • caratteristiche del virus e dell’organismo ospite,
  • tecnologia di sequenziamento utilizzata,
  • organizzazione che ha realizzato il progetto di sequenziamento,
  • mutazioni dei nucleotidi e degli aminoacidi che si trovano in diversi geni.

ViruSurf include un algoritmo che calcola le mutazioni virali in modo omogeneo, ovvero indipendente dalla loro provenienza, ed è gestito su cloud per ridurre i tempi di esecuzione. Il database è inoltre ottimizzato per fornire risposte rapide agli utilizzatori del motore di ricerca.

Dal genoma del virus SARS-CoV-2 (a) si estrae la sua sequenza di nucleotidi e amino acidi (b); le sequenze, depositate nelle banche dati mondiali: GENBANK, GISAID, COG-UK (c), sono importate nel database centralizzato del Politecnico, su cui opera Il motore di ricerca ViruSurf (d)

L’articolo relativo a Virusurf è pubblicato su Nucleic Acids Research.

L’evoluzione di Virusurf

Stefano Ceri aveva già guidato il progetto GeCo che aveva portato allo sviluppo del motore di ricerca per il genoma umano GenoSurf. Questa esperienza gli ha permesso di  progettare rapidamente e quindi distribuire ViruSurf.

Tra gli sviluppi futuri di ViruSurf, il più importante, finanziato da EIT Digital con un progetto semestrale, è un servizio informatico per identificare le mutazioni associate a maggiore o minore severità e virulenza. Utilizzato in campo medico, in fasi meno acute della pandemia, permetterà di arricchire la cartella clinica del paziente con la sequenza del virus che lo ha infettato.

Il sistema, inoltre, consentirà a breve di tracciare gli epitopi (sequenze di aminoacidi del virus critiche per lo sviluppo di vaccini) ad esempio per trovare, per ogni epitopo, le mutazioni della sua sequenza diffuse in alcune regioni del pianeta, che potrebbero pregiudicare l’efficacia del vaccino.