La recerca biomèdica moderna està cada cop més marcada per la mida i la complexitat dels conjunts de dades biològiques. Les tecnologies d’alta capacitat i les iniciatives de seqüenciació a gran escala estan generant dades a una escala sense precedents, amb exabytes de dades biològiques que s’espera que arribin durant la propera dècada. Aquests recursos ofereixen oportunitats extraordinàries per estudiar l’evolució molecular i la funció de les proteïnes. Tot i això, els mètodes computacionals existents sovint manquen de l’escalabilitat i la capacitat integradora necessàries per a aquests conjunts de dades heterogenis. En aquesta tesi, primer, investigo enfocaments integradors que combinen informació de seqüència i estructura de proteïnes per millorar l’alineament múltiple de seqüències (MSA) i augmentar la confiança en les estimacions de la inferència filogenètica. En segon lloc, dissenyo marcs reproduïbles i escalables basats en Nextflow i nf-core per a avaluar i desplegar eines de bioinformàtica i deep learning. Aquests inclouen pipelines per avaluar algoritmes de MSA, predir estructures de proteïnes i donar suport al desenvolupament de models de deep learning en genòmica. En general, aquest treball connecta la innovació metodològica amb una infraestructura computacional distribuïda i escalable, oferint solucions integradores i reproduïbles per a la bioinformàtica comparativa i el deep learning a gran escala.
Building similarity graph...
Analyzing shared references across papers
Loading...
Luisa Santus
Building similarity graph...
Analyzing shared references across papers
Loading...
Luisa Santus (Fri,) studied this question.