Eines bioinformàtiques més fiables per a l'estudi de proteïnes
Investigadors de l’IBB han generat un conjunt de dades d’alta qualitat per comprendre millor les proteïnes implicades en un procés biològic clau pel qual formen condensats i el paper que aquests tenen en condicions funcionals, d’envelliment i de malaltia. Els recursos generats, disponibles en una plataforma oberta i en línia, permetran millorar els models predictius actuals, que presenten mancances importants.

Moltes proteïnes tenen la capacitat de reorganitzar-se espontàniament dins les cèl·lules per formar condensats moleculars (estructures intracel·lulars sense membrana compostes per una proteïna o múltiples) mitjançant un procés conegut com a separació per fases líquid-líquid (LLPS per la sigla en anglès). Aquest procés biològic és clau, ja que permet a les proteïnes organitzar-se, interactuar i funcionar de manera eficient i regulada en l’entorn cel·lular. Quan aquest mecanisme falla, poden aparèixer malalties neurodegeneratives, càncers o trastorns del desenvolupament.
Un equip de recerca de l’Institut de Biotecnologia i de Biomedicina (IBB) de la UAB ha creat ara el conjunt de dades més exhaustiu i fiable de proteïnes que participen en l’LLPS. La seva proposta ofereix un protocol que permet superar les limitacions dels algoritmes que s’han desenvolupat fins ara per obtenir models predictius, en què han identificat mancances que impedeixen analitzar les dades de manera conjunta i precisa.
L’estudi, publicat a la revista Genome Biology, ha estat liderat per Salvador Ventura, catedràtic del Departament de Bioquímica i de Biologia Molecular de la UAB i director de l’Institut d’Investigació i Innovació Parc Taulí (I3PT-CERCA); Michał Burdukiewicz, investigador María Zambrano de l’IBB i cap del grup de bioinformàtica de la Universitat Mèdica de Białystok (Polònia), i Carlos Pintado Grima, investigador de l’IBB i primer autor del treball.
L’equip de recerca ha classificat amb precisió els dos grans tipus de proteïnes implicades en l’LLPS: les que poden formar els condensats per si mateixes (drivers) i les que només en formen part (clients). A més, han desenvolupat el primer conjunt estàndard de proteïnes que no participen en aquest procés, que comprèn tant proteïnes amb estructures definides com proteïnes desordenades, «un element clau per entrenar sistemes d’intel·ligència artificial de manera justa i eficaç», afirma Salvador Ventura, que coordina també el grup de recerca Plegament de Proteïnes i Malalties Conformacionals a l’IBB.
Per validar el seu treball, els científics han investigat trets fisicoquímics específics implicats en l’LLPS en diferents subconjunts de seqüències proteiques i han identificat diferències significatives entre elles. A més, han avaluat la predicció d’LLPS en setze eines bioinformàtiques existents, fet que suposa la comparació més exhaustiva feta fins al moment.
El conjunt de dades generades en l’estudi permet associar de manera precisa el paper d’una determinada proteïna en l’LLPS. En total, els investigadors han classificat 2.876 proteïnes diferents. «Les dades que hem generat han estat creades per garantir la fiabilitat i la interoperabilitat entre elles, a partir de criteris estandarditzats per a la seva selecció i categorització. Fins ara no teníem prou dades de confiança per fer prediccions meticuloses. Amb aquest nou recurs, obrim la porta a desenvolupar noves eines computacionals més precises», assenyala Salvador Ventura.
Els conjunts de dades i totes les eines associades de l’estudi estan disponibles en obert a llpsdatasets.ppmclab.com.
Article: Carlos Pintado-Grima, Oriol Bárcenas, Eva Arribas-Ruiz, Valentín Iglesias, Michał Burdukiewicz, Salvador Ventura. «Comprehensive protein datasets and benchmarking for liquid–liquid phase separation studies». Genome Biology, 26, 198 (2025). https://doi.org/10.1186/s13059-025-03668-6