Herramientas de bioinformática para la interpretación biológica y la visualización de datos

Desde el grupo hemos desarrollado herramientas como la Food-Biomarker Ontology (FOBI) (Castellano-Escuder P, et al., 2020), la primera ontología diseñada para integrar datos de metabolómica y nutrición, y POMAShiny (Castellano-Escuder P, et al., 2021), que ofrece métodos estadísticos univariantes, métodos multivariantes y de reducción de dimensiones, técnicas de selección de características, enfoques de análisis de regresión regularizada, algoritmos de clasificación basados en aprendizaje automático, estrategias de modelos de predicción y diversas opciones de interacción visual de alta calidad.

Siguiendo los principios FAIR, tanto los códigos fuente como los archivos de datos están disponibles en los repositorios públicos de GitHub.

La Food-Biomarker Ontology (FOBI) es la primera ontología creada para integrar datos de metabolómica y nutrición (Castellano-Escuder P, et al., 2020). Esta ontología tiene como objetivo relacionar distintos tipos de alimentos con sus metabolitos asociados o biomarcadores de ingesta alimentaria.

FOBI consta de 1.197 términos, 4 propiedades distintas, 13 clases de alimentos de nivel superior, 11 clases de biomarcadores de nivel superior y más de 4.500 relaciones. Además, FOBI forma parte del proyecto OBO Foundry, y sus identificadores han sido indexados en las bases de datos HMDB y FooDB para facilitar la interoperabilidad y el intercambio de datos.

Ir a FOBI

Visualización Gráfica de FOBI

Arquitectura de FOBI considerando la manzana como ejemplo.

Análisis de la información de FOBI desde OBO a un formato de tabla legible

Conversión de ID de compuestos (entre nombres de metabolitos, FOBI, ChemSpider, KEGG, PubChemCID, InChIKey, InChICode e IDs de HMDB)

Análisis de la significancia biológica mediante los métodos ORA y MSEA

Análisis de enriquecimiento de clases químicas: ORA y MSEA utilizando las clases químicas de FOBI como conjuntos de metabolitos.
Análisis de enriquecimiento de alimentos: ORA y MSEA utilizando los grupos de alimentos de FOBI como conjuntos de metabolitos.

Algoritmo de minería de textos para la anotación de datos dietéticos en texto libre

POMAShiny

POMAShiny es una herramienta web que ofrece un flujo de trabajo estructurado, flexible y fácil de usar para el procesamiento, exploración y análisis estadístico de datos metabolómicos. Esta herramienta se basa en el paquete POMA de R/Bioconductor, lo que aumenta la reproducibilidad y la flexibilidad del análisis fuera del entorno web. El flujo de trabajo de POMAShiny está estructurado en cuatro paneles secuenciales y bien definidos:

Carga de datos,
Preprocesamiento,
EDA (Exploración de Datos),
Análisis estadístico.

Ir a POMAShiny

POMAShiny

Carga de datos

POMAShiny requiere dos archivos en formato CSV como entrada: un archivo de metadatos (target) y un archivo de características (features). El archivo de metadatos debe incluir los nombres de las muestras en la primera columna, las etiquetas de grupo (por ejemplo, control y caso) en la segunda, y opcionalmente, covariables relevantes a partir de la tercera columna. El archivo de características contiene las características cuantificadas del experimento, con una característica por columna. El orden de las filas debe ser el mismo en ambos archivos. Una vez cargados, POMAShiny convierte los archivos en un objeto MSnSet, según el paquete MSnbase de R/Bioconductor.

Los usuarios pueden seleccionar muestras específicas del archivo de metadatos para crear subconjuntos de datos para el análisis. Además, POMAShiny ofrece la función opcional de combinar características que pertenecen a una misma entidad (como péptidos de una proteína o iones de un compuesto). Para utilizar esta función, se necesita un archivo de “grupo” (CSV) que indique qué características deben combinarse. También permite descargar una tabla con los coeficientes de variación de las características combinadas.

Preprocesamiento

Imputación de valores perdidos: En metabolómica y proteómica, a menudo algunos valores no pueden identificarse o cuantificarse por razones biológicas o técnicas (como una detección imprecisa o valores por debajo del límite de cuantificación). Para abordar este problema, POMAShiny ofrece un panel de imputación de valores perdidos en tres pasos secuenciales:

Distinguir entre ceros y valores perdidos.
Eliminar características con un alto porcentaje de valores perdidos (por defecto, 20 %).
Imputar los valores perdidos restantes utilizando métodos como imputación por cero, media, mediana, mínimo o el algoritmo de k-nearest neighbours.

Normalización: La variabilidad en los datos puede influir en los resultados estadísticos, haciendo necesaria la normalización. POMAShiny ofrece seis métodos de normalización para transformar y escalar los datos en un solo paso: autoscaling, level scaling, log scaling, log transformation, vast scaling y log pareto scaling. Esto permite corregir factores como diferencias en magnitudes, variabilidad técnica o heteroscedasticidad.

Detección de valores atípicos:
Los valores atípicos pueden ser biológicos (variaciones naturales) o analíticos (errores durante el proceso). Estos pueden distorsionar los resultados estadísticos y las técnicas de modelado predictivo. POMAShiny facilita la detección de valores atípicos mediante gráficos y tablas, con opciones personalizables para eliminarlos antes del análisis estadístico.

Análisis exploratorio de datos (EDA)

El análisis exploratorio de datos (EDA) ayuda a identificar factores no controlados y posibles valores atípicos, y se recomienda realizarlo antes del análisis estadístico. Además, en ausencia de sesgos significativos, el EDA puede proporcionar una visión preliminar de las características más relevantes del estudio.

POMAShiny ofrece gráficos interactivos y personalizables para el EDA, incluyendo gráficos de volcán (para estudios de dos grupos), diagramas de caja (boxplots), gráficos de densidad y mapas de calor con agrupamiento jerárquico. También incorpora opciones para el análisis de componentes principales (PCA) y análisis de clústeres.

Análisis estadístico

Este panel incluye diversos métodos estadísticos, desde los enfoques más comunes en el análisis de datos de metabolómica y proteómica hasta metodologías menos frecuentes en estos campos. Todos los métodos estadísticos que ofrece POMAShiny están implementados de forma muy intuitiva para el usuario y generan tanto tablas descargables como gráficos interactivos como resultados. Los análisis disponibles son los siguientes:

Análisis univariante
Limma
Análisis multivariante
Análisis de clústeres
Análisis de correlación
Regresión regularizada
Bosques aleatorios
Cálculo de odds ratio
Productos de rango