Verbesserte prognostische Signaturen aus Microarray-Studien durch Auswahl von Genen mit charakteristischen Verteilungen
Final Report Abstract
Die genomweite Analyse von Expressionsdaten ist eine Standardmethode zur Aufdeckung von krankheitsrelevanten Genen. Für Brustkrebspatientinnen ist die Prognose für die Therapiewahl von entscheidender Bedeutung. Ein Ziel ist es, betroffenen Frauen, die keine Therapie zur Verhinderung von später auftretenden Metastasen benötigen, die starken Nebenwirkungen zum Beispiel einer Chemotherapie zu ersparen. Dies kann über statistische Klassifikatoren geschehen, welche Patientengruppen in Bezug auf die Prognose bestmöglich unterscheiden. Dabei werden insbesondere sogenannte Gensignaturen entwickelt, die auf Kombinationen von Genexpressionswerten beruhen und die sowohl eine prognostische Güte als auch eine biologische Plausibilität besitzen sollen. Klassische Ansätze aus der Diskriminanzanalyse führen nicht zu zufriedenstellenden Ergebnissen, besonders da die Entscheidungsgrenzen nicht scharf sind. Als neuer Ansatz wurde untersucht, ob eine Vorauswahl von Genen mit charakteristischer Verteilung der Expressionswerte hilfreich ist. Zum Beispiel bedeutet eine bimodale Verteilung, dass die Patienten anhand dieses Genes gut in zwei Gruppen eingeteilt werden können. Es wurden viele unterschiedliche Verteilungs-Scores für die Vorauswahl berücksichtigt. Besonders die Scores Likelihood Ratio und Negative Kurtosis lieferten vergleichsweise gute Ergebnisse. Für die konkrete Konstruktion von Klassifikatoren führten einfache Klassifikationsbäume zu plausiblen interpretierbaren Modellen. Allerdings sind die komplexeren Random Forests in Bezug auf die prognostische Güte leicht überlegen, besonders wenn die geschätzten Modelle auf anderen unabhängigen Datensätzen validiert werden. Für eine hohe Prognosegüte ist entscheidend, dass die Expressionswerte eines vorausgewählten Gens anhand der Verteilung direkt dichotomisiert werden und damit die adaptive Wahl des Cutoffs im einzelnen Baum ausgeschlossen wird. Random Forests ohne Vorauswahl über Verteilungs-Scores, aber mit Parameteroptimierung, schneiden bei der Validierung auf anderen Kohorten schlechter ab. Etablierte multivariate Klassifikatoren aus der Literatur berücksichtigen nicht die Interpretierbarkeit der einzelnen Gene, können aber teilweise auf anderen Kohorten gut validiert werden.
Publications
- (2012): A comprehensive analysis of human gene expression profiles identifies stromal immunoglobulin kappa C as a compatible prognostic marker in human solid tumors. Clinical Cancer Research 18(9):2695-2703
Schmidt M., Hellwig B., Hammad S., Othman A., Lohr M., Chen Z., Boehm D., Gebhard S., Petry I., Lebrecht A., Cadenas C., Marchan R., Stewart J.D., Solbach Ch., Holmberg L., Edlund K., Göransson Kultima H., Rody A., Berglund A., Lambe M., Isaksson A., Botling J., Karn Th., Müller V., Gerhold-Ay A., Cotarelo Ch., Sebastian M., Kronenwett R., Bojar H., Lehr H.-A., Sahin U., Koelbl H., Gehrmann M., Micke P., Rahnenführer J., und Hengstler J.G.
(See online at https://doi.org/10.1158/1078-0432.CCR-11-2210) - (2013): Biomarker discovery in non-small cell lung cancer: integrating gene expression profiling, meta-analysis, and tissue microarray validation. Clinical Cancer Research 19(1):194-204
Botling J., Edlund K., Lohr M, Hellwig B., Holmberg L., Lambe M., Berglund A., Ekman S, Bergqvist M., Pontén F., König A., Fernandes O., Karlsson M., Helenius G., Karlsson C., Rahnenführer J., Hengstler J. G., und Micke P.
(See online at https://doi.org/10.1158/1078-0432.CCR-12-1139) - (2013): The prognostic relevance of tumour-infiltrating plasma cells and immunoglobulin kappa C indicates an important role of the humoral immune response in non-small cell lung cancer. Cancer Letters 333(2):222-228
Lohr M., Edlund K., Botling J., Hammad S., Hellwig B., Othman A., Berglund A., Lambe M., Holmberg L., Ekman S., Bergqvist M., Pontén F., Cadenas C., Marchan R., Hengstler J. G., Rahnenführer J., und Micke P.
(See online at https://doi.org/10.1016/j.canlet.2013.01.036) - (2014): The lung-specific proteome defined by integration of transcriptomics and antibody-based profiling. The FASEB Journal 28:5184-5196
Lindskog, C., Fagerberg, L., Hallström, B., Edlund, K., Hellwig, B., Rahnenführer, J., Kampf, C., Uhlén, M., Pontén, F., und Micke, P.
(See online at https://doi.org/10.1096/fj.14-254862) - (2015): Identification of sample annotation errors in gene expression datasets. Archives of Toxicology 89: 2265-2272
Lohr, M., Hellwig, B., Edlund, K., Mattsson, J. S., Botling, J., Schmidt, M. Hengstler, J. G. Micke, P., und Rahnenführer, J.
(See online at https://doi.org/10.1007/s00204-015-1632-4) - (2016): Epsin family member 3 and ribosome-related genes are associated with late metastasis in estrogen receptor-positive breast cancer and long-term survival in non-small cell lung cancer using a genome-wide identification and validation strategy. PLoS ONE 11: (12): e0167585 (18 pp.)
Hellwig, B., Madjar, K., Edlund, K., Marchan, R., Cadenas, C., Heimes, A.-S., Hengstler, J. G., und Rahnenführer, J.
(See online at https://doi.org/10.1371/journal.pone.0167585) - Klassifikation von Brustkrebspatientinnen anhand vorausgewählter Gene mit charakteristischer Expressionsverteilung, Dissertation, Dortmund, Technische Universität, 2018
Birte Hellwig