| Bals-Pratsch M et al. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
Der Fertilitätsnavigator als personalisiertes Schwangerschaftsvorhersagemodell bei der Assistierten Reproduktion (ART) // The Fertility Navigator as a personalized pregnancy prediction model in assisted reproductive technology (ART) Journal für Reproduktionsmedizin und Endokrinologie - Journal of Reproductive Medicine and Endocrinology 2026; 23 (2): 64-71 Volltext (HTML) Summary Praxisrelevanz Abbildungen Keywords: big data, Fertilitätsnavigator, KI, künstliche Intelligenz, maschinelles Lernen, ML, personalisierte assistierte Reproduktion, personalisierte Behandlungsstrategien, Vorhersage des Schwangerschaftserfolgs, Vorhersagemodelle, AI, Artificial Intelligence, fertility navigator, Machine Learning, personalized assisted reproduction, personalized treatment strategies, prediction of pregnancy outcome, predictive models Der Fertilitätsnavigator als personalisiertes Schwangerschaftsvorhersagemodell bei der Assistierten Reproduktion (ART)M. Bals-Pratsch1, J. Reiter2, M. Schindler3, A. Murr3, H. R. Tinneberg4 Eingelangt am: 23.03.2026, angenommen nach Überarbeitung am: 07.04.2026 (Verantwortlicher Rubrikherausgeber: Dr. Friedrich Gagsteiger) Aus 1KinderwunschWissen, Regensburg, 2Regensburg, 3CRITEX GmbH, Regensburg, Deutschland, 4Dept. of Gynecology, Southwestern University, Luzhou, China Korrespondenzadresse: Prof. Dr. med. habil. Monika Bals-Pratsch, MSc, KinderwunschWissen, D-93047 Regensburg, Weitoldstraße 7a, E-Mail m.balspratsch@kinderwunschwissen.org Kurzfassung: Mit den Möglichkeiten künstlicher Intelligenz (KI) können Softwareprogramme entwickelt werden, die personalisierte Prognosen und individualisierte Behandlungsprotokolle für einen ART-Zyklus ermöglichen. Voraussetzung für das maschinelle Lernen (Machine Learning, ML) von KI-Modellen sind vor allem sehr große Datenmengen („Big Data“), um diese zu trainieren und zu testen. Aufgrund der berufsrechtlichen Verpflichtung zur Dokumentation der Behandlungsdaten bei der assistierten Reproduktion (ART) und der digitalen prospektiven Erfassung der ART-Zyklen seit fast 30 Jahren in Deutschland (D·I·R-Datenbank) stehen entsprechende Datensätze grundsätzlich zur Verfügung. In einem ersten Schritt wurden KI-Modelle auf der Basis der komplexen Vordiagnostik mit Anamnese- und Labordaten entwickelt (Fertilitätsnavigator, CRITEX GmbH, Regensburg, Deutschland), um vor einer ART-Behandlung eine individuelle Vorhersage für den Schwangerschaftserfolg zu berechnen. Das Training und die Testung (Validierung) der KI-Modelle erfolgten an einem Datensatz von 89.452 Zyklen. Dazu wurde eine Teildatenbank von MedITEX (CRITEX GmbH, Regensburg) vollständig anonymisiert. Die Leistungsfähigkeit des Fertilitätsnavigators für die personalisierte Schwangerschaftsvorhersage konnte in der vorliegenden Analyse anhand etablierter Metriken wie AUROC und F1-Score dargestellt werden. Damit kann eine KI-gestützte personalisierte Schwangerschaftsvorhersage, insbesondere bei Paaren mit ungünstiger Prognose, zur Unterstützung der ärztlichen Beratung und Therapieentscheidung vor einer ART-Behandlung genutzt werden. Für eine weitere Verbesserung der Vorhersagegenauigkeit sollte der Fertilitätsnavigator an größeren Datensätzen weiterentwickelt und validiert werden. Entsprechende Big-Data-Quellen wie die vollständigen MedITEX-Daten oder die D·I·R-Datenbank wären grundsätzlich vorhanden. Die Weiterentwicklung des Fertilitätsnavigators erscheint auch vielversprechend im Hinblick auf die künftige Erstellung personalisierter Behandlungsstrategien in der ART. Schlüsselwörter: Künstliche Intelligenz (KI), maschinelles Lernen (ML), Vorhersagemodelle, Fertilitätsnavigator, personalisierte assistierte Reproduktion, Vorhersage des Schwangerschaftserfolgs, Big Data, personalisierte Behandlungsstrategien Abstract: The Fertility Navigator as a personalized pregnancy prediction model in assisted reproductive technology (ART). Artificial intelligence (AI) enables the development of software tools that can provide personalized predictions and individualized treatment protocols for an ART cycle. Machine learning (ML) models require very large datasets (“Big Data”) for training and testing. Owing to the professional obligation to document treatment data in assisted reproduction (ART) and the prospective digital recording of ART cycles in Germany for almost 30 years (D·I·R database), such datasets are, in principle, available. As a first step, AI models based on comprehensive pretreatment diagnostic data, including medical history and laboratory parameters, were developed (Fertility Navigator, CRITEX GmbH, Regensburg, Germany) to calculate an individualized prediction of pregnancy success before ART treatment. Training and testing (validation) were performed on a dataset of 89,452 cycles. For this purpose, a subset of the MedITEX database (CRITEX GmbH, Regensburg) was fully anonymized. The performance of the Fertility Navigator for personalized pregnancy prediction was assessed using established metrics such as AUROC and F1-score. These findings suggest that AI-based personalized pregnancy prediction may support medical counselling and treatment decisions prior to ART, particularly in couples with a poor prognosis. To improve predictive accuracy further, the Fertility Navigator should be developed and validated on even larger datasets. Suitable Big-Data sources, such as the complete MedITEX dataset or the D·I·R database, are in principle available. Further development of the Fertility Navigator also appears promising with regard to future personalized treatment strategies in ART. J Reproduktionsmed Endokrinol 2026; 23 (2): 64–71. Keywords: Artificial Intelligence (AI), Machine Learning (ML), predictive models, Fertility Navigator, personalized assisted reproduction, prediction of pregnancy outcome, Big Data, personalized treatment strategies EinleitungKinderwunschpatientinnen sollten vor einer Behandlung über ihre realistischen Erfolgschancen aufgeklärt werden, denn eine Therapie mit den Methoden der assistierten Reproduktion (ART) ist zeitaufwendig, kostenintensiv und emotional belastend. Die ärztliche Aufklärung vor einer ART beruht vor allem auf bekannten individuellen Prognosefaktoren für eine Schwangerschaft wie Alter, Eizellreserve, Körpergewicht und Spermienqualität. Grundlage für das ärztliche Aufklärungsgespräch sind bisher vor allem die Schwangerschaftsergebnisse aus Registern und Studienauswertungen. Für die individuelle Beratung im Praxisalltag werden insbesondere die nationalen Daten des Deutschen IVF-Registers e.V. (D·I·R, Berlin) herangezogen. Das D·I·R publiziert die Erfolgschancen einer ART-Behandlung sowohl in einem Jahrbuch für Fachkreise als auch in einer Sonderausgabe in verständlicher Sprache für Paare und die Öffentlichkeit. Die D·I·R-Ergebnisse werden altersabhängig in Erfolgsraten pro Behandlungszyklus und pro Embryotransfer für Frischzyklen und Kryotransfers angegeben. Da die Ergebnisse nicht personalisiert sind, wird unter anderem nicht berücksichtigt, ob bereits der erste ART-Zyklus oder erst weitere Behandlungszyklen erfolgreich waren. So kann es zu Verzerrungen der individuellen Prognose mit einer zu niedrigen oder zu hohen Wahrscheinlichkeit für eine Schwangerschaft kommen [1]. Die Vorhersage für eine Schwangerschaft könnte personalisiert und präziser sein, wenn anstelle klassischer statistischer Verfahren fortschrittlichere Methoden der künstlichen Intelligenz (KI) eingesetzt würden. Unter KI versteht man die Fähigkeit von Computersystemen, Informationen aus Eingabedaten zu erkennen und zu verarbeiten. Diese „Intelligenz“ kann auf programmierten logischen Regeln basieren oder durch selbstlernende Algorithmen (maschinelles Lernen, ML) erzeugt werden. Die Abläufe müssen dann nicht mehr vollständig vorgegeben werden; vielmehr können Modelle im Training selbst Regeln und Muster aus den Daten ableiten. Gerade das maschinelle Lernen (ML) hat durch die zunehmende Verfügbarkeit großer Datenmengen und die Rechenleistung moderner Computer an Bedeutung gewonnen. Grundpfeiler der KI sind Algorithmen. Dabei handelt es sich um spezifische Rechenverfahren, die Maschinen befähigen, Aufgaben auszuführen. Sie analysieren Daten, erkennen Zusammenhänge und treffen darauf basierende Vorhersagen. Ein besonders leistungsfähiger Teilbereich des ML ist das „Deep Learning“ (DL; Tab. 1). Dieses basiert auf dem Konzept sogenannter neuronaler Netze (Abb. 1) in Analogie zur Funktionsweise des menschlichen Gehirns [2]. Bereits seit 2006 gewinnt diese Form des ML zunehmend an Bedeutung [3]. Seit der Veröffentlichung von ChatGPT durch OpenAI im November 2022 rückte DL zusätzlich in das öffentliche und wissenschaftliche Interesse [4]. Die fundamentale Einheit aller neuronalen Netze ist das namensgebende künstliche Neuron (Abb. 2). Jedes Neuron ist eine kleine Datenverarbeitungseinheit, die mehrere Eingangssignale von anderen Neuronen erhält, diese verarbeitet und bei Überschreiten eines Schwellenwertes ein Aktivierungssignal an weitere Neuronen weitergibt. Präziser ausgedrückt summiert ein Neuron alle eintreffenden Signale, wendet eine Aktivierungsfunktion auf die Summe an und gibt das Ergebnis dieser Funktion an andere Neuronen weiter [5]. Eine häufig verwendete Aktivierungsfunktion ist beispielsweise die Sigmoid-Funktion, die einen beliebig großen Summenwert in einen Bereich zwischen 0 und 1 überführt. Die Funktionsweise eines Neurons ist in Abbildung 2 veranschaulicht. Der Lernprozess eines neuronalen Netzwerks, das schematisch in Abbildung 1 dargestellt ist, besteht darin, die Eingangssignale für eine erfolgreiche Verarbeitung angemessen zu gewichten. Am Beispiel des textbasierten Dialogsystems ChatGPT besteht die Verarbeitung darin, für einen gegebenen Kontext die wahrscheinlich passende Wortfolge zu bestimmen. Durch das Erlernen der Bedeutung einzelner Verbindungen können leistungsfähige Netzwerke entstehen, die in immer mehr Anwendungsbereichen Fähigkeiten menschlicher Experten erreichen oder in Teilaspekten übertreffen. Im Jahr 2016 gewann das Computerspiel „Go“ gegen professionelle Spieler, was zuvor weithin als kaum vorstellbar galt [6]. Die vielversprechenden Möglichkeiten der KI sollen auch für den klinischen Bereich der ART nutzbar gemacht werden, etwa für die Berechnung der individuellen Schwangerschaftsprognose nach einem Embryotransfer oder perspektivisch für die Ausgabe eines personalisierten Behandlungsplans für einen ART-Zyklus. Vor diesem Hintergrund wurde der sogenannte Fertilitätsnavigator entwickelt, der eine Kombination der treffsichersten Modelle darstellt, um die Vorhersagequalität zu verbessern. Der Begriff „Modell“ bezeichnet in der KI Programme, die auf Basis gelernter Muster ohne weiteres menschliches Eingreifen Entscheidungen oder Vorhersagen treffen. Diese arbeiten nach einer Logik, die als Algorithmus bezeichnet wird. Gängige ML-Algorithmen, die für den Anwendungsfall des Fertilitätsnavigators vielversprechend erschienen, sind in Tabelle 1 zusammengestellt. Entwicklung, Testung und der Ausblick auf eine spätere klinische Anwendung werden im Folgenden dargestellt. Methode und MaterialDer Fertilitätsnavigator wurde aus einem verfügbaren Teilbereich der MedITEX-Datenbank der CRITEX GmbH (Regensburg, Deutschland) entwickelt. Die Erfassungssoftware MedITEX IVF (CRITEX GmbH) ist ein häufig verwendetes Programm für die verpflichtende Erfassung der ART-Behandlungsdaten über das Deutsche IVF-Register (D·I·R). Die Daten aus einem verfügbaren Teilbereich der MedITEX-Datenbank wurden vollständig anonymisiert, sodass kein Rückschluss auf die beteiligten IVF-Zentren und Patientinnen und Patienten möglich ist. Dafür wurde das Merkmal „Geburtsdatum“ durch das Merkmal „Alter zum Zeitpunkt der Therapie“ ersetzt und alle personenbezogenen Daten wie Name und Wohnort wurden gelöscht. Analysiert wurden medizinische Parameter aus der komplexen Vordiagnostik von Paaren; auf dieser Grundlage wurden Erfolgschancen für die ersten drei ART-Transferzyklen berechnet. Die Abbildung 3 gibt einen Überblick über den Ablauf des maschinellen Lernens mit Einordnung der Begriffe „Merkmale“, „Zielvariablen“, „Trainingsdaten“ und „Testdaten“. Der genutzte Datensatz basiert auf Inhalten der MedITEX-Datenbank aus dem Zeitraum 2010 bis 2022 von acht IVF-Zentren in Deutschland, die MedITEX zur berufsrechtlich verpflichtenden Dokumentation der ART-Zyklen anwenden und eine Nutzungserlaubnis erteilt hatten. Dieser Datensatz umfasst insgesamt 89.452 Zyklen. Es wurden ausschließlich Daten der Vordiagnostik einbezogen. Nach dem Zufallsprinzip wurde ein Zentrum als Testzentrum (Validierungszentrum) ausgewählt. Die übrigen sieben Zentren wurden zu 90 % den Trainingszentren und zu 10 % den Testzentren zugeordnet. Insgesamt wurden 84 % der Zyklen als Trainingsdaten und 16 % als Testdaten genutzt. Diese Aufteilung der Zyklen („Splits“) sollte Verzerrungen zwischen den Zentren, etwa durch Unterschiede in der Datenqualität, möglichst reduzieren. Zusammengefasst wurden die Modelle an 75.140 Zyklen trainiert und an 14.312 Zyklen getestet (Validierung). Die Daten bestehen aus zwei Gruppen (Granularitätsstufen): Gruppe 1 mit den Anamnesedaten („Anamnesedaten“ von Frau und Mann, Tab. 2) und Gruppe 2 mit den erweiterten Anamnesedaten („Anamnese- und Hormon-Spermiogramm-Daten“, Tab. 3). Gruppe 1 besteht ausschließlich aus fertilitätsrelevanten Anamnesedaten (Merkmalen), die Paare selbst bereitstellen können, etwa Alter, Gewicht, Krankheitsgeschichte oder Rauchen. Da MedITEX-Eingabefelder häufiger Informationen redundant abfragen (z. B. Nikotinabusus), wurden die meisten Anamnesedaten mithilfe eines SQL-Befehls (Structured Query Language) aus mehreren Eingabefeldern zu einem neuen Datenpunkt zusammengeführt. Die nicht zusammengeführten Merkmale wie „Größe“ und „Gewicht“ sind in Tabelle 2 markiert. Beim Datenpunkt „BMI“ wurde der berechnete Wert überprüft. Wenn das Feld leer war, wurde der BMI aus „Größe“ und „Gewicht“ berechnet. Die Eingabefelder „BMI“ und „Adipositas“ (BMI > 30 kg/m²) wurden nicht zusammengeführt. Die Labordaten umfassen die Hormonparameter der Frau (AMH, FSH, LH, Progesteron und Estradiol mit Zyklusbezug) sowie die Spermiogrammparameter mit detaillierten fertilitätsrelevanten Merkmalen, die ergänzend zur Anamnese im Rahmen der ärztlichen Vordiagnostik erhoben wurden. Gruppe 2 beinhaltet sowohl die fertilitätsrelevanten Anamnesedaten als auch die Labordaten (Hormon- und Spermiogrammdaten). Die Kombination aus Anamnese- und Labordaten erlaubt eine flexible Berechnung von Prognosen, von einer allgemeinen Einschätzung bis hin zu detaillierteren Analysen auf Basis von Laborwerten. Die Vorhersagegenauigkeit steigt dabei mit der Verfügbarkeit zusätzlicher relevanter Daten. Die Tabellen 2 und 3 enthalten die vollständigen Daten für die beiden Granularitätsstufen. Um Verzerrungen der Ergebnisse des Fertilitätsnavigators zu vermeiden, wurden für seine Entwicklung bevorzugt solche Merkmale ausgewählt, die mit hoher Vollständigkeit in die Datenfelder eingegeben waren. Der prozentuale Anteil der Datenpunkte, die ein entsprechendes Merkmal („Feature“) definieren, ist in den Tabellen 2 und 3 als „Dichte der Trainingsdatensätze“ (Training Set Density) und als „Dichte der Validierungsdatensätze“ (Validation Set Density) angegeben. Eine Vollständigkeit von 100 % für ein Merkmal bedeutet, dass jeder einzelne Datenpunkt dieses Merkmal enthält; eine Vollständigkeit von 75 % bedeutet, dass bei jedem vierten Datenpunkt eine entsprechende Angabe fehlt. Da für die hier eingesetzten ML-Algorithmen in der Regel vollständige Datensätze erforderlich sind, wurden fehlende Datenpunkte („missing values“) imputiert. Hierfür wurden automatisiert Patientendaten gesucht, die dem jeweiligen Fall in den übrigen Merkmalen besonders ähnlich waren; aus den fünf ähnlichsten Fällen wurde der Durchschnittswert berechnet und als Ersatzwert eingesetzt. Die Modelle wurden darauf trainiert, Schwangerschaftsergebnisse für den ersten bis dritten Behandlungszyklus vorherzusagen. Jede Zielvariable (z. B. „Schwangerschaft im 1. Zyklus“) wurde binär definiert: 1 für „Schwangerschaft erfolgreich“ und 0 für „keine Schwangerschaft“. Für die kumulative Betrachtung mehrerer Zyklen wurde geprüft, ob im aktuellen oder in vorausgegangenen Zyklen eine Schwangerschaft eingetreten war. Trat beispielsweise in einem der ersten drei Zyklen eine Schwangerschaft ein, erhielt die Zielvariable („Target“) „Schwangerschaft“ für den dritten Zyklus den Wert 1, andernfalls 0. Das Modell wurde somit auf Zyklen trainiert, wobei frühere Zyklen derselben Patientin in die kumulative Bewertung einflossen. Dieses diskrete Bewertungssystem („Rating-System“) kann in Prozentangaben überführt werden. Der Wahrscheinlichkeitsraum zwischen 0,0 und 1,0 (0 % und 100 %) wurde in sechs Segmente unterteilt (0 %, 20 %, 40 %, 60 %, 80 %, 100 %; Tab. 4). So deckt jede der sechs Ranking-Stufen (0/5 bis 5/5) ein Intervall von jeweils 16,7 % der prozentualen Erfolgsaussichten ab. Damit kann die Modellausgabe („Output“) die Erfolgswahrscheinlichkeit von „sehr gering“ bis „sehr hoch“ differenziert darstellen, was für die klinische Anwendung von Bedeutung ist. Um die Qualität und Zuverlässigkeit eines ML-Modells beurteilen zu können, wurden die Messgrößen AUROC (Area Under the Receiver Operating Characteristic) und F1-Score berechnet (Tab. 5). AUROC ist eine für binäre Klassifikationsaufgaben wie die Vorhersage „Schwangerschaft“ oder „keine Schwangerschaft“ weit verbreitete Messgröße. Sie beschreibt die Trennschärfe eines Modells über alle möglichen Schwellenwerte hinweg und gibt an, wie gut zwischen positiven und negativen Ereignissen unterschieden werden kann. Um einen ergänzenden Einblick in die Leistungsfähigkeit des ML-Modells zu erhalten, wurde zusätzlich der F1-Score berechnet. Dieser ist eine Kombination aus Präzision („Precision“) und Trefferquote („Recall“). Während die Präzision beschreibt, wie verlässlich eine positive Vorhersage des Modells ist, gibt die Trefferquote an, wie viele der tatsächlich positiven Fälle auch als positiv erkannt wurden. Der Fertilitätsnavigator besteht aus einem Ensemble von fünf ausgewählten KI-Modellen, um eine Schwangerschaft für den ersten bis dritten ART-Zyklus aus einer Kombination der Anamnesedaten von Frau und Mann sowie den Daten aus Hormonparametern der Frau und Spermiogrammparametern vorherzusagen. Im Bereich der KI versteht man unter einem Modell die Kombination aus ML-Algorithmus, Daten und Training. Beim Training von KI-Modellen wurden parallel unterschiedliche Einstellungen und verschiedene ML-Algorithmen wie Random Forest, Gradient Boosting, XGBoost und Deep Learning eingesetzt (Abb. 4, Tab. 1). Die einzelnen ML-Algorithmen lernen in unterschiedlicher Weise: Einige erfassen eher Zusammenhänge und Kontexte zwischen Variablen, andere reagieren stärker auf Schwellenwerte einzelner Merkmale. Die vom Fertilitätsnavigator neben einem DL-Algorithmus genutzten weiteren ML-Algorithmen sind in Tabelle 1 kurz aufgeführt. Durch die Kombination verschiedener Algorithmusklassen erhöht sich die Vorhersagestabilität und -robustheit des Fertilitätsnavigators. Wenn bestimmte Informationen in einem Algorithmus zu einer fehlerhaften Vorhersage führen, besteht die Chance, dass andere Algorithmen auf dieselbe Eingabe anders reagieren. Die ensemblebasierte Aggregation der Einzelprädiktionen reduziert damit die Anfälligkeit für Fehlklassifikationen einzelner Modelle. Zu Beginn des Trainings wurden die Modelle mit unterschiedlichen zufälligen Gewichtungen initialisiert. Solche komplexen Einstellungen beeinflussen das Lernverhalten und die Lernkapazität der Algorithmen. Für jede Vorhersage des Fertilitätsnavigators, beispielsweise die Schwangerschaftschance im ersten Zyklus, erfolgte parallel eine Datenanalyse mit fünf Modellen. Jedes Modell trifft dabei eine binäre Klassifikationsentscheidung (1 = Schwangerschaft wahrscheinlich, 0 = Schwangerschaft unwahrscheinlich; Tab. 4). Die Entscheidungen der einzelnen Modelle werden anschließend aggregiert, sodass eine Gesamtwertung („Rating“) zwischen 0 und 5 entsteht. Niedrige Werte sprechen für geringe, höhere Werte für entsprechend höhere Erfolgschancen. Extremwerte wie 0/5 oder 5/5 sind selten, haben aber eine entsprechend hohe Aussagekraft. Zusammengefasst gilt: Je höher der Wert, desto höher schätzt der Fertilitätsnavigator die Wahrscheinlichkeit einer Schwangerschaft ein. Die Auswahl der fünf leistungsstärksten Modelle erfolgte auf Basis von Tests am Testdatensatz. ErgebnisseDie Leistungsfähigkeit des Fertilitätsnavigators wurde für insgesamt sechs Aufgaben evaluiert. Diese unterscheiden sich sowohl in der Datengrundlage (Merkmale aus Anamneseparametern sowie kombinierte Merkmale aus Anamneseparametern, Hormon- und Spermiogrammwerten) als auch im betrachteten Vorhersagezeitraum (1. bis 3. Behandlungszyklus). Eine hohe Datenqualität ist eine grundsätzliche Voraussetzung für eine hohe Zuverlässigkeit des Fertilitätsnavigators und für die Genauigkeit der Schwangerschaftsprognose. Die Überprüfung der Eingabefelder „BMI“ und „Adipositas“ zeigte für diese klinischen Parameter kein zufriedenstellendes Ergebnis. Bei einem BMI > 30 kg/m² war nur in 73,2 % der Fälle tatsächlich auch das Adipositas-Eingabefeld auf „Ja“ gesetzt; umgekehrt war bei einem BMI < 30 kg/m² das Adipositas-Eingabefeld nur in 91,7 % der Fälle richtigerweise auf „Nein“ gesetzt. Somit war die Dateneingabe in 26,8 % bzw. 8,3 % der Fälle fehlerhaft. Für eine hohe Datenqualität ist auch die Vollständigkeit der Dateneingabe erforderlich. Bei den weiblichen Parametern fehlte für das Merkmal „Zyklustag zum Zeitpunkt der Hormonmessung“ jeder zweite bis vierte Datenpunkt (Vollständigkeit 49,8–75,5 %). Fehlende Angaben („missing values“) fanden sich auch bei den männlichen Parametern für „Schwangerschaften in vorausgegangenen Partnerschaften“ (Vollständigkeit 12,2 %) sowie für Spermienkonzentration und Spermienmotilität (Vollständigkeit 93,0 % bzw. 97,4 %). Um die Qualität der Vorhersagen belastbar darzustellen, wurden die beiden im Bereich des ML gängigen Metriken AUROC und F1-Score herangezogen. Die Ergebnisse dieser Evaluation sind in Tabelle 5 zusammengefasst und in den Abbildungen 5 und 6 grafisch dargestellt. Es zeigt sich ein klarer Trend zu einer höheren Vorhersagegenauigkeit, sowohl mit zunehmender Zahl der verfügbaren Merkmale als auch mit der Anzahl der betrachteten Zyklen. Die Einbeziehung klinischer Laborwerte wie Hormonstatus und Spermiogramm führte zu einer Verbesserung der AUROC-Werte (bis 0,65) und des F1-Scores (bis 0,60). Während die isolierte Betrachtung der Anamnese eine moderate Vorhersage erlaubt, ermöglicht die detailliertere Datenbasis aus Anamnese- und Laborparametern eine fundiertere Einschätzung der individuellen Erfolgschancen. Besonders hervorzuheben ist die Steigerung des F1-Scores bei der Betrachtung von zwei oder drei Behandlungszyklen. Dies lässt sich unter anderem dadurch erklären, dass der Datensatz mit zunehmender Anzahl von Zyklen ausgeglichener wird. Wenn bei der Betrachtung von zwei oder drei Zyklen eine Schwangerschaft bereits im ersten, zweiten oder dritten Zyklus eingetreten ist, wird das Paar in der kumulativen Betrachtung als positiv gewertet. Dieser Ausgleich im Datensatz weg von einer Negativdominanz dürfte zur höheren Modellstabilität beigetragen haben. Insgesamt zeigen die Ergebnisse ein relevantes, aber ausbaufähiges Vorhersagepotenzial. Für die Prognose einer ART-Behandlung bedeutet dies: Der Fertilitätsnavigator zeigt die höchste Vorhersagegenauigkeit, wenn eine Prognose über einen kumulativen Zeitraum von drei Zyklen unter Berücksichtigung der vollständigen Anamnese-, Hormon- und Spermiogrammmerkmale erstellt wird. In diesem Szenario kann Paaren eine realistische Erwartungshaltung vermittelt werden. Obwohl der aktuelle Stand des Fertilitätsnavigators ein diskretes Rating-System (0 bis 5) als Ausgabe nutzt, ist dieses direkt in Prozentangaben (0 %, 20 %, 40 %, 60 %, 80 %, 100 %) überführbar (Tab. 4). Dies ist klinisch relevant, da im ärztlichen Aufklärungsgespräch prozentuale Erfolgsaussichten besprochen werden. Die statistische Aussagekraft dieser Prozentwerte wird durch die Metriken AUROC und F1-Score gestützt (Tab. 5). DiskussionDer Einsatz von KI in der Reproduktionsmedizin ist ein hochaktuelles Diskussionsthema [7]. Die biologischen und individuellen Voraussetzungen bei einem Paar für den Eintritt einer Schwangerschaft sowie die individuellen Faktoren einer Patientin für eine ovarielle Stimulationsbehandlung sind äußerst komplex. Im Zentrum der KI-Diskussion steht die Optimierung der ART-Behandlungen, um die durchschnittlichen Schwangerschaftschancen zu erhöhen. Die Erfolgsraten liegen derzeit nur bei etwa 30 % und die Entscheidung über die Auswahl des ART-Behandlungsplans für die ovarielle Stimulation ist in hohem Maße von der klinischen Erfahrung der behandelnden Ärztinnen und Ärzte abhängig. Zur Verbesserung der Schwangerschaftsraten sollen mit KI-Tools vor allem die Personalisierung ovarieller Stimulationsbehandlungen umgesetzt und die Entwicklungsfähigkeit der transferierten Embryonen durch Optimierung der Laborabläufe bei Eizell- und Embryobewertung gesteigert werden [8, 9]. Im Kinderwunschzentrum wird die KI-Anwendung im Bereich der klinischen Embryologie nicht nur diskutiert, sondern bereits genutzt, etwa für die Embryobewertung hinsichtlich Entwicklungs- und Einnistungskompetenz [10]. Für sogenannte Time-Lapse-Inkubatoren werden internetbasierte Modelle für die Embryokultur bereits kommerziell angeboten und genutzt (iDAScore™ und KIDScore™ D3, Vitrolife Group, Göteborg, Schweden; Eeva® Test, Merck, Darmstadt). Allerdings ist eine KI-basierte Transferempfehlung für einen Embryo bislang noch keine Alltagsroutine. KI kann die Bewertung durch Embryologen derzeit nicht ersetzen. Nach Kenntnis der Autoren liegen bislang keine breit validierten KI-Tools für die individualisierte Erfolgsprognose vor einer ART-Behandlung vor. Um eine KI-Software für die Prognose und den Erfolg einer ART-Behandlung zu entwickeln, sind aufgrund der individuell komplexen biologischen Voraussetzungen eines Paares große Datenmengen notwendig. Der Fertilitätsnavigator stellt nach Kenntnis der Autoren einen der ersten Ansätze in der Kinderwunschtherapie dar, der eine datenbasierte Prognose für einen Schwangerschaftserfolg auf Grundlage der individuellen Anamnese- und Labordaten aus der Basis-Erstdiagnostik vor einer ART-Behandlung berechnet. Diese Möglichkeit der Prognoseberechnung stellt einen relevanten Fortschritt in der objektiven Beratung vor einer ART dar, der mit klassischen Statistikverfahren in dieser Form nur eingeschränkt möglich ist. Der Fertilitätsnavigator soll keineswegs das ärztliche Beratungsgespräch vor einer ART-Behandlung ersetzen, sondern dieses durch ein objektivierendes individuelles Prognose-Tool ergänzen. Eine Erweiterung der Datenbasis durch Nutzung der MedITEX-Datenbank aller Anwender oder auch der D·I·R-Daten (geschätzt Daten von etwa 7 Millionen Paaren) aus prospektiver Erfassung von ART-Zyklen wäre eine große Chance für die Reproduktionsmedizin in Deutschland und darüber hinaus. Eine derart breite Datengrundlage würde eine weitere Präzisierung der Schwangerschaftsvorhersage ermöglichen. Voraussetzung für eine hohe Zuverlässigkeit der Schwangerschaftsprognose, die von den KI-Modellen des Fertilitätsnavigators ausgegeben wird, ist einerseits die technische Vermeidung systematischer Fehler („Bias“), andererseits klinisch vor allem eine hohe Qualität der Dateneingabe in die ART-Erfassungsprogramme. Für die Modellentwicklung erfolgten sowohl die Festlegung der Trainings- und Validierungszentren als auch die Aufteilung der Datensätze nach dem Zufallsprinzip. Für die Qualität der Datensätze sind die IVF-Kliniken als Eingabezentren verantwortlich. Bekanntermaßen dokumentieren einige Zentren detaillierter und vollständiger als andere. Dies zeigte sich bei der Kontrolle der Vollständigkeit der Dateneingaben (Tab. 2 und 3) und bei der Überprüfung der Datenqualität für die Felder „BMI“ und „Adipositas“ mit fehlerhaften Eingaben in 8,3 bis 26,8 % der Fälle. Die Qualitätsmängel bei der D·I·R-Dateneingabe des Merkmals „Adipositas“ sind bekannt und sollten verbessert werden [11]. Da aus den Ergebnissen des D·I·R mit klassischen Statistikverfahren keine individuelle Paarprognose wie mit dem Fertilitätsnavigator errechnet werden kann, wird seit einigen Jahren im D·I·R-Jahrbuch hilfsweise für Paare mit einer guten Erfolgsprognose zusätzlich die Erfolgsaussicht für eine „ideale Patientin“ berechnet. Die Definition besagt, dass diese nicht älter als 35 Jahre ist, eine gute Eizellqualität hat, für die Befruchtung Spermien aus dem Ejakulat eingesetzt werden und der Embryotransfer im Frischzyklus erfolgt [12, 13]. Während die Lebendgeburtenrate pro Transfer über alle Paare bei 22,4 % liegt, steigt diese Rate bei der idealen Patientin mit dem Transfer von nur einem Embryo auf 32,8 %. Für Paare mit einer schlechten Erfolgsprognose gibt es keine vergleichbare orientierende Berechnung, denn diese Patientengruppe ist sehr heterogen und die Fallzahlen sind relativ klein. Zu den Paaren mit schlechter Prognose zählen in erster Linie solche, bei denen die Frau bereits 40 Jahre oder älter ist, aber auch sehr junge Frauen mit einer vorzeitigen Erschöpfung der Eizellreserve (prämature Ovarialinsuffizienz, POI). Diese äußert sich in ausbleibenden oder nur sporadischen Regelblutungen bei gleichzeitig erhöhten LH- und FSH-Werten und verminderten Östradiolwerten. Gerade für diese Frauen wäre eine individuelle Prognose auf der Basis weiterentwickelter Big-Data-Modelle besonders wertvoll. Bekanntermaßen haben jüngere Frauen mit POI aufgrund ihrer noch vergleichsweise „jungen“ Eizellen in etwa fünf Prozent der Fälle durchaus noch eine realistische Chance auf ein eigenes Kind; die Schwangerschaftsprognose unter einer ART-Behandlung ist jedoch unbekannt. Wenn der Fertilitätsnavigator für eine Patientin mit POI eine günstige Prognose ermitteln würde, könnte dies in der Beratung relevant sein. Auch bei Frauen ab 40 Jahren gibt es einzelne Patientinnen, die aufgrund einer noch guten Eizellreserve und -qualität sowie eines gesunden Lebensstils günstige Erfolgschancen haben. Auch für dieses Patientinnenkollektiv wäre eine realistische individuelle Prognose vor einer ART durch KI wertvoll, um wenig aussichtsreiche ART-Zyklen zu vermeiden und bei günstiger Prognose zu einer ART-Behandlung zu raten. Denn die Kosten einer ART-Behandlung in Deutschland von etwa Euro 4.000 pro Zyklus sind hoch und belasten gerade Frauen ab 40 Jahren aufgrund meist fehlender Kostenübernahme durch die Krankenkassen erheblich. Die bisherigen KI-Modelle des Fertilitätsnavigators erscheinen für die Vorhersage der individuellen Schwangerschaftsprognose geeignet. Als weitere Funktion wäre die Entwicklung von KI-Modellen wünschenswert, die eine individuelle Therapieempfehlung für die Auswahl eines erfolgversprechenden Behandlungsprotokolls und geeigneter Stimulationsmedikamente unterstützen. In den D·I·R-Jahrbüchern ist überwiegend der Anteil der drei verschiedenen Stimulationsprotokolle bei der Durchführung der ART-Zyklen angegeben, wobei das sogenannte kurze Protokoll eine untergeordnete Bedeutung hat. Nach der Markteinführung der GnRH-Antagonisten 1999 und 2000 (Cetrorelix und Ganirelix) hat der Anteil der Antagonisten-Zyklen von 2001 bis 2023 von etwa 20 % auf etwa 76 % zugenommen, während gleichzeitig der Anteil der Zyklen mit GnRH-Agonisten im langen Protokoll von etwa 65 % auf etwa 11 % abgenommen hat [14, 15]. Dabei sind die Schwangerschaftsraten pro Embryotransfer für beide Protokolle in den Beobachtungszeiträumen 2001 und 2023 vergleichbar: langes Protokoll etwa 28 % bzw. 31 %, Antagonisten-Protokoll etwa 25 % bzw. 32 %. Diese Beobachtungen sollten vorsichtig interpretiert werden, da sie keine direkte Aussage über kausale Gründe für die derzeitige Dominanz des Antagonisten-Protokolls erlauben. Zudem berichten wissenschaftliche Arbeiten teilweise über signifikant höhere Schwangerschafts- und Geburtenraten im Agonisten-Protokoll im Vergleich zum Antagonisten-Protokoll [16]. Die Datenlage ist somit nicht eindeutig und die Grundlage für die Behandlungsplanung bleibt unbefriedigend. Paare sollten eine bestmögliche und möglichst effektive ART-Behandlung mit einem personalisierten Behandlungsplan in Bezug auf Stimulationsprotokoll und Medikamente erhalten, um möglichst rasch die gewünschte Schwangerschaft zu erreichen. Mit den Möglichkeiten der KI und der Nutzung bereits vorhandener Big-Data-Datensätze (MedITEX- und D·I·R-Daten) könnte dieses Ziel perspektivisch nicht nur für die Auswahl des Stimulationsprotokolls, sondern auch für die Auswahl geeigneter Stimulationsmedikamente erreichbar sein. Eine Weiterentwicklung des Fertilitätsnavigators um eine zusätzliche Funktion für ein personalisiertes Stimulationsprotokoll mit hoher Leistungsfähigkeit und Zuverlässigkeit erscheint technisch grundsätzlich möglich. Relevanz für die PraxisDer Fertilitätsnavigator ist eine KI-Software, die für die personalisierte Schwangerschaftsprognose an einer Teildatenbank von MedITEX entwickelt und validiert wurde. Sie berechnet die individuelle Schwangerschaftsprognose aus Anamnese- und Labordaten. Mit diesem Modell können Paare mit guter, aber insbesondere auch mit ungünstiger Prognose identifiziert werden. Paare können dadurch realistisch über ihre Chancen auf die gewünschte Schwangerschaft beraten werden und ihre wirtschaftlichen Ressourcen gezielter einsetzen. Perspektivisch sollte es mit KI auch möglich sein, mit personalisierten Behandlungsplänen und abgestimmten Stimulationsmedikamenten die bestmögliche Behandlung zu ermitteln. Eine fortlaufende Schwangerschaft und Geburt bleibt dabei das klinische Ziel, idealerweise innerhalb der ersten drei Frischzyklen. Für die Zukunft wäre es eine spannende Aufgabe, mit einer Erweiterung der Datenbasis über die bisherigen Trainings- und Validierungszentren hinaus die Vorhersagequalität weiter zu optimieren. Mit der Nutzung einer großen Datenbank wie jener aller MedITEX-Zentren oder der D·I·R-Datenbank (Big Data) wären die Voraussetzungen für die Weiterentwicklung der KI-Software des Fertilitätsnavigators gegeben. InteressenkonfliktJ. Reiter war bis 01/2025 als Mitarbeiter der CRITEX GmbH, Regensburg, an der Entwicklung des Fertilitätsnavigators beteiligt. M. Schindler und A. Murr sind Gesellschafter und Geschäftsführer der CRITEX GmbH, Regensburg. Literatur: 1. Griesinger G, Larsson P. Conventional outcome reporting per IVF cycle/embryo transfer may systematically underestimate chances of success for women undergoing ART: relevant biases in registries, epidemiological studies, and guidelines. Hum Reprod Open 2023; 2023: hoad018. 2. Minsky M, Papert SA. Perceptrons, reissue of the 1988 expanded edition with a new foreword by Léon Bottou: an introduction to computational geometry. MIT Press, 2017; XVI. 3. Deng L, Yu D. Deep learning: methods and applications. Found Trends Signal Process 2014; 7: 197–387. 4. Hashana AMJ, Brundha P, Ayoobkhan MUA et al. Deep learning in ChatGPT – a survey. In: 7th International Conference on Trends in Electronics and Informatics (ICOEI). IEEE, 2023; 1001–5. 5. Haykin S. Neural networks and learning machines. Pearson Education, 2008; 10. 6. Silver D, Huang A, Maddison CJ et al. Mastering the game of Go with deep neural networks and tree search. Nature 2016; 529: 484–9. 7. Hanassab S, Abbara A, Yeung AC, Voliotis M, Tsaneva-Atanasova K, Kelsey TW, et al. The prospect of artificial intelligence to personalize assisted reproductive technology. NPJ Digit Med 2024; 7: 55. 8. Olawade DB, Teke J, Adeleye KK, Weerasinghe K, Maidoki M, Clement David-Olawade A. Artificial intelligence in in-vitro fertilization (IVF): A new era of precision and personalization in fertility treatments. J Gynecol Obstet Hum Reprod 2025; 54: 102903. 9. Nigmatova N, Sergeev S, Buyanzhargal Y, et al. Comprehensive assessment of pronuclear morphological pattern prognostic value using machine learning approaches in IVF programs. J IVF Worldw 2026; 4: 58–71. 10. Ahlström A, Berntsen J, Johansen M, Bergh C, Cimadomo D, Hardarson T, Lundin K. Correlations between a deep learning-based algorithm for embryo evaluation with cleavage-stage cell numbers and fragmentation. Reprod Biomed Online 2023; 47: 103408. 11. Bals-Pratsch M, Bühler K. Assistierte Reproduktion: Aktuelle Daten zu andrologischen Indikationen und Therapieergebnissen aus dem Deutschen IVF-Register. J Reproduktionsmed Endokrinol 2009; 6: 199–203. 12. D·I·R-Jahrbuch 2024. J Reproduktionsmed Endokrinol 2025; 22 (Sonderheft 4): 1–64. 13. Bals-Pratsch, Dieterle S, Nawroth F. Arbeitsplatz Kinderwunschzentrum. Springer Verlag, Heidelberg, 2025; 196–7. 14. D·I·R-Jahrbuch 2001. Deutsches IVF-Register 2002. D·I·R-Bundesgeschäftsstelle bei der Ärztekammer Schleswig-Holstein, Bad Segeberg. 15. D·I·R-Jahrbuch 2023. J Reproduktionsmed Endokrinol 2024; 21: 1–44. 16. Mahmood A, Tan L. Gonadotropin-releasing hormone (GnRH) agonist protocol improves pregnancy outcomes during in vitro fertilization (IVF) and intracytoplasmic sperm injection (ICSI) treatment in young infertile women: a retrospective study. Cureus 2024; 16: e61554.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
