Background: Progression-free survival (PFS) is often used instead of the patient-relevant endpoint overall survival (OS) in cancer clinical trials. In order for PFS to be accepted as a patient-relevant outcome within the benefit assessment of pharmaceuticals in accordance with the German Social Code, Book Five (SGB V), section 35a, it has to be validated as a surrogate endpoint for OS in the relevant indication. As part of a rapid report the Institute for Quality and Efficiency in Health Care (Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen – IQWiG) presented methods for surrogate endpoints validation and recommendations for correlation-based procedures. These methods include the evaluation of the certainty of conclusion of study results and the correlation between estimates of surrogate outcome and patient-relevant outcome on trial-level. The correlation is estimated by sample Pearson correlation coefficient r or coefficient of determination R² and respective confidence interval (CI). Requirements for surrogate validation are a high correlation and a high certainty of conclusion of the study results. In case of medium correlation IQWiG methods propose applying the concept of surrogate threshold effect (STE) to determine thresholds for the estimate of the surrogate endpoint. Methods: In simulation studies we investigate the requirements for a successful surrogate validation when applying a correlation-based approach. Simulation parameters are the estimates of the surrogate and the patient-relevant outcome, the correlation between them, the number of patients and the number of studies. We analyzed different scenarios in order to figure out parameters contributing to high correlation. Furthermore, we investigate requirements of the STE method, allowing conclusions on patient-relevant endpoints by means of surrogate endpoints. Finally, in consideration of IQWiG methods we analyze the challenges of surrogate validation in practical use. Results: Both, simulations of the surrogate validation using correlation-based procedure as well as an analytical derivation show low statistical power despite a medium-sized number of studies and a high true correlation. The power for n=5 studies and correlation ρ=0.9 is below 6%. A very high true correlation of ρ=0.95 in at least n=25 studies would be required in order to preserve a power of 80%, however this scenario is considered implausible in practice. Further simulations investigating the power of the method of STE showed that only one fifth of the considered scenarios have power above 80%. However, these scenarios included parameter constellations with impractical values regarding number of studies, number of patients and effect estimate of OS. The correlation parameter ρ as well as the parameter of the estimate of PFS barely have an impact on the power of the STE procedure. Conclusion: Our simulations show that in practical use it is quite unlikely to fulfill the condition of high correlation as defined in the rapid report of IQWiG, proposing the lower limit of confidence interval to be crucial. Despite setting the true correlation in the model to a high value, statistical power will be quite small as long as the number of studies remains low or medium which is a realistic assumption in validation of surrogate endpoints within the framework of early benefit assessment. Besides, recommendation to involve certainty of studies in the analysis remains problematic. On closer inspection of the density function of sample correlation coefficient and assuming a given true correlation we can conclude that sample correlation does not depend on the variance of the single estimates but only on sample size (representing the number of studies in the model). Therefore, patient number does not have an impact on the confidence interval of the correlation whether using weight vectors for studies or not. Application of the STE concept according to the requirements described in the rapid report appears to be rather complicated as well. We propose an alternative solution of comparing the value of STE with point estimate of the surrogate endpoint instead of its lower level of confidence interval showing low α-errors in realistic scenarios., Hintergrund: In onkologischen Studien wird oftmals statt des patientenrelevanten Endpunkts Gesamtüberleben (overall survival, OS) der Endpunkt progressionsfreies Überleben (progression-free survival, PFS) erfasst. Für eine Anerkennung von PFS als patientenrelevant im Verfahren der Nutzenbewertung nach § 35a SGB V gilt es, dieses als Surrogatendpunkt für OS in der betrachteten Indikation zu validieren. Das Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG) hat im Rahmen eines Rapid Report Methoden zur Validierung von Surrogatendpunkten dargestellt und Empfehlungen zur Verwendung von korrelationsbasierten Verfahren ausgesprochen. In diesen Methoden werden die Einschätzung der Aussagesicherheit der Studienergebnisse und der Zusammenhang zwischen den Effektschätzern des Surrogats und des patientenrelevanten Endpunkts auf Studienebene einbezogen. Der Zusammenhang wird mit dem Korrelationskoeffizienten r bzw. dem Bestimmtheitsmaß R² und entsprechendem Konfidenzintervall (KI) gemessen. Für den Nachweis der Validität des Surrogats müssen eine hohe Korrelation sowie eine hohe Aussagesicherheit der Studienergebnisse vorliegen. Im Falle einer mittleren Korrelation kann das Konzept des Surrogate Threshold Effects (STE) zur Festlegung von Schwellenwerten für den Effektschätzer des Surrogatendpunkts angewandt werden. Methoden: In Simulationsstudien wird nun untersucht, welche Bedingungen für eine erfolgreiche Surrogatvalidierung mit korrelationsbasierten Verfahren erfüllt sein müssen. Variierende Parameter sind die Effektschätzer des Surrogats und des patientenrelevanten Endpunkts, die Korrelation zwischen den Effektschätzern, die Patientenanzahl sowie die Anzahl der Studien. Es wird analysiert, in welchen Szenarien der Nachweis einer hohen Korrelation gelingt und falls nicht, welche Voraussetzungen vorliegen müssen, dass anhand des Surrogats unter Einbeziehen des STE-Konzepts noch Schlüsse auf den patientenrelevanten Endpunkt gezogen werden können. Die Herausforderungen der vom IQWiG präferierten Methodik zur Surrogatvalidierung in der Praxis werden analysiert. Ergebnisse: Die Simulation der Surrogatvalidierung über das korrelationsbasierte Verfahren sowie die analytische Herleitung der Power zeigen, dass diese bei moderater Studienanzahl und starker zugrundeliegender wahrer Korrelation dennoch sehr gering ist. Die Power liegt für n=5 Studien und Korrelation ρ=0,9 unter 6%. Es wäre eine sehr hohe Korrelation von ρ=0,95 in mindestens n=25 Studien erforderlich, um eine Power von 80% zu erhalten. Dieses Szenario ist in der Realität allerdings als unplausibel anzusehen. In der Simulation zur Anwendung des STE-Konzepts lag die Power nur bei etwa ein Fünftel der betrachteten Szenarien über 80%. Dabei handelte es sich jedoch um Szenarien, in denen die Parameterkonstellationen aus hoher Studien- und Patientenanzahl und großem Effekt des OS eher unrealistisch sind. Der Parameter der Korrelation ρ zwischen den Effektschätzern der Studien wirkt sich ebenso wie verschiedene Effekte des PFS kaum auf die Power des STE-Verfahrens aus. Schlussfolgerung: Die durchgeführten Simulationen zeigen, dass die im Rapid Report beschriebene Methodik, wonach die untere Grenze des Konfidenzintervalls ausschlaggebend für eine hohe Korrelation bei der Surrogatvalidierung sein soll, eine in der Praxis kaum zu überwindende Hürde darstellt. Bei gering bis moderat angenommener Studienanzahl - wie es für eine Validierung von Surrogatendpunkten im Rahmen der frühen Nutzenbewertung realistisch erscheint - ist die Power selbst bei hoher, wahrer Korrelation äußerst gering. Problematisch erscheint weiterhin die Empfehlung, die Aussagekraft der Studien in die Analyse mit einzubeziehen, auch wenn dies prinzipiell gerechtfertigt erscheint. Bei Betrachtung der Definition des Korrelationskoeffizienten und dessen Dichtefunktion wird zudem klar, dass die empirische Korrelation unter Annahme einer festen wahren Korrelation gar nicht von der Varianz der Einzelschätzer, sondern nur von der Anzahl der Wertepaare abhängt. Die Patientenanzahl hat somit keine Auswirkung auf das Konfidenzintervall der Korrelation. Dies gilt ebenso, wenn Modelle mit Gewichtung der Studien verwendet werden. Die Anwendung des STE-Konzeptes gemäß der im Rapid Report beschriebenen Methodik erscheint ebenfalls schwierig. Ein Vergleich des STE mit dem Punktschätzer des Surrogatendpunkts wäre eine Alternative, die in realistischen Szenarien geringe α-Fehler zeigte., GMS Medizinische Informatik, Biometrie und Epidemiologie; 13(1):Doc01