Einleitung: Ziel dieser Studie war es, die Beurteilungsqualität bei der Benotung von Präparationen – im Hinblick auf Reliabilität und Objektivität – im Rahmen der zahnmedizinischen universitären Ausbildung zu untersuchen. Dabei wurde die Reliabilität bei Präparationsergebnissen von fünf zahnärztlichen Beurteilern im Vergleich zu der prepCheck 1.1 (Sirona) Analysesoftware als wesentlicher Bestandteil einer fairen Beurteilung bestimmt. Weiterhin war es Gegenstand der Arbeit, mit Hilfe von Fragebögen die Rahmenbedingungen in der vorklinischen Ausbildung an der Zahnklinik Würzburg sowohl aus Studenten- als auch aus Betreuersicht darzustellen. Methodik: 43 Studenten der Universität Würzburg erstellten eine Präparation für eine Vollgusskrone am Zahn 26. Diese wurde in jeweils vier Beurteilungskategorien (Präparationsgrenze, Oberfläche, Substanzabtrag und Präparationswinkel) von fünf zahnärztlichen Beurteilern und der Analysesoftware prepCheck 1.1 mit Hilfe eines vierstufigen Notensystems zweimal beurteilt. Zur Ermittlung der Reliabilität kamen Cohens Kappa (κ), Cohens Weighted Kappa (κw) sowie der Gwets AC1-Koeffizient (AC1) zum Einsatz. Dabei wurden die Notengebung, die Bestehensrate sowie die Beurteilungskategorien sowohl auf die Intrarater- als auch auf die Interrater-Reliabilität hin untersucht. Ergebnisse: Notengebung: In der Intrarater-Reliabilität erreichte die Analysesoftware den höchsten Reliabilitätskoeffizienten (κw = 0,817), die zahnärztlichen Beurteiler erreichten Werte zwischen κw = 0,42 und κw = 0,78. Die Interrater-Reliabilität der zahnärztlichen Beurteiler lag bei AC1 = 0,354 – 0,371. Bestehen: In der Intrarater-Reliabilität erreichte die Analysesoftware den höchsten Reliabilitätskoeffizienten (Cohens Kappa κ = 0,9), die zahnärztlichen Beurteiler erreichten Werte zwischen κ = 0,486 und κ = 0,822. Die Interrater-Reliabilität der zahnärztlichen Beurteiler lag bei AC1 = 0,671 – 0,715. Die Interrater-Reliabilität der zahnärztlichen Beurteiler war am höchsten in der Kategorie Oberfläche (AC1 = 0,924 – 0,951). Notenkategorie: In der Intrarater-Reliabilität erreichte die Analysesoftware den höchsten Reliabilitätskoeffizienten in der Notenkategorie Substanzabtrag (κw = 0,907). Drei zahnärztliche Beurteiler erlangten die höchsten Kappa-Koeffizienten in der Kategorie Präparationsgrenze (κw = 0,6 – 0,679). Ein Beurteiler erreichte den höchsten Wert in der Kategorie Oberfläche (κw = 0,873), ein weiterer in der Kategorie Substanzabtrag (κw = 0,488). Die Interrater-Reliabilität der zahnärztlichen Beurteiler war am höchsten in der Kategorie Oberfläche (AC1 = 0,516 – 0,546). Schlussfolgerungen: Die Ergebnisse dieser Studie zeigen, dass die Reliabilität der zahnärztlichen Beurteiler bei jeder Analyse hinter der Reliabilität der Analysesoftware zurückbleibt. Darüber hinaus unterliegt das Reliabilitätsniveau innerhalb der zahnärztlichen Beurteiler erheblichen Schwankungen. Die Auswertung der Fragebögen zeigt, dass sowohl die Studenten als auch die zahnärztlichen Beurteiler zum Teil mit der gegenwärtigen Ausbildungssituation unzufrieden sind., Introduction: This study investigates the quality of evaluation in studies of dental education, by examining the reliability in preparation deliverables by five faculty members in comparison to prepCheck 1.1 (Sirona) learning software as an essential element in fair appraisals. Object of this study is also illustrating the frame conditions in preclinical training at dental clinic from the perspective of the students as well as the evaluator’s perspective, by using questionnaires. Methods: 43 students from University of Würzburg created a preparation for a full crown on tooth 26. The preparations were evaluated twice on four categories (reduction, surface finish, taper and margin width) by five faculty members and the learning software, using a four-staged scale. For determination the reliability Cohen’s kappa (κ), Cohen’s weighted kappa (κw) and the Gwet’s AC1-coefficient (AC1) were used. The grading, the number of success as well as the rating category therefore were examined on their inter- and intra-rater reliability. Results: Grading: In case of reliability, the learning software achieved the highest reliability coefficient (κw = 0,817) while the faculty members valued κw = 0,42 to κw = 0,78. The inter-rater reliability of faculty members is located by AC1 = 0,354 – 0,371. Passing: The learning software gained the highest coefficient in intra-rater reliability (κ = 0,9) while the member’s value achieved κ = 0,486 and κ = 0,822. The supervisor’s inter-rater reliability scored AC1 = 0,671 up to AC1 = 0,715. The faculty member’s inter-rater reliability is the highest in the category surface finish (AC1 = 0,924 – 0,951). Grading-criteria’s: In intra-rater reliability the learning software achieved the highest reliability-coefficient in reduction (κw = 0,907). Three instructors achieved the highest kappa-coefficients in reduction (κw = 0,6 – 0,679). One of them gained the highest level in the category surface finish (κw = 0,873), another one in reduction (κw = 0,488). The faculty member’s inter-rater reliability is the highest in the category surface finish (AC1 = 0,516 – 0,546). Conclusion: This study illustrates that the reliability of faculty members is significantly lower than the learning software’s reliability. Furthermore the level of reliability within the faculty members is subject to considerable fluctuations. The questionnaires’ evaluation shows that the students and the evaluators as well are partly dissatisfied with the current educational situation.