Spezifische Tests bilden eine Grundlage der manualmedizinischen Diagnostik und werden hinsichtlich der formellen Testgüte unterschiedlich bewertet. Die Vielfalt von Tests und mangelnde Standardisierung erschweren eine qualifizierte Aussage zur diagnostischen Wertigkeit der Tests. Insgesamt sind über 36 Tests in Deutschland gebräuchlich. Es fehlen Daten zur testtheoretischen Nachvollziehbarkeit von Validität, Reliabilität und Objektivität bei unterem Rückenschmerz. Bei dieser Studie handelt es sich um eine prospektive, kontrollierte, randomisierte Studie mit 150 Probanden. Die in dieser Arbeit verwendeten schmerzdetektierenden Untersuchungen sind alle durch ein Expertenrating als valide gekennzeichnet worden, die Objektivität wird sichergestellt. Die Resultate zeigen heterogen verteilte Kappa-Werte der Reliabilität. Die Schmerzprovokationstests schneiden meist auf mäßigem Reliabilitätsniveau ab. Die segmentalen Tests schneiden deutlich schlechter ab. Daraus schlussfolgernd ist zu sagen, dass Schmerzgeschehen in der untersuchten Population nur auf globaler Ebene wissenschaftlich gesichert messbar ist, die segmentalen Schmerzuntersuchungen bleiben diesen Beweis schuldig.