Best Practice: ML-Trainingsdaten für akustische…

„Wir hätten gerne KI in der Akustikprüfung – wie viele Trainingsdaten brauchen wir?" Diese Frage beantworten wir wöchentlich. Die ehrliche Antwort lautet: weniger, als die Lehrbücher sagen – wenn Sie es richtig anstellen.

Die häufigsten Missverständnisse

„Mehr Daten sind immer besser." Falsch. Schlecht strukturierte Daten verschlechtern das Modell.
„Wir brauchen Tausende n. i. O.-Teile." In der Realität haben Sie selten so viele – und brauchen sie nicht.
„KI macht das Tuning automatisch." Nur, wenn die Datengrundlage stimmt.

Empfehlung: Mindestumfang pro Bauteiltyp

Modellklasse	i. O.-Samples	n. i. O.-Samples	Bemerkung
Klassischer Schwellenwert	30–100	5–20	für Toleranzbildung
One-Class-Modell (Anomalie)	200–500	0 (oder wenige)	häufigster Industriefall
Binärer Klassifikator	500–1 500	100–500	guter Balance
Mehrklassen-Defektmodell	1 000–3 000	50–200 pro Klasse	Defekttyp-Diagnose

Die fünf Prinzipien

1. Über mehrere Schichten und Tage messen

Akustische Signale variieren mit Temperatur, Hallengeräusch, Bedienerwechsel, Werkzeugverschleiß. Ein Modell, das nur Donnerstagvormittagsdaten sieht, scheitert montagsabends. Mindestens 3–5 unterschiedliche Schichten in der Trainingsphase einplanen.

2. Sensorvariabilität explizit abdecken

Wenn die Linie zwei Sensoren parallel nutzt, muss das Modell mit beiden trainiert werden. Wenn ein Sensor ausgetauscht werden kann, gehört auch der Ersatztyp ins Training.

3. n. i. O.-Teile gezielt erzeugen

Echte Fehlteile sind selten. Aber: viele Defekte lassen sich gezielt provozieren – Anlasstemperatur reduzieren, Werkzeug stumpf belassen, Drehzahl variieren. Ergänzt durch wenige echte Reklamationsteile entsteht ein robustes Defektsample.

4. Edge-Cases manuell labeln

Die wichtigsten 5 % der Daten sind die Grenzfälle nahe der Entscheidungsgrenze. Diese sollten ein Akustik-Spezialist und ein Bauteil-Spezialist gemeinsam bewerten – ein einzelner Bewerter erzeugt blinde Flecken.

5. Holdout-Set für Validierung

20 % der Daten kommen weg vom Training und werden ausschließlich für die Bewertung des Modells verwendet. Wer auf Trainingsdaten validiert, baut Selbsttäuschung.

Tipps zur Datenerfassung

Jede Messung mit Bauteil-ID, Datum/Uhrzeit, Sensor-ID, Bediener und Prozessparametern speichern.
Rohsignale archivieren – nicht nur Features. Wenn das Modell später überarbeitet wird, brauchen Sie sie.
Auch i. O.-Teile mit Variantenmerkmalen klassifizieren (Farbe, Charge, Lieferant) – hilft bei späterer Ursachenanalyse.

Was SonicTC mitbringt

SonicTC.NVH und SonicTC.AT enthalten ein integriertes Trainings-Workflow: Aufzeichnung, Labeling, Modellauswahl, Validierung. Modelle können im laufenden Betrieb nachtrainiert werden, ohne die Anlage zu stoppen.

Fazit

ML in der akustischen Prüfung lebt nicht von Datenmenge, sondern von Datenqualität. Wer die fünf Prinzipien beachtet, kommt mit erstaunlich wenigen Samples zu produktionsreifen Modellen. Wenn Sie ein laufendes ML-Projekt haben oder eines starten wollen – sprechen Sie uns an.

Best Practice: ML-Trainingsdaten für akustische Klassifikatoren

Die häufigsten Missverständnisse

Empfehlung: Mindestumfang pro Bauteiltyp

Die fünf Prinzipien