Trennung Audiosignal vom Rauschen

WICHTIG: Der Betrieb von goMatlab.de wird privat finanziert fortgesetzt. - Mehr Infos...

Partner:

Forum

Option

[Erweitert]

• Diese Seite per Mail weiterempfehlen

Gehe zu:

voice

Forum-Fortgeschrittener


	Beiträge: 77

	Anmeldedatum: 29.04.10

	Wohnort: ---

	Version: ---

Verfasst am: 04.10.2010, 12:54 Titel: Trennung Audiosignal vom Rauschen

Hallo,

um bei einer kurzen Audiosequenz von ca. 2-5 Sekunden das Audiosignal von reinem Rauschen zu trennen, d.h den Beginn des Sprechens und das Ende des Sprechens herauszufinden, wie geht man dort vor?

Gedanklich schwebt mir ein Bandpass vor, mit dem ich alle Frequenzen beispielsweise unter 50 Hz und über 350 Hz eliminiere.

oder

ich berechne den Energieanteil und lege eine Grenze fest, ab wann ich den Energieanteil als sprach-energiehaltig und wann als reines Rauschen betrachte

Oder gibt es alternative Lösungen oder Ansätze und/oder welche wäre besser?

Gruß und Dank

voice

galilio

Forum-Anfänger


	Beiträge: 22

	Anmeldedatum: 15.09.10

	Wohnort: ---

	Version: ---

Verfasst am: 30.10.2010, 16:54 Titel:

Ich werde spontan LMS-Algo bzw.Wiener Filter sagen.
guck mal hier :
http://de.wikipedia.org/wiki/LMS-Algorithmus

Grüß
Galilio

aj.geissler

Forum-Guru


	Beiträge: 251

	Anmeldedatum: 26.11.07

	Wohnort: Seeheim-Jugenheim

	Version: ---

Verfasst am: 04.11.2010, 10:16 Titel:

Hi,

unter der Annahme, daß das Rauschen "weiß" ist (konstante spektrale Rauschleistungsdichte) sind verschiedene Ansätze denkbar.

Soll diese Filterung online erfolgen oder ist eine Post-Processing-Auswertung möglich ?

Bei einer Audiosequenz von 2 sec (44.1 kHz) stehen wahrscheinlich über 80000 Samples zur Verfügung.
Wenn die Daten segmentweise analysiert werden, könnte für jedes Segment eine Autokorrelationsauswertung erfolgen: Wenn Rxx(0) sehr viel größer als alle anderen Rxx(k) {k ungleich Null) ist}, liegt ausschließlich Rauschen vor und das Filter macht dicht.

Augenmerk sollte man auf die Segmente richten, in denen Rauschen und dann ein Teil "Sprache + Rauschen" vorliegt.
Auch Cepstrum-Auswertungen ("FFT der FFT") wären ein Ansatz.

Für Realtime-Anwendungen ist sicherlich ein Wiener-Ansatz denkbar.
Auch schwellenbasierte Verfahren (Pruning-Filter) könnten ebenso Sinn machen wie Wavelet-basierte Verfahren.

Das ist ja das Tolle an der Signalverarbeitung: Die Vielfalt an möglichen Lösungen. Jede Anwendung hat für sich immer eine eigene beste Variante.

Grüße
Andreas
_________________

Andreas Geißler


Einstellungen und Berechtigungen
Beiträge der letzten Zeit anzeigen:	Du kannst Beiträge in dieses Forum schreiben. Du kannst auf Beiträge in diesem Forum antworten. Du kannst deine Beiträge in diesem Forum nicht bearbeiten. Du kannst deine Beiträge in diesem Forum nicht löschen. Du kannst an Umfragen in diesem Forum nicht mitmachen. Du kannst Dateien in diesem Forum posten Du kannst Dateien in diesem Forum herunterladen

Impressum | Nutzungsbedingungen | Datenschutz | FAQ |

RSS

Hosted by:

Copyright © 2007 - 2025 goMatlab.de | Dies ist keine offizielle Website der Firma The Mathworks

MATLAB, Simulink, Stateflow, Handle Graphics, Real-Time Workshop, SimBiology, SimHydraulics, SimEvents, and xPC TargetBox are registered trademarks and The MathWorks, the L-shaped membrane logo, and Embedded MATLAB are trademarks of The MathWorks, Inc.