Taylan, Salih Sinan, Güz, Ümit, Işık Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik Mühendisliği Yüksek Lisans Programı, Taylan, Salih Sinan, Gürkan, Hakan, and Elektrik-Elektronik Mühendisliği Anabilim Dalı
Text in English ; Abstract: English and Turkish Includes bibliographical references (leaves 71-77) xi, 77 leaves The processing and storage of speech signals are widely implemented in modern communication systems. Decreasing the amount of information for modeling the reconstruction of speech signal enhances the transmission and storage capacity of the system. It is important to compress speech without losing its important properties during transmission or reconstruction independently from the speaker and speech signals itself. However, some losses inevitably occur in every compression process. Increasing the compression ratio results in increased losses. Speech enhancement algorithms may be used to enhance strongly compressed speech signals for better intelligibility and quality. The purpose of this study is to enhance speech with healing algorithms that compress speech signals while reducing background noise. The SYMPES [1][2][4] algorithm used in this study compresses data resulting in lesser loss than other known compression algorithms. As a result of the compression, noise occurs in the background. The type of the noise cannot be classified. Attempts have been made to reduce these background noises (distortions) by using di_erent methods of speech enhancement algorithms. More than ten speech enhancement algorithms have been investigated and implemented. Two algorithms with the best-enhanced sound output were determined and compared. One of them, Spectral Subtraction Algorithm, was applied via a geometric approach, which was investigated in 2008 by Yang Lu and Philipos C. Loizou [3].In this algorithm, a noise spectrum is subtracted from the noisy speech signal and then a clean signal spectrum is obtained. Moreover, in the absence of the signal, the noise spectrum can be updated and predicted. This approach expressed that the noise spectrum is not signi_cantly di_erent between update periods and is a noisy cum stationary or slowly changing process. Forward and inverse Fourier transforms are used in the algorithm; hence, the algorithm is quite simple. However, the simple subtraction algorithm is a costly operation. Subtraction must be done with extreme caution to avoid any speech distortion. If too many subtractions are made, some speech information may be removed from the center; if too little is subtracted, it can be observed that a clear majority of the intervening noises are still present. The other speech enhancement method is a statistical model based algorithm. This statistical speech enhancement method involves predicting the statistic of a clean and noisy signal for a sample. In other words, if a speech signal is distorted with a statistically independent noise, the marginal probability distributions of the clean speech and noise signal must be clearly known. In this model-based statistical method, signal and noise statistics are estimated primarily from the speech and noise content. An optimal solution is obtained using statistical models and it is then used in conjunction with distortion measures to solve the existing speech enhancement problem. In this approach, di_erent techniques have been applied to parameterize speech signals such as autoregressive moving average (ARMA), autoregressive (AR), or moving average (MA). Three prediction rules known as the maximum probability (ML), maximum posterior (MAP), and minimum mean square error (MMSE) are used in this approach and have many desirable features to estimate the parameters of the speech signal. ML is used for the maintenance of non-random parameters. The estimation methods MAP and MMSE are used for known parameters of the previously known density function, which can be examined in advance as a random variable. For the speech signal, this model uses the MAP estimation approach, assuming a time-varying AR model for speech enhancement in which both the model and signal are estimated from the noisy signal. However, since the waveform of the speech signal is distorted as a result of the signal improvement, the SNR results are not found very healthy. Therefore, the results are evaluated by the Mean Opinion Score (MOS) test. A subjective test based on MOS is also carried out on some selected utterances. The results of the subjective test are also compared with those of the objective test to determine the most appropriate objective measure for the evaluation of speech enhancement algorithms. The strengths and weaknesses of the various algorithms are analyzed and compared. Quality has been shown in detailed graphs that can be measured and smoothed using the MOS, which de_nes the quality of speech by a listener on a scale of 1 to 5. Bu çalışma konuşma işaretini sıkıştırıp, arka plan da yer alan gürültünün indirgenmesini sağlayan iyileştirme algoritmaları sayesinde arka plandaki gürültü temizlenmesi hedeflenmiştir. Kullanılan sıkıştırma algoritması SYMPES’ in temel amacı ifade edilmek istenirse; konuşma işaretlerinin işlenmesi, depolanması modern iletişim sistemlerinde oldukça önem taşımaktadır. Özellikle konuşma işaretlerinin modellenmesi ya da yeniden oluşturulması sonu cunda, gerekli bilgi miktarının azaltılması, sayısal konuşma işaretlerinin depolanmasını ve iletilmesini sağlayan sistemlerin kapasitesi ses verisi sıkıştırması sayesinde belirgin bir şekilde artmaktadır. Ancak bundan dolayı bir takım veri kaybı olmakta ya da arka plan da gürültü oluşmaktadır. Bu sıkıştırma algoritmalarında temel amaç; konuşma iletiminin ya da konuşmanın yeniden oluşturulmasında konuşma işaretinin kendisinden ve konuşmacıdan bağımsız ve bilginin önemli özelliklerini kaybetmeden yüksek sıkıştırma oranları ile oluşturmasıdır. Bu çalışma da kullanılan SYMPES algoritması da diğer bilinen sıkıştırma algoritmalarına oranla daha az veri kaybı ile sıkıştırma yapmaktadır. Yine de sıkıştırma sonucunda, arka planda birtakım gürültüler olmaktadır. Bu gürültü diğer bir adı ile bozulmalar ses iyileştirme algoritmalarının farklı metotları kullanarak minimize edilmeye çalışılmıştır. Araştırılan bu ses iyileştirme algoritmalarından gürültü kaynağının belli olmadığında arka plan gürültüsü için en sağlıklı sonuçları veren iki algoritma önerilmiş: Spektral Çıkarma Algoritması ve İstatistiksel Tabanlı Model metodudur. Bu metotlar arasındaki karşılaştırmalar yapılmıştır. Spektral Çıkarma Algoritması’nı Özetlemek istersek; ses sinyaline karşılık, ek gürültü düşünüldüğünde, gürültülü ses spektrumundan bir gürültü spektrumu çıkartılarak, temiz bir sinyal spektrumun bir tahminin elde edilir. Gürültü spectrumu yokluğunda sinyal güncellenebilir ve tahmin edilebilmektedir. Bu yaklaşım, gürültü spektrumunun güncelleme dönemleri arasında önemli ölçüde farklı olmadığını ve gürültülü durağan veya yavaş yavaş değişen bir süreç olduğunu özetler niteliktedir. İleri ve ters Fourier dönüşümleri algoritmada kullanılır. Bu nedenle algoritma oldukça basittir. Basit çıkarma algoritması maliyetli bir işlem olduğudan dolayı çıkarma işlemi, herhangi bir konuşma bozulmasını önlemek için çok dikkatli yapılmalıdır. Çok fazla çıkarma yapılırsa, bazı konuşma bilgileri ortadan kaldırılabilir. Ancak çok az çıkarılırsa, araya giren gürültünün büyük çoğunluğu kalabildiği gözlemlenmiştir. Buna ek olarak, bazı durumlarda spektral çıkarmadan kaynaklanan konuşma bozukluklarının çoğu kaldırılmıştır. Diğer bir yaklaşım ise istatistiksel model tabanlı algoritmalardır. Bu istatistiksel konuşma geliştirme metodu, temiz ve gürültülü sinyalin ortak istatistiklerini net bir şekilde bilinmesini ve konuşma sinyalleri için algısal bir bozulma önlemi gerektiren belirli bir örnek fonksiyonu için gürültülü bir sinyalin temiz bir sinyalinin tahmin edilmesi yaklaşımıdır. Diğer bir ifadeyle, eğer konuşma sinyalleri istatistiksel olarak bağımsız bir gürültüyle bozulursa, temiz konuşma ve gürültü sinyalinin marjinal olasılık dağılımları açıkça bilinmesi gereklidir. Bu model tabanlı istatiksel metotta, sinyal ve gürültü istatistikleri öncelikle konuşma ve gürültü içeriğinden tahmin edilir. Optimal çözüm, istatistiksel modeller kullanılarak elde edilir ve daha sonra mevcut konuşma geliştirme problemini çözmek için bozulma önlemleri ile birlikte kullanılır. Bu yaklaşımda, otoregresif hareketli ortalama (ARMA), otoregresif (AR) veya hareketli ortalama (MA) gibi konuşma sinyallerini parametreleştirmek için farklı teknikler bu yaklaşımda uygulanmıştır. Ayrıca, maksimum olasılık (ML), maksimum posteriori (MAP) ve minimum ortalama karesel hata (MMSE) olarak bilinen üç tahmin kuralının, konuşma sinyalinin parametrelerini tahmin etmek için birçok istenen özelliklere sahip olduğu için bu yaklaşımda kullanılmıştır. ML rasgele olmayan parametrelerin bakımı için kullanılmıştır. Tahmin yöntemleri olan MAP ve MMSE, önceden rastgele değişken olarak incelenebilen önceden bilinen yoğunluk fonksiyonunun bilinen parametreleri için kullanılmıştır. Konuşma sinyali için, bu model hem gürültülü sinyalden hem modelin hem de sinyalin tahmin edildiği konuşma geliştirme için zamanla değişen bir AR modeli varsayarak, MAP tahmini yaklaşımı kullanılmıştır. Bununla birlikte, sinyal gelişiminin sonucu olarak ses sinyalinin dalga biçimi bozulduğundan, SNR sonuçları çok sağlıklı bulunmadığından, elde edilen sonuçlar Mean Opinion Score (MOS) testi ile değerlendirilir. Bazı seçilmiş konuşmalar üzerinde MOS temelli öznel bir test gerçekleştirilir. Konuşma geliştirme algoritmalarının değerlendirilmesi için en uygun objektif önlemi belirlemek için öznel testin sonuçları da objektif test ile karşılaştırıldı. Çeşitli algoritmaların güçlü ve zayıf yönleri analiz edilir ve karşılaştırılır. Kalite, bir dinleyicinin konuşmanın kalitesini 1’den 5’e çıkardığı ‘Mean Opinion Score’ testi (MOS) kullanılarak ölçülebilir ve gürültünün temizlendiğine dair ayrıntılar grafiklerle gösterilmektedir. Introduction Speech Enhancement Literature Review: Speech Enhancement Aim and Outline of Thesis Aim of Thesis Outline of Thesis Speech Compression Modeling The Method of SYMPES Understanding the Enemy: Noise Noise Sources Noisy Signal and Speech Levels in Various Environments Classification of Speech Enhancement Algorithms Single Channel Enhancement Systems Statistical Model Based Algorithms Enhancement Based on Short-Time Spectral Amplitude Estimation Speech Enhancement According to Perception Criteria Spectral Subtraction Algorithms Basic Principles of Spectral Subtraction Geometric View of Spectral Subtraction Upper Limits on the Difference Between the Phases of the Noisy and Clean Signals Alternate Spectral-Subtractive Rules and Theoretical Limits Nonlinear Spectral Subtraction Minimum Mean Square Error Spectral Subtraction Algorithm Spectral Subtraction Using Adaptive Gain Averaging Statistical Model Based Methods Maximum-Likelihood Estimators Bayesian Estimators MMSE Estimator MMSE Magnitude Estimator Estimating the a Priori SNR Maximum-Likelihood Method Implementation and Evaluation of the MMSE Estimator Experimental Work Subjective Listening Tests Mean Opinion Score Test Comparison of Algorithms using MOS Conclusion