تعداد کانال

یک/ دو/ چند

حوزه پردازش

حوزه زمان/ حوزه فرکانس

نوع الگوریتم

وفقی/ غیر وفقی

در این فصل به این دلیل که بیشتر انواع سیستم های غنی سازی موجود در اکثر کاربردها از نوع تک کاناله می باشد، بحث و بررسی خود را به سیستم های تک کاناله معطوف می کنیم.
۱-۴-۱- کاهش نویز با استفاده از خاصیت تناوبی گفتار
این روش ها از طبیعت شبه متناوب سیگنال گفتار بهره می گیرند. سیگنال های صدادار گفتار[۲۲] در طبیعت با فرکانس پایه مشخص می شوند که از شخصی به شخص دیگر متغیرند. با این حال، چنین تکنیک هایی به شدت، به تخمین درست تناوب گام[۲۳] سیگنال (عکس فرکانس گام) صدای گوینده وابسته اند.
یکی از روش های ساده بر این مبنا روش فیلترهای شانهای وفقی[۲۴] ]۴[ است. در این روش از یک سری از فیلترها برای فیلتر کردن محتویات فرکانسی بین فرکانس اصلی و هارمونیک های آن استفاده می شود. روش دیگر در این زمینه، تکنیک حذف نویز وفقی تک کاناله[۲۵] ]۵[ می باشد. در این روش، نسخه تاخیر یافته سیگنال به عنوان ورودی به فیلتر LMS[26] در نظر گرفته می شود و در عین حال خود سیگنال به عنوان سیگنال مرجع استفاده می شود. در این روش، تاخیر، نویز را در سیگنال ورودی با آنچه که در سیگنال مرجع حضور دارد ناهمبسته می کند و وقتی که تاخیر برابر با تخمینی از پریود گام سیگنال باشد، آنگاه در محتویات گفتار دو سیگنال همبستگی وجود دارد. شکل (۱-۷) بلوک دیاگرام یک سیستم مبتنی بر این تکنیک را نشان می دهد.
شکل۱-۷- بلوک دیاگرام یک سیستم بهسازی مبتنی بر خاصیت تناوبی گفتار
که در آن  ،  و  به ترتیب سیگنال گفتار تمیز ، نویز و سیگنال نویزی می باشند. یکی از عیوب اساسی این روش ها این است که بهبود چشمگیری در کیفیت نواحی گفتار بی صدا[۲۷] دیده نمی شود. همچنین استفاده از یک الگوریتم دقیق تخمین و استخراج گام جهت حصول کارایی مناسب در این الگوریتم ها الزامی است.
۱-۴-۲- غنی سازی گفتار بر اساس مدل
این دسته از سیستم های غنی سازی گفتار گاهی با نام روش غنی سازی بر مبنای مدل آماری معرفی شده اند [۶]. در مواقعی که دانش و معلوماتی نسبت به مشخصات آماری سیگنال گفتار یا نویز نداریم و به جای آن از مدل هایی مانند مدل صفر- قطب، مدل تمام قطب و یا مدل تمام صفر استفاده کنیم، به کارگیری چنین روش هایی موسوم است. درعوض، مدل های تولید گفتار مانند [۲۸]ARMA، AR[29]، و یا [۳۰]MA استفاده می شوند. بر این اساس، پارامترهای مدل سیگنال گفتار تخمین زده شده و سپس توسط بازسازی بوسیله پارامترهای مدل گفتار یا با استفاده از یک فیلتر کالمن یا وینر، سیگنال بهسازی شده تخمین زده می شود.
فیلتر وینر، تکنیک وفقی مشهوری است که در بسیاری از روش های بهسازی گفتار به کار گرفته شده است. مبنای اصلی فیلتر وینر تخمین یک فیلتر بهینه از گفتار نویزی ورودی است که با مینیمم کردن [۳۱]MSE بین سیگنال مطلوب  و سیگنال تخمینی  حاصل می شود. این فیلتر در حوزه فرکانس از رابطه زیر حاصل می شود:

برای دانلود متن کامل این پایان نامه به سایت  fumi.ir  مراجعه نمایید.

(۱-۲)

که در آن  چگالی طیف قدرت (PSD[32]) سیگنال گفتار و  نیز PSD مربوط به طیف نویز است که در بازه هایی از زمان که گفتار فعال نیست محاسبه می گردد. از معادله (۱-۲) پیداست که از پیش دانستن طیف قدرت گفتار و نویز الزامی است. طیف قدرت گفتار با استفاده از تخمین پارامترهای مدل گفتار تخمین زده می شود ]۷[. آنچه از معادله (۱-۲) بر می آید اینست که باید از معلومات اولیه خوبی نسبت به طیف قدرت نویز و سیگنال برخوردار بود .
۱-۴-۳- تکنیک های مبتنی بر دامنه طیفی زمان– کوتاه[۳۳]
به کار گیری تکنیک دامنه طیفی زمان – کوتاه (STSA) روی سیگنال گفتار باعث موفقیت در بسیاری از روش های غنی سازی بوده است. ایده اصلی در این تکنیک بصورت زیر می باشد.
– به کار بردن سیگنال گفتار نویزی در ورودی این آنالیز
– بدست آوردن یک برآورد مناسب از سیگنال گفتار بواسطه حذف نویز
در شکل (۸-۱) بلوک دیاگرام این تکنیک نشان داده شده است است . همان طور که در شکل مشخص است این تکنیک شامل قسمت هایی مانند قسمت آنالیز ، قسمت پردازش و قسمت ترکیب است .
پنجره گذاری