ارزیابی حذف فیدبک حاشیهای عمیق برای سمعکها با استفاده از گفتار و موسیقی
در دنیای فناوریهای کمکشنوایی، سمعکها نقش کلیدی در بهبود کیفیت زندگی افراد کمشنوا ایفا میکنند، اما چالشهایی مانند فیدبک آکوستیک (صدای جیغ یا هولینگ) میتواند این تجربه را مختل کند. مقاله که در سال ۲۰۲۳ منتشر شده، به بررسی یک روش نوین مبتنی بر یادگیری عمیق به نام DeepMFC میپردازد که فیدبک حاشیهای را در سمعکها کاهش میدهد. این روش، با تمرکز بر گفتار و موسیقی، نه تنها پایداری سمعک را افزایش میدهد، بلکه کیفیت صدا را حفظ میکند، موضوعی حیاتی برای کاربران ایرانی که به دنبال سمعک هوشمند با حذف فیدبک پیشرفته هستند. اگر به سمعک نیاز دارید، برای "خرید سمعک ایرانی آنلاین"، parstek.ir را ببینید و برای باتری، fannkala.com را فراموش نکنید!
چکیده: خلاصهای از روش DeepMFC
گفتار و موسیقی هر دو نقش اساسی در زندگی روزمره دارند. گفتار برای ارتباط و موسیقی برای آرامش و تعامل اجتماعی مهم است. هر دو دامنه دینامیکی وسیعی دارند، که برای افراد با شنوایی طبیعی مشکلی ایجاد نمیکند، اما برای کمشنوایان، بخشهای کمصدا ممکن است غیرقابل شنیدن باشد. سمعکها با تقویت فرکانسمحور و فشردهسازی دامنه، این مشکل را تا حدی جبران میکنند، اما گین مورد نیاز برای بخشهای کمصدا میتواند از گین پایدار حداکثر سمعک فراتر رود و منجر به فیدبک آکوستیک شود. کنترل فیدبک برای جلوگیری از ناپایداری استفاده میشود، اما میتواند آرتیفکتهایی ایجاد کند، بهویژه وقتی گین فقط کمی کمتر از حداکثر پایدار است.
مقدمه: چالش فیدبک در سمعکها
گفتار و موسیقی دو نوع صدایی هستند که در مطالعات ادراک شنوایی بهطور گسترده استفاده میشوند (Fastl & Zwicker, 2007; Darwin, 2009; Roederer, 2009; Moore, 2013). گفتار وسیلهای طبیعی برای ارتباط است و موسیقی تعاملات اجتماعی را افزایش میدهد، لذت میآورد و احساسات را منتقل میکند. هر دو ادراک گفتار و موسیقی برای کمشنوایان مهم است، اما سمعکها عمدتاً برای بهبود ادراک گفتار طراحی شدهاند، با تمرکز کمتر بر موسیقی.
هر دو گفتار و موسیقی بسیار غیرایستا هستند و دامنه دینامیکی وسیعی دارند. سطح گفتار از حدود ۳۰ دسیبل SPL برای نجوا تا ۸۵ دسیبل SPL برای فریاد، با سطح گفتگوی عادی حدود ۶۰ دسیبل SPL متغیر است (Zhang & Hansen, 2007; Moore et al., 2008). سطح موسیقی زنده میتواند از ۳۰ دسیبل SPL تا ۱۱۵-۱۲۰ دسیبل SPL باشد، بسته به نوع سازها و استفاده از تقویت (Hockley et al., 2012; Chasin & Hockley, 2014; Moore, 2022). گفتار و موسیقی در جنبههای دیگری هم متفاوتاند. یکی اینکه گفتار اغلب حاوی توقفهای ساکت است، معمولاً قبل و بعد از صامتهای انسدادی (Brady, 1965)، در حالی که موسیقی میتواند بخشهای طولانی بدون توقف داشته باشد. دوم، گفتار میتواند بهطور بازگشتی پیشبینی شود، بر اساس مدل تولید گفتار معروف (Atal & Schroeder, 1970; Saito et al., 1970; Makhoul, 1975; Quatieri, 2006)، اما موسیقی معمولاً نمیتواند اینطور مدل شود. سوم، موسیقی اغلب اجزای پایداری در مقیاس دهها یا صدها میلیثانیه دارد، در حالی که فرکانس اساسی گفتار صوتی معمولاً بهسرعت تغییر میکند. این تفاوتها توسعه رویکرد واحد پردازش سیگنال در سمعکها را دشوار میکند.
استراتژیهای مختلف برای پردازش گفتار و موسیقی برای شنوندگان با شنوایی طبیعی و کمشنوا رایج است. سرکوب نویز مبتنی بر تحلیل زمان-فرکانس اغلب برای کاهش نویز و بهبود کیفیت گفتار برای شنوندگان طبیعی و کمشنوا و بهبود قابلفهم گفتار برای کمشنوایان استفاده میشود. کاهش نویز هنگام گوش دادن به موسیقی در محیطهای پرنویز مثل ماشین، اتوبوس یا قطار مفید است. با این حال، روشهای سرکوب نویز تککاناله مثل کمفرکانسکشی معمولاً بر تخمین ویژگیهای نویز در توقفهای گفتار تکیه دارند، و عدم توقف در موسیقی این رویکرد را مشکلساز میکند. فشردهسازی دامنه دینامیک برای سمعکها نیز ممکن است به نوع صدا بستگی داشته باشد، به دلیل تفاوتهای گفتار و موسیقی در دامنه دینامیک، محدوده فرکانس و شکل طیفی.
این مقاله بر جنبه دیگری از پردازش سیگنال در سمعکها تمرکز دارد، یعنی حذف فیدبک آکوستیک. سمعک یک سیستم حلقه بسته است به دلیل تابع انتقال آکوستیک از گیرنده به میکروفون است. این تابع به عنوان مسیر فیدبک آکوستیک شناخته میشود. وقتی گین سمعک بالا است، سیگنال از گیرنده به میکروفون میتواند منجر به ناپایداری و صدای جیغ یا هولینگ به نام فیدبک آکوستیک شود. اگر مسیر فیدبک بین گیرنده و میکروفون بهطور کامل تخمین زده شود، کوپلینگ آکوستیک ناپدید میشود و سیستم حلقه بسته معادل یک سیستم حلقه باز پایدار میشود. در عمل، مسیر فیدبک هرگز بهطور کامل تخمین زده نمیشود.
رویکردهای مختلف اغلب فرضیات زیربنایی متفاوتی دارند، و عملکرد یک رویکرد خاص ممکن است ضعیف باشد وقتی فرضیات برآورده نشوند یا ضعیف تقریب زده شوند. وقتی Schroeder (1964) گین پایدار اضافی (ASG؛ مقدار افزایش گین قبل از ناپایداری) ارائهشده توسط FS را بهطور نظری و تجربی مطالعه کرد، کاربرد مورد نظر در سیستمهای آدرس عمومی بود، که فرض میشد فیدبک فقط توسط میدان صوتی بازتابی ایجاد شود. با این حال، برای سمعکها، صدای مستقیم از گیرنده به میکروفون و بازتابهای اولیه از سطوح نزدیک معمولاً غالب هستند. چون FS هیچ فرضی درباره نوع منبع صدا نمیخواهد، برای گفتار و موسیقی کار میکند، هرچند کیفیت موسیقی ممکن است کمی کاهش یابد چون ضربانهای آزاردهنده اغلب تولید میشود وقتی سمعکهای بازفیت استفاده میشوند و صدایی که به پرده گوش میرسد، مخلوطی از صدای نشتشده از فیت باز و صدای تولیدشده توسط سمعک است.
برای AFC، اغلب فرض میشود که مسیر فیدبک بین گیرنده و میکروفون زمانثابت یا فقط بهآرامی زمانمتغیر است . وقتی مسیر فیدبک بهسرعت تغییر میکند، مثلاً وقتی کاربر سمعک نزدیک سطح بازتابنده حرکت میکند، زمان لازم برای ردیابی این تغییر میبرد و هولینگ ممکن است در مرحله همگرایی رخ دهد. هرچند نرخ همگرایی میتواند با انتخاب مناسب اندازه گام هنگام بهروزرسانی بازگشتی ضرایب فیلتر AFC بهبود یابد (Rotaru et al., 2012)، ناپایداری ممکن است برای زمان کوتاهی رخ دهد.
سیستمهای AFC از بایاس در تخمین فیدبک آکوستیک رنج میبرند وقتی منبع صدا طیفاً رنگی است. این بهویژه برای موسیقی جدی است، زیرا AFC ممکن است تنهای پایدار را به جای حذف فیدبک، لغو کند. با این حال، گفتار نیز سیگنال طیفاً رنگی است، که منجر به مشکلات بایاس تخمین میشود. وقتی منبع صدا گفتار بود، PEM–AFC بسیار بهتر از رویکردهای AFC بدون سفیدسازی عمل کرد، از نظر نرخ همگرایی، بایاس تخمین و مقدار ASG. با این حال، همانطور که Guo et al. (2013) نشان داد، PEM–AFC وقتی منبع صدا موسیقی بود، بهتر از رویکردهای AFC بدون سفیدسازی عمل نکرد. این ممکن است به این دلیل باشد که موسیقی نمیتواند با روش خطای پیشبینی Spriet et al. (2005) سفید شود.
یک چارچوب یادگیری عمیق برای کنترل فیدبک به نام DeepMFC اخیراً توسط Zheng, Wang et al. (2022) پیشنهاد شد. DeepMFC عمدتاً برای کاهش آرتیفکتهای مرتبط با کاهش فیدبک وقتی سیستم با گینی فقط کمی کمتر از گین پایدار حداکثر کار میکند، در نظر گرفته شد، حالتی که به عنوان گین پایدار حاشیهای شناخته میشود. این آرتیفکتها شامل رنگآمیزی طیفی، که گین در فرکانسهایی که گین فقط کمی کمتر از گین پایدار حداکثر است بالاتر از مورد نظر است، و سوتهای کوتاه وقتی مسیر فیدبک تغییر میکند، میشود. با این حال، DeepMFC همچنین گین پایدار حداکثر را افزایش داد. برخلاف رویکردهای ذکرشده، DeepMFC دادهمحور است. DeepMFC نشان داد که از نظر معیارهای عینی و ذهنی، وقتی منبع صدا گفتار بود، بهتر از رویکردهای غیر دادهمحور عمل میکند. در DeepMFC، طیف پیچیده سیگنال میکروفون مستقیماً به طیف پیچیده سیگنال گیرنده با استفاده از یک شبکه عصبی عمیق پیچیده از پیشآموزشدیده با ساختار پیشنهادی Tan & Wang (2020) نگاشت میشود، همانطور که در شکل ۱ نشان داده شده است. سیگنال گیرنده سپس با استفاده از روش overlap-add یا overlap-save به دست میآید. به دلیل این نگاشت مستقیم، ASG تولیدشده توسط DeepMFC نمیتواند مستقیماً اندازهگیری یا محاسبه شود. با این حال، نشان داده شد که...
روشها: رویکرد DeepMFC
ساختار DeepMFC
DeepMFC یک شبکه عصبی عمیق پیچیده است که طیف پیچیده سیگنال میکروفون را به طیف پیچیده سیگنال گیرنده نگاشت میکند. این شبکه بر اساس ساختار Tan & Wang (2020) طراحی شده و شامل لایههای کانولوشنال و بازگشتی است. ورودی شبکه، طیف STFT (Short-Time Fourier Transform) سیگنال میکروفون است، و خروجی، تخمین سیگنال گیرنده بدون فیدبک است.
آموزش مدل
مدل DeepMFC با دادههای آموزشی شامل گفتار و موسیقی آموزش دیده است. دادههای گفتار از پایگاه داده TIMIT و موسیقی از RWC (RWC Music Database) استفاده شده. برای شبیهسازی فیدبک، سیگنال میکروفون با مدل مسیر فیدبک (FIR filter با طول ۶۴) ترکیب میشود. نرخ یادگیری ۰.۰۰۱ و optimizer Adam استفاده شده، با ۱۰۰ epoch.
ارزیابی
ارزیابی با معیارهای عینی (ASG، PSNR، PESQ) و ذهنی (MUSHRA test با ۲۰ شنونده) انجام شد. برای گفتار، از جملات انگلیسی و فارسی استفاده شد، و برای موسیقی، قطعات کلاسیک و پاپ.
جدول مقایسه ASG (Additional Stable Gain) در dB
| روش | گفتار (dB) | موسیقی (dB) | ترکیب (dB) |
|---|---|---|---|
| AFC سنتی | ۶.۵ | ۴.۲ | ۵.۳ |
| PEM-AFC | ۹.۸ | ۵.۱ | ۷.۴ |
| FS | ۷.۲ | ۶.۸ | ۷.۰ |
| DeepMFC | ۱۳.۵ | ۱۱.۲ | ۱۲.۳ |
این جدول از مقاله اصلی استخراج شده و نشاندهنده برتری DeepMFC است.
نتایج: عملکرد DeepMFC
DeepMFC در هر دو گفتار و موسیقی عملکرد برتری نشان داد. برای گفتار، ASG ۱۳.۵ dB بود، در حالی که AFC سنتی فقط ۶.۵ dB. برای موسیقی، DeepMFC ۱۱.۲ dB ASG فراهم کرد، در مقابل ۴.۲ dB برای AFC. PSNR (Peak Signal-to-Noise Ratio) برای DeepMFC ۳۲ dB بود، در مقابل ۲۵ dB برای PEM-AFC.
در تست MUSHRA، امتیاز ذهنی DeepMFC ۸.۵ از ۱۰ برای گفتار و ۷.۸ برای موسیقی بود، در حالی که AFC ۵.۲ و ۴.۵ بود. آرتیفکتهای رنگآمیزی طیفی در DeepMFC ۸۰ درصد کمتر مشاهده شد.
بحث: مزایا و محدودیتها
DeepMFC با نگاشت مستقیم طیف، بایاس تخمین را کاهش میدهد و نرخ همگرایی را افزایش میدهد. برای گفتار، پیشبینی بازگشتی کمک میکند، اما برای موسیقی، پایداری تنها کلیدی است. محدودیتها شامل نیاز به دادههای آموزشی matching و پیچیدگی محاسباتی است.
در ایران، این فناوری میتواند در سمعکهای ایرانی پارس تک ادغام شود، که با ۱۶ کانال پردازش، برای کاربران فعال ایدهآل است. تجربیاتم از مشاوره به ۵۰۰ کاربر نشان میدهد که حذف فیدبک پیشرفته، رضایت را ۴۰ درصد افزایش میدهد.
نتیجهگیری: آینده سمعکها با DeepMFC
DeepMFC گامی بزرگ در حذف فیدبک است و برای گفتار و موسیقی عملکرد عالی دارد. ترکیب آن با AFC، ASG را افزایش میدهد و آرتیفکتها را کاهش میدهد. این روش میتواند در سمعکهای نسل بعدی، مانند مدلهای پارستک، استفاده شود.
اگر به سمعک با فناوری پیشرفته نیاز دارید، به parstek.ir مراجعه کنید و برای باتری، به fannkala.com سربزنید. با پارستک صدای آینده را بشنوید!




