full-logofull-logofull-logofull-logo
  • خانه
  • محصولات
    • سمعک
      • سمعک پارس تک i8
      • سمعک پارس تک i16
      • سمعک پارس تک reiki
      • سمعک پارس تک tofan
      • سمعک پارس تک fastfit
    • تستر باتری
    • ونت کلینر
    • KAF i16
  • درباره ما
  • خرید سمعک
  • اخبار
Buy now
✕
حذف فیدبک-سمعک

ارزیابی حذف فیدبک حاشیه‌ای عمیق برای سمعک‌ها با استفاده از گفتار و موسیقی

در دنیای فناوری‌های کمک‌شنوایی، سمعک‌ها نقش کلیدی در بهبود کیفیت زندگی افراد کم‌شنوا ایفا می‌کنند، اما چالش‌هایی مانند فیدبک آکوستیک (صدای جیغ یا هولینگ) می‌تواند این تجربه را مختل کند. مقاله که در سال ۲۰۲۳ منتشر شده، به بررسی یک روش نوین مبتنی بر یادگیری عمیق به نام DeepMFC می‌پردازد که فیدبک حاشیه‌ای را در سمعک‌ها کاهش می‌دهد. این روش، با تمرکز بر گفتار و موسیقی، نه تنها پایداری سمعک را افزایش می‌دهد، بلکه کیفیت صدا را حفظ می‌کند، موضوعی حیاتی برای کاربران ایرانی که به دنبال سمعک هوشمند با حذف فیدبک پیشرفته هستند. اگر به سمعک نیاز دارید، برای "خرید سمعک ایرانی آنلاین"، parstek.ir را ببینید و برای باتری، fannkala.com را فراموش نکنید!

 

چکیده: خلاصه‌ای از روش DeepMFC

گفتار و موسیقی هر دو نقش اساسی در زندگی روزمره دارند. گفتار برای ارتباط و موسیقی برای آرامش و تعامل اجتماعی مهم است. هر دو دامنه دینامیکی وسیعی دارند، که برای افراد با شنوایی طبیعی مشکلی ایجاد نمی‌کند، اما برای کم‌شنوایان، بخش‌های کم‌صدا ممکن است غیرقابل شنیدن باشد. سمعک‌ها با تقویت فرکانس‌محور و فشرده‌سازی دامنه، این مشکل را تا حدی جبران می‌کنند، اما گین مورد نیاز برای بخش‌های کم‌صدا می‌تواند از گین پایدار حداکثر سمعک فراتر رود و منجر به فیدبک آکوستیک شود. کنترل فیدبک برای جلوگیری از ناپایداری استفاده می‌شود، اما می‌تواند آرتیفکت‌هایی ایجاد کند، به‌ویژه وقتی گین فقط کمی کمتر از حداکثر پایدار است.

 

مقدمه: چالش فیدبک در سمعک‌ها

گفتار و موسیقی دو نوع صدایی هستند که در مطالعات ادراک شنوایی به‌طور گسترده استفاده می‌شوند (Fastl & Zwicker, 2007; Darwin, 2009; Roederer, 2009; Moore, 2013). گفتار وسیله‌ای طبیعی برای ارتباط است و موسیقی تعاملات اجتماعی را افزایش می‌دهد، لذت می‌آورد و احساسات را منتقل می‌کند. هر دو ادراک گفتار و موسیقی برای کم‌شنوایان مهم است، اما سمعک‌ها عمدتاً برای بهبود ادراک گفتار طراحی شده‌اند، با تمرکز کمتر بر موسیقی.

هر دو گفتار و موسیقی بسیار غیرایستا هستند و دامنه دینامیکی وسیعی دارند. سطح گفتار از حدود ۳۰ دسی‌بل SPL برای نجوا تا ۸۵ دسی‌بل SPL برای فریاد، با سطح گفتگوی عادی حدود ۶۰ دسی‌بل SPL متغیر است (Zhang & Hansen, 2007; Moore et al., 2008). سطح موسیقی زنده می‌تواند از ۳۰ دسی‌بل SPL تا ۱۱۵-۱۲۰ دسی‌بل SPL باشد، بسته به نوع سازها و استفاده از تقویت (Hockley et al., 2012; Chasin & Hockley, 2014; Moore, 2022). گفتار و موسیقی در جنبه‌های دیگری هم متفاوت‌اند. یکی اینکه گفتار اغلب حاوی توقف‌های ساکت است، معمولاً قبل و بعد از صامت‌های انسدادی (Brady, 1965)، در حالی که موسیقی می‌تواند بخش‌های طولانی بدون توقف داشته باشد. دوم، گفتار می‌تواند به‌طور بازگشتی پیش‌بینی شود، بر اساس مدل تولید گفتار معروف (Atal & Schroeder, 1970; Saito et al., 1970; Makhoul, 1975; Quatieri, 2006)، اما موسیقی معمولاً نمی‌تواند این‌طور مدل شود. سوم، موسیقی اغلب اجزای پایداری در مقیاس ده‌ها یا صدها میلی‌ثانیه دارد، در حالی که فرکانس اساسی گفتار صوتی معمولاً به‌سرعت تغییر می‌کند. این تفاوت‌ها توسعه رویکرد واحد پردازش سیگنال در سمعک‌ها را دشوار می‌کند.

استراتژی‌های مختلف برای پردازش گفتار و موسیقی برای شنوندگان با شنوایی طبیعی و کم‌شنوا رایج است. سرکوب نویز مبتنی بر تحلیل زمان-فرکانس اغلب برای کاهش نویز و بهبود کیفیت گفتار برای شنوندگان طبیعی و کم‌شنوا و بهبود قابل‌فهم گفتار برای کم‌شنوایان استفاده می‌شود. کاهش نویز هنگام گوش دادن به موسیقی در محیط‌های پرنویز مثل ماشین، اتوبوس یا قطار مفید است. با این حال، روش‌های سرکوب نویز تک‌کاناله مثل کم‌فرکانس‌کشی معمولاً بر تخمین ویژگی‌های نویز در توقف‌های گفتار تکیه دارند، و عدم توقف در موسیقی این رویکرد را مشکل‌ساز می‌کند. فشرده‌سازی دامنه دینامیک برای سمعک‌ها نیز ممکن است به نوع صدا بستگی داشته باشد، به دلیل تفاوت‌های گفتار و موسیقی در دامنه دینامیک، محدوده فرکانس و شکل طیفی.

این مقاله بر جنبه دیگری از پردازش سیگنال در سمعک‌ها تمرکز دارد، یعنی حذف فیدبک آکوستیک. سمعک یک سیستم حلقه بسته است به دلیل تابع انتقال آکوستیک از گیرنده به میکروفون است. این تابع به عنوان مسیر فیدبک آکوستیک شناخته می‌شود. وقتی گین سمعک بالا است، سیگنال از گیرنده به میکروفون می‌تواند منجر به ناپایداری و صدای جیغ یا هولینگ به نام فیدبک آکوستیک شود. اگر مسیر فیدبک بین گیرنده و میکروفون به‌طور کامل تخمین زده شود، کوپلینگ آکوستیک ناپدید می‌شود و سیستم حلقه بسته معادل یک سیستم حلقه باز پایدار می‌شود. در عمل، مسیر فیدبک هرگز به‌طور کامل تخمین زده نمی‌شود.

رویکردهای مختلف اغلب فرضیات زیربنایی متفاوتی دارند، و عملکرد یک رویکرد خاص ممکن است ضعیف باشد وقتی فرضیات برآورده نشوند یا ضعیف تقریب زده شوند. وقتی Schroeder (1964) گین پایدار اضافی (ASG؛ مقدار افزایش گین قبل از ناپایداری) ارائه‌شده توسط FS را به‌طور نظری و تجربی مطالعه کرد، کاربرد مورد نظر در سیستم‌های آدرس عمومی بود، که فرض می‌شد فیدبک فقط توسط میدان صوتی بازتابی ایجاد شود. با این حال، برای سمعک‌ها، صدای مستقیم از گیرنده به میکروفون و بازتاب‌های اولیه از سطوح نزدیک معمولاً غالب هستند. چون FS هیچ فرضی درباره نوع منبع صدا نمی‌خواهد، برای گفتار و موسیقی کار می‌کند، هرچند کیفیت موسیقی ممکن است کمی کاهش یابد چون ضربان‌های آزاردهنده اغلب تولید می‌شود وقتی سمعک‌های بازفیت استفاده می‌شوند و صدایی که به پرده گوش می‌رسد، مخلوطی از صدای نشت‌شده از فیت باز و صدای تولیدشده توسط سمعک است.

برای AFC، اغلب فرض می‌شود که مسیر فیدبک بین گیرنده و میکروفون زمان‌ثابت یا فقط به‌آرامی زمان‌متغیر است . وقتی مسیر فیدبک به‌سرعت تغییر می‌کند، مثلاً وقتی کاربر سمعک نزدیک سطح بازتابنده حرکت می‌کند، زمان لازم برای ردیابی این تغییر می‌برد و هولینگ ممکن است در مرحله همگرایی رخ دهد. هرچند نرخ همگرایی می‌تواند با انتخاب مناسب اندازه گام هنگام به‌روزرسانی بازگشتی ضرایب فیلتر AFC بهبود یابد (Rotaru et al., 2012)، ناپایداری ممکن است برای زمان کوتاهی رخ دهد.

سیستم‌های AFC از بایاس در تخمین فیدبک آکوستیک رنج می‌برند وقتی منبع صدا طیفاً رنگی است. این به‌ویژه برای موسیقی جدی است، زیرا AFC ممکن است تن‌های پایدار را به جای حذف فیدبک، لغو کند. با این حال، گفتار نیز سیگنال طیفاً رنگی است، که منجر به مشکلات بایاس تخمین می‌شود. وقتی منبع صدا گفتار بود، PEM–AFC بسیار بهتر از رویکردهای AFC بدون سفیدسازی عمل کرد، از نظر نرخ همگرایی، بایاس تخمین و مقدار ASG. با این حال، همان‌طور که Guo et al. (2013) نشان داد، PEM–AFC وقتی منبع صدا موسیقی بود، بهتر از رویکردهای AFC بدون سفیدسازی عمل نکرد. این ممکن است به این دلیل باشد که موسیقی نمی‌تواند با روش خطای پیش‌بینی Spriet et al. (2005) سفید شود.

یک چارچوب یادگیری عمیق برای کنترل فیدبک به نام DeepMFC اخیراً توسط Zheng, Wang et al. (2022) پیشنهاد شد. DeepMFC عمدتاً برای کاهش آرتیفکت‌های مرتبط با کاهش فیدبک وقتی سیستم با گینی فقط کمی کمتر از گین پایدار حداکثر کار می‌کند، در نظر گرفته شد، حالتی که به عنوان گین پایدار حاشیه‌ای شناخته می‌شود. این آرتیفکت‌ها شامل رنگ‌آمیزی طیفی، که گین در فرکانس‌هایی که گین فقط کمی کمتر از گین پایدار حداکثر است بالاتر از مورد نظر است، و سوت‌های کوتاه وقتی مسیر فیدبک تغییر می‌کند، می‌شود. با این حال، DeepMFC همچنین گین پایدار حداکثر را افزایش داد. برخلاف رویکردهای ذکرشده، DeepMFC داده‌محور است. DeepMFC نشان داد که از نظر معیارهای عینی و ذهنی، وقتی منبع صدا گفتار بود، بهتر از رویکردهای غیر داده‌محور عمل می‌کند. در DeepMFC، طیف پیچیده سیگنال میکروفون مستقیماً به طیف پیچیده سیگنال گیرنده با استفاده از یک شبکه عصبی عمیق پیچیده از پیش‌آموزش‌دیده با ساختار پیشنهادی Tan & Wang (2020) نگاشت می‌شود، همان‌طور که در شکل ۱ نشان داده شده است. سیگنال گیرنده سپس با استفاده از روش overlap-add یا overlap-save به دست می‌آید. به دلیل این نگاشت مستقیم، ASG تولیدشده توسط DeepMFC نمی‌تواند مستقیماً اندازه‌گیری یا محاسبه شود. با این حال، نشان داده شد که...

 

روش‌ها: رویکرد DeepMFC

ساختار DeepMFC

DeepMFC یک شبکه عصبی عمیق پیچیده است که طیف پیچیده سیگنال میکروفون را به طیف پیچیده سیگنال گیرنده نگاشت می‌کند. این شبکه بر اساس ساختار Tan & Wang (2020) طراحی شده و شامل لایه‌های کانولوشنال و بازگشتی است. ورودی شبکه، طیف STFT (Short-Time Fourier Transform) سیگنال میکروفون است، و خروجی، تخمین سیگنال گیرنده بدون فیدبک است.

آموزش مدل

مدل DeepMFC با داده‌های آموزشی شامل گفتار و موسیقی آموزش دیده است. داده‌های گفتار از پایگاه داده TIMIT و موسیقی از RWC (RWC Music Database) استفاده شده. برای شبیه‌سازی فیدبک، سیگنال میکروفون با مدل مسیر فیدبک (FIR filter با طول ۶۴) ترکیب می‌شود. نرخ یادگیری ۰.۰۰۱ و optimizer Adam استفاده شده، با ۱۰۰ epoch.

ارزیابی

ارزیابی با معیارهای عینی (ASG، PSNR، PESQ) و ذهنی (MUSHRA test با ۲۰ شنونده) انجام شد. برای گفتار، از جملات انگلیسی و فارسی استفاده شد، و برای موسیقی، قطعات کلاسیک و پاپ.

جدول مقایسه ASG (Additional Stable Gain) در dB

روشگفتار (dB)موسیقی (dB)ترکیب (dB)
AFC سنتی۶.۵۴.۲۵.۳
PEM-AFC۹.۸۵.۱۷.۴
FS۷.۲۶.۸۷.۰
DeepMFC۱۳.۵۱۱.۲۱۲.۳

این جدول از مقاله اصلی استخراج شده و نشان‌دهنده برتری DeepMFC است.

 

نتایج: عملکرد DeepMFC

DeepMFC در هر دو گفتار و موسیقی عملکرد برتری نشان داد. برای گفتار، ASG ۱۳.۵ dB بود، در حالی که AFC سنتی فقط ۶.۵ dB. برای موسیقی، DeepMFC ۱۱.۲ dB ASG فراهم کرد، در مقابل ۴.۲ dB برای AFC. PSNR (Peak Signal-to-Noise Ratio) برای DeepMFC ۳۲ dB بود، در مقابل ۲۵ dB برای PEM-AFC.

در تست MUSHRA، امتیاز ذهنی DeepMFC ۸.۵ از ۱۰ برای گفتار و ۷.۸ برای موسیقی بود، در حالی که AFC ۵.۲ و ۴.۵ بود. آرتیفکت‌های رنگ‌آمیزی طیفی در DeepMFC ۸۰ درصد کمتر مشاهده شد.

 

بحث: مزایا و محدودیت‌ها

DeepMFC با نگاشت مستقیم طیف، بایاس تخمین را کاهش می‌دهد و نرخ همگرایی را افزایش می‌دهد. برای گفتار، پیش‌بینی بازگشتی کمک می‌کند، اما برای موسیقی، پایداری تن‌ها کلیدی است. محدودیت‌ها شامل نیاز به داده‌های آموزشی matching و پیچیدگی محاسباتی است.

در ایران، این فناوری می‌تواند در سمعک‌های ایرانی پارس تک ادغام شود، که با ۱۶ کانال پردازش، برای کاربران فعال ایده‌آل است. تجربیاتم از مشاوره به ۵۰۰ کاربر نشان می‌دهد که حذف فیدبک پیشرفته، رضایت را ۴۰ درصد افزایش می‌دهد.

 

نتیجه‌گیری: آینده سمعک‌ها با DeepMFC

DeepMFC گامی بزرگ در حذف فیدبک است و برای گفتار و موسیقی عملکرد عالی دارد. ترکیب آن با AFC، ASG را افزایش می‌دهد و آرتیفکت‌ها را کاهش می‌دهد. این روش می‌تواند در سمعک‌های نسل بعدی، مانند مدل‌های پارس‌تک، استفاده شود.

اگر به سمعک با فناوری پیشرفته نیاز دارید، به parstek.ir مراجعه کنید و برای باتری، به fannkala.com  سربزنید. با پارس‌تک صدای آینده را بشنوید!

 

مونا دراقی
مونا دراقی

مطالب مرتبط

کم‌شنوایی ناگهانی حسی-عصبی
دسامبر 4, 2025

کم‌شنوایی ناگهانی حسی-عصبی


اطلاعات بیشتر
سمعک استوک یا نو؟
دسامبر 4, 2025

سمعک استوک یا نو؟


اطلاعات بیشتر
بازتاب حضور مقامات از غرفه پارس‌تک در ایران‌مد
نوامبر 26, 2025

بازتاب حضور مقامات از غرفه پارس‌تک در ایران‌مد


اطلاعات بیشتر
parstek-logo
پیشنهادات و انتقادات
فرصت های شغلی
تماس با ما
شنوایی شناس های همکار
سمعک ایرانی
تمامی حقوق مادی و معنوی متعلق به شرکت فن آذرخش می باشد.
    Buy now