پردازش صوت یا پردازش گفتار چیست؟
فناوری تشخیص گفتار نرمافزاری است که قادر است صوت را به متن تبدیل کند. فناوری تشخیص گفتار به رایانهای که توانایی دریافت صدا را دارد برای مثال به یک میکروفن مجهز است این قابلیت را میدهد که صحبت کاربر را متوجه شود٫این فناوری در تبدیل گفتار به متن یا به عنوان جایگزین برای ارتباط با رایانه کاربرد دارد. برقراری ارتباط گفتاری با رایانهها به جای استفاده از صفحه کلید و ماوس یکی از زمینههای تحقیقاتی مهم چند دههٔ اخیر است و شرکتهای بزرگی چون مایکروسافت ٫فیلیپس ٫ ای ال ای تی ٫ ای بی ام ٫ و سایر شرکت هایی که به شرکت هوش مصنوعی موسوم هستند سالانه هزینههای هنگفتی را برای این منظور پرداخت کرده و میکنند.
زمینه های استفاده از پردازش صوت
مناسب برای:
- حذف کردن تایپ کردن
- دستیار های صوتی مانند سیری و الکسا
- دستورات صوتی تلفن همراه
پردازش گفتار
تحلیل گفتار و تبدیل گفتار به متن و متن ب گفتار
پردازش صوت
تحلیل و تشخیص انواع صوت و محاسبه موارد خواسته شده توسط الگوریتم
پردازش صوت یا پردازش گفتار مطالعه سیگنال های گفتار و روش های پردازش سیگنال ها است. سیگنال ها معمولاً در یک نمایش دیجیتال پردازش می شوند، بنابراین پردازش گفتار را می توان به عنوان یک مورد خاص از پردازش سیگنال دیجیتال در نظر گرفت که برای سیگنال های گفتاری اعمال می شود. جنبه های پردازش گفتار شامل اکتساب، دستکاری، ذخیره سازی، انتقال و خروجی سیگنال های گفتار است. ورودی را تشخیص گفتار و خروجی را سنتز گفتار می نامند.
تکنیک های پردازش صوت
تاب خوردگی زمانی پویا
تاب خوردگی زمانی پویا (DTW) الگوریتمی برای اندازهگیری شباهت بین دو دنباله زمانی است که ممکن است سرعت آنها متفاوت باشد. به طور کلی، DTW روشی است که تطابق بهینه بین دو دنباله داده شده (مثلا سری زمانی) را با محدودیت ها و قوانین خاص محاسبه می کند. تطابق بهینه با تطابقی نشان داده میشود که تمام محدودیتها و قوانین را برآورده میکند و حداقل هزینه را دارد، که در آن هزینه به عنوان مجموع تفاوتهای مطلق، برای هر جفت از شاخصهای همسان، بین مقادیرشان محاسبه میشود.
مدل های پنهان مارکوف
یک مدل مارکوف پنهان را می توان به عنوان ساده ترین شبکه بیزی پویا نشان داد. هدف الگوریتم تخمین متغیر پنهان x(t) با توجه به لیستی از مشاهدات y(t) است. با اعمال ویژگی مارکوف، توزیع احتمال شرطی متغیر پنهان x(t) در زمان t، با توجه به مقادیر متغیر پنهان x در هر زمان، تنها به مقدار متغیر پنهان x(t − 1) بستگی دارد. به طور مشابه، مقدار متغیر مشاهده شده y(t) فقط به مقدار متغیر پنهان x(t) (هر دو در زمان t) بستگی دارد.
شبکه های عصبی مصنوعی
یک شبکه عصبی مصنوعی (ANN) مبتنی بر مجموعهای از واحدها یا گرههای متصل به نام نورونهای مصنوعی است که نورونها را در یک مغز بیولوژیکی مدلسازی میکنند. هر اتصال، مانند سیناپس های یک مغز بیولوژیکی، می تواند سیگنالی را از یک نورون مصنوعی به نورون دیگر منتقل کند. یک نورون مصنوعی که سیگنالی را دریافت می کند می تواند آن را پردازش کند و سپس به نورون های مصنوعی اضافی متصل به آن سیگنال دهد. در پیاده سازی های رایج ANN، سیگنال در اتصال بین نورون های مصنوعی یک عدد واقعی است و خروجی هر نورون مصنوعی توسط یک تابع غیرخطی از مجموع ورودی های آن محاسبه می شود.
اساساً، یادگیری ماشینی علمی است که با استفاده از آن می توان به ماشین ها از طریق الگوریتم ها یاد داد که چگونه تصمیم گیری کنند. یعنی به جای اینکه یک نرم افزار به صورت دقیق برنامه ریزی شود تا کار خاصی را انجام دهد با استفاده از الگوریتم ها یاد میگیرد که چگونه تصمیم گیری کند و به پاسخ دست پیدا کند.
یادگیری ماشین در بسیاری زمینهها از جمله مهندسی، کسب و کار، زبانشناسی و پزشکی کاربرد دارد. یادگیری ماشینی در بسیاری جنبههای زندگی روزمره وارد شده است. برای نمونه، موتورهای جستجوی اینترنتی در گوگل یا بینگ از یادگیری ماشینی استفاده میکنند، چرا که نرمافزار یادگیری ماشین آنها چگونگی رتبهبندی برای یک صفحه وب را درک کردهاست.