پژوهشگران دانشگاه «کرنل» موفق به ساخت عینکهایی شدهاند که ارتباط صوتی بدون کلام را ممکن میسازد.
به گزارش ایسنا و به نقل از نیواطلس، پژوهشگران دانشگاه «کرنل» فناوری جدیدی را توسعه دادهاند که امکان برقراری ارتباط بیصدا را از طریق عینکهای سونار فراهم میکند.
این عینک موسوم به EchoSpeech از میکروفونها و بلندگوهای کوچکی برای خواندن کلماتی استفاده میکند که به شکل بیصدا از گلوی کاربر بیرون میآید و به کاربر اجازه میدهد تا کارهای مختلف را بدون نیاز به هرگونه ورودی فیزیکی انجام دهد.
اکنون یکی از هیجانانگیزترین چشماندازهای این فناوری جدید این است که افراد مبتلا به ناتوانی گفتاری از آن برای گفتگوی بیصدا استفاده کنند که سپس این سیستم کلمات را با صدای بلند بیان میکند. این عینک همچنین میتواند برای کنترل پخش موسیقی در یک کتابخانه یا برای تبدیل گفتار به نوشتار در یک کنسرت پر سر و صدا که صدا به صدا نمیرسد، استفاده شود.
این فناوری توسط یک دانشجوی دکترا در دانشگاه کرنل به نام رویدونگ ژانگ (Ruidong Zhang) و از پروژه مشابهی که از هدفون بیسیم و مدلهای قبلی متکی به دوربین استفاده میکرد، توسعه داده شده است.
این عینک به گونهای طراحی شده است که ساده باشد و کاربر را با یک دوربین بزرگ یا استفاده از هدفون مواجه نکند.
در عوض، این عینک از سونار (Sonar) به معنی ناوبری و فاصلهیابی صوتی برای حس کردن حرکات گلو استفاده میکند و در عین حال از الگوریتم یادگیری عمیق برای تجزیه و تحلیل پژواکها در لحظه استفاده میکند. این کار به سیستم اجازه میدهد تا به دقت ۹۵ درصدی در تشخیص کلماتی که بیصدا توسط کاربر تلفظ میشوند، دست یابد.
سونار یا ناوبری و فاصلهیابی صوتی در اصل به یک دستگاه ردیاب زیردریایی گفته میشود که طرز کار آن استفاده از انتشار امواج صوتی است و علاوه بر ردیابی، معمولاً به منظور ناوبری و ارتباط با دیگر یگانهای شناور و زیرآبی نیز استفاده میشود.
خفاشها به منظور حرکت کردن و تعیین مسیر و شکار حشرات در تاریکی مطلق، یک سامانه با قدمت بیش از ۶۰ میلیون ساله دارند که بر هر سامانه ناوبری که تاکنون به وسیله فناوری تولید شده برتری دارد. آنها با فریاد زدن در فرکانسهای فراصوت (معمولاً بالای ۲۰ کیلوهرتز) میتوانند صداهای منعکسشده از اشیاء اطرافشان را تشخیص دهند و آنها را به صورت یک «تصویر صوتی» تفسیر کنند. این بسیار موضوع پیچیدهای است که آنها میتوانند در سرعتهای بالا پرواز کنند و در مسیرشان از همه موانع اجتناب کنند و حتی حشرات کوچک را از فاصله چند متری تشخیص دهند.
بانگها و صداهای مافوق صوتی که در حنجره خفاشها تولید میشود، برای شناسایی محیط اطرافشان و همچنین برای پیدا کردن غذا کارآمد و دقیق است.
دو بلندگوی مینیاتوری در قسمت زیرین قاب عینک و زیر یک لنز نصب شدهاند، در حالی که دو میکروفون کوچک در زیر لنز دیگر قرار گرفتهاند. این بلندگوها امواج صوتی غیر قابل شنیدن را منتشر میکنند که از دهان کاربر منعکس میشود و به سمت میکروفون برمیگردد.
این پژواکها در لحظه توسط یک الگوریتم یادگیری عمیق در تلفن هوشمند متصل به صورت بیسیم تجزیه و تحلیل میشوند. این الگوریتم برای مرتبط ساختن پژواکهای خاص با حرکات خاص دهان آموزش داده میشود.
این فناوری به گونهای طراحی شده است که نُقلی، کم مصرف و حساس به حریم خصوصی باشد و هیچ دادهای از تلفن کاربر خارج نشود. به این ترتیب، هیچ نگرانی در مورد حریم خصوصی وجود نخواهد داشت.
این عینک همچنین دارای حالتی است که نیاز به رو به رو شدن با دوربین یا قرار دادن چیزی در گوش کاربر را برطرف میکند؛ بنابراین نسبت به سایر فناوریهای تشخیص گفتار بیصدا عملیتر و دردسترستر است.
به گفته چنگ ژانگ استادیار علوم اطلاعات درد انشگاه کرنل، بیشتر فناوریها در تشخیص بیصدای گفتار به مجموعهای از دستورات از پیش تعیین شده محدود میشود و کاربر را ملزم میکند با دوربین روبرو شود یا آن را بپوشد که نه عملی است و نه امکانپذیر. ما در حال تحقق سونار روی بدن هستیم.
پژوهشگران میگویند، این سیستم تنها به چند دقیقه داده آموزشی برای یادگیری الگوهای گفتار کاربر نیاز دارد و پس از آماده شدن برای کار، امواج صوتی را در سراسر صورت کاربر ارسال و دریافت میکند و حرکات دهان را حس میکند و در عین حال از الگوریتم یادگیری عمیق برای تجزیه و تحلیل پژواکها استفاده میکند.
عینک EchoSpeech در حال حاضر قادر است ۳۱ دستور را با دقت ۹۵ درصدی تشخیص دهد.
نسخه فعلی این عینک از آنجایی که از یک دوربین پرقدرت استفاده نمیکند، حدود ۱۰ ساعت عمر باتری ارائه میدهد و پردازش دادهها را به صورت بیسیم در تلفن هوشمند کاربر انجام میدهد تا همینطور کوچک و بدون مزاحمت باقی بماند. این در حالی است که سازندگان آن ادعا میکنند که سیستمهای مبتنی بر دوربین با هر بار شارژ تنها برای حدود ۳۰ دقیقه کار میکنند.
تیم آزمایشگاه رابطهای رایانهای هوشمند برای تعاملات آینده (SciFi) در دانشگاه کرنل در حال بررسی تجاریسازی این فناوری با استفاده از برنامه تأمین مالی این دانشگاه است. آنها همچنین به دنبال کاربردهای این عینک هوشمند برای ردیابی حرکات صورت، چشم و بالاتنه هستند.
چنگ ژانگ میگوید: ما فکر میکنیم عینک یک سکوی محاسبات شخصی مهم برای درک فعالیتهای انسان در تنظیمات روزمره خواهد بود.
همانطور که اشاره شد، این سیستم برای افرادی که نگرانیهای مربوط به حفظ حریم خصوصی دارند، هیچ دوربینی را در خود جای نداده است و هیچ اطلاعاتی را به اینترنت ارسال نمیکند.
به طور کلی، عینکهای سوناری که پژوهشگران دانشگاه کرنل ساختهاند، یک پیشرفت مهم در فناوری تشخیص گفتار بیصدا است. این عینک با توانایی تشخیص طیف گستردهای از کلمات و عبارات میتواند نحوه تعامل ما با تکنولوژی و یکدیگر را متحول کند.
پژوهشگران این دانشگاه در حال حاضر روی تجاریسازی این فناوری کار میکنند.
رویدونگ ژانگ میگوید: این فناوری برای افرادی که نمیتوانند صحبت کنند، گفتار بیصدا را فراهم میکند. در واقع میتواند صدای بیماران را بازگرداند.
گفتنی است که آزمایشگاه SciFi در دانشگاه کرنل قبلاً یک سیستم مشابه به نام EarIO را توسعه داده بود که از یک دستگاه مجهز به سونار برای ثبت حالات چهره کاربر استفاده میکرد.