آیا فناوری تشخیص گفتار (Speech Recognition) برای احراز هویت دیجیتال کاربرد دارد؟
با افزایش تب بورس، ثبتنام اقشار مختلف مردم برای گرفتن کد بورسی نیز افزایش یافت.
با توجه به حجم بالای تقاضا و با شروع پاندمی کرونا و اشباع کارگزاریها و مراکز احراز هویت، نیاز به راهکار احراز هویت غیرحضوری بیشتر احساس شد. در نهایت با به رسمیت شناخته شدن احراز هویت دیجیتال و غیرحضوری توسط سازمان بورس، راهکارهایی برای احراز هویت الکترونیکی برای دریافت کد بورسی ارائه شد. فناوری استفاده شده در این راهکارها متفاوت از یکدیگر است. از آنجایی که برخی از این راهکارها از فناوری تشخیص گفتار استفاده میکنند در این نوشتار این فناوری و احراز هویت با آن را مورد بررسی قرار دادیم.
فناوری تشخیص گفتار (Speech Recognition) چیست؟
فناوری تشخیص گفتار، امکانی است که تشخیص و فهم کلمات ادا شده به دستگاهها را فراهم میکند. به این صورت که در این فناوری، کلمات به الگویی از اعداد دیجیتال تبدیل میشود و هنگامی که همان کلمات توسط شخص گوینده ادا میشود این کلمات با همان الگوریتم قبلی به الگوی دیجیتال تبدیل میشود و با الگوی از پیش ذخیره شده پیشفرض، مقایسه میشود. در صورت تطابق الگوی کلمات ایراد شده توسط مشتری با الگوی پیش فرض که توسط سیستم احراز هویت ذخیره شدهاند، اجازه دسترسی به او صادر میشود.
با این فناوری، بر خلاف فناوری تشخیص صدا (Voice Recognition) نمیتوان شخص گوینده کلمات را تشخیص داد و صرفا میتوان کلمات بیان شده را با الگوی پیشفرض آنها مقایسه کرد و تطابق آنها را بررسی کرد.
تفاوت فناوریهای تشخیص گفتار (Speech Recognition) و تشخیص صدا (Voice Recognition)
عملکرد تشخیص صدا با تشخیص گفتار متفاوت است. فناوری تشخیص گفتار، کلمات ادا شده توسط مشتری را با کلمات از پیش ذخیره شده مقایسه میکند. اما در فناوری تشخیص صدا، الگوی صدای مشتری عامل اصلی احراز هویت او است.
فناوری تشخیص صدا، تن صدا و انعکاس امواج آن را با توجه به ساختار استخوان فک و صورت شخص، اسکن میکند. این اسکن شامل ویژگیهای فیزیولوژیکی مانند اندازه و شکل دهان و گلو و الگوهای رفتاری اشخاص مانند تن صدا، لهجه، سبک صحبت کردن و برخی ویژگیهای دیگر است.
در واقع، تشخیص گفتار، شناسایی کلمات از طریق مقایسه با کلمات پیشفرض است. درحالی که رویکرد تشخیص صدا، شناسایی اشخاص از روی ویژگیها و الگوهای رفتاری صدا است. اهمیت این مسئله زمانی آشکار میشود که بخواهیم برای هر شخص، الگوی صوتی منحصر بفردی را ذخیره کنیم و برای احراز هویت کاربران یا مشتریان از این الگوها استفاده کنیم. وجود الگوی منحصر بفرد از صدای همه مشتریان یک بانک یا موسسه مالی، امنیت اطلاعات حساس آنها را بالا خواهد برد. در حالی که در مورد تشخیص گفتار چنین نیست.
دلیل ناکارآمدی تشخیص گفتار در احراز هویت چیست؟
در فناوری تشخیص گفتار، الگوی منحصر بفردی از صدای اشخاص و کاربران ایجاد و ذخیره نمیشود و فقط به تلفظ صحیح کلمات از طریق مقایسه با الگوی اولیه توجه میشود. در صورت استفاده از فناوری تشخیص گفتار به عنوان لایه امنیتی برای احراز هویت، هر شخصی میتواند به جای کاربر مورد نظر، کلمات را به درستی ادا کند و از لایه امنیتی به راحتی عبور نماید. با توجه به پیشرفت روزافزون هوش مصنوعی، امروزه برخی نرمافزارهای مبتنی بر هوش مصنوعی نیز توانایی تلفظ صحیح کلمات نمایش داده شده را دارند. بنابراین استفاده از این فناوری برای احراز هویت دیجیتال، استفاده از این فناوری برای احراز هویت، خطای امنیتی بزرگی محسوب میشود.
راهکارهایی که از این فناوری برای احراز هویت دیجیتال استفاده میکنند مجبور هستند برای پوشش خطای امنیتی آن از دیگر لایههای امنیتی مانند تلفیق این فناوری با Call Center ویدیویی استفاده کنند. به این صورت که همزمان یا بعد از استفاده از فناوری تشخیص گفتار و تایید تطابق کلمات خوانده شده کاربر با کلمات از پیش ذخیره شده، کاربر یک ویدیوی سلفی گرفته و این ویدیو توسط اپراتور انسانی بررسی و تایید میگردد. روش Call Center معایب زیادی دارد که چند نمونه از مهمترین آنها عبارتند از:
- افزایش احتمال خطا توسط نیروی انسانی
- مشکلات امنیت و حریم خصوصی مشتریان و در نتیجه کاهش اعتماد آنها
- هزینههای اضافی برای احراز هویت
بیومتریک صوت برای احراز هویت؛ تشخیص صدا یا تشخیص گفتار
به طور کلی امنیت تشخیص صدا بیشتر از تشخیص گفتار است. استفاده از تشخیص صدا در فرایند احراز هویت به جای تشخیص گفتار، علاوه بر بهبود نسبی سطح امنیت، باعث ایجاد الگوی منحصر به فردی از صدای کاربران و مشتریان میشود. البته بیومتریک صوت در احراز هویت غیرحضوری برای اولین بار کاربردی ندارد. و صرفا به کمک این الگوی صدا که منحصر به خود هر کاربر است، میتوان در مراجعههای بعدی آنها را شناسایی کرد.
به این صورت که الگوی اولیهای از صدای کاربر در سیستم شناسایی هویت ذخیره میشود و در مراجعات بعدی او، الگوی صدای فرد مراجعه کننده توسط سیستم احراز هویت، با الگویی که توسط سیستم شناسایی هویت ثبت شده، مقایسه شده و در صورت تطابق الگوها، اجازه دسترسی به کاربر مورد نظر داده میشود.
درکل با اینکه فناوری تشخیص صدا در احراز هویت امنیت بالایی دارد ولی احراز هویت به صورت کاملا دیجیتال با استفاده از بیومتریک صدا امکانپذیر نیست و فارغ از مسئله ضعف امنیتی آن، دو نقص دیگر دارد:
1) در سیستم احراز هویت با بیومتریک صوت، شخص حداقل برای بار اول باید با مراجعه حضوری خود، الگوی صدای خود را به سیستم احراز هویت وارد کند تا در دفعات بعد بتوان با مقایسه صدای آن شخص با الگوی اولیه ذخیره شده در سیستم، فرد را احراز هویت کرد.
2) در احراز هویت بیومتریک صدا، امکان بررسی زنده بودن شخص در لحظه ضبط صوت خود وجود ندارد یا با ضعف مواجه است و نمیتوان بررسی کرد که آیا شخص احراز شونده در لحظه احراز هویت، صدای خود را ضبط کرده است یا شخص دیگری از نوار صوتی آن، ضبط مجدد کرده است.
نقص ترکیب فناوری تشخیص گفتار با اپراتور انسانی
با این اوصاف و با توجه به دیجیتالیزه شدن جنبههای امنیت به دلیل دقت بالا، استفاده از ترکیب تشخیص گفتار و اپراتور انسانی برای احراز هویت روش کارآمدی نیست. روشهای به روزتر، سریعتر و دقیقتر به جای اپراتورهای انسانی معقولتر به نظر میرسد. استفاده از تشخیص گفتار برای احراز هویت که روش مورد استفاده برخی راهکارهای احراز هویت در کشور است، باعث ایجاد ذهنیت نادرست از احراز هویت دیجیتال بین مردم و مسئولان میشود و در صورت مشاهده ضعف امنیتی آن باعث عدم اعتماد مردم به احراز هویت دیجیتال میشود.