آیا فناوری تشخیص گفتار (Speech Recognition) برای احراز هویت دیجیتال کاربرد دارد؟

در ۲ مهر , ۱۳۹۹

با افزایش تب بورس، ثبت‌نام اقشار مختلف مردم برای گرفتن کد بورسی نیز افزایش یافت.

با توجه به حجم بالای تقاضا و با شروع پاندمی کرونا و اشباع کارگزاری‌ها و مراکز احراز هویت، نیاز به راهکار احراز هویت غیرحضوری بیشتر احساس شد. در نهایت با به رسمیت شناخته شدن احراز هویت دیجیتال و غیرحضوری توسط سازمان بورس، راهکارهایی برای احراز هویت الکترونیکی برای دریافت کد بورسی ارائه شد. فناوری استفاده شده در این راهکارها متفاوت از یکدیگر است. از آنجایی که برخی از این راهکارها از فناوری تشخیص گفتار استفاده می‌کنند در این نوشتار این فناوری و احراز هویت با آن را مورد بررسی قرار دادیم.

فناوری تشخیص گفتار (Speech Recognition) چیست؟

فناوری تشخیص گفتار، امکانی است که تشخیص و فهم کلمات ادا شده به دستگاه‌ها را فراهم می‌کند. به این صورت که در این فناوری، کلمات به الگویی از اعداد دیجیتال تبدیل می‌شود و هنگامی که همان کلمات توسط شخص گوینده ادا می‌شود این کلمات با همان الگوریتم قبلی به الگوی دیجیتال تبدیل می‌شود و با الگوی از پیش ذخیره شده پیش‌فرض، مقایسه می‌شود. در صورت تطابق الگوی کلمات ایراد شده توسط مشتری با الگوی پیش فرض که توسط سیستم احراز هویت ذخیره شده‌اند، اجازه دسترسی به او صادر می‌شود.

با این فناوری، بر خلاف فناوری تشخیص صدا (Voice Recognition) نمی‌توان شخص گوینده کلمات را تشخیص داد و صرفا می‌توان کلمات بیان شده را با الگوی پیش‌فرض آن‌ها مقایسه کرد و تطابق آن‌ها را بررسی کرد.

تفاوت فناوری‌های تشخیص گفتار (Speech Recognition) و تشخیص صدا (Voice Recognition)

عملکرد تشخیص صدا با تشخیص گفتار متفاوت است. فناوری تشخیص گفتار، کلمات ادا شده توسط مشتری را با کلمات از پیش ذخیره شده مقایسه می‌کند. اما در فناوری تشخیص صدا، الگوی صدای مشتری عامل اصلی احراز هویت او است.

فناوری تشخیص صدا، تن صدا و انعکاس امواج آن را با توجه به ساختار استخوان فک و صورت شخص، اسکن می‌کند. این اسکن شامل ویژگی‌های فیزیولوژیکی مانند اندازه و شکل دهان و گلو و الگو‌های رفتاری اشخاص مانند تن صدا، لهجه، سبک صحبت کردن و برخی ویژگی‌های دیگر است.

در واقع، تشخیص گفتار، شناسایی کلمات از طریق مقایسه با کلمات پیش‌فرض است. درحالی که رویکرد تشخیص صدا، شناسایی اشخاص از روی ویژگی‌ها و الگوهای رفتاری صدا است. اهمیت این مسئله زمانی آشکار می‌شود که بخواهیم برای هر شخص، الگوی صوتی منحصر بفردی را ذخیره کنیم و برای احراز هویت کاربران یا مشتریان از این الگوها استفاده کنیم. وجود الگوی منحصر بفرد از صدای همه مشتریان یک بانک یا موسسه مالی، امنیت اطلاعات حساس آنها را بالا خواهد برد. در حالی که در مورد تشخیص گفتار چنین نیست.

دلیل ناکارآمدی تشخیص گفتار در احراز هویت چیست؟

در فناوری تشخیص گفتار، الگوی منحصر بفردی از صدای اشخاص و کاربران ایجاد و ذخیره نمی‌شود و فقط به تلفظ صحیح کلمات از طریق مقایسه با الگوی اولیه توجه می‌شود. در صورت استفاده از فناوری تشخیص گفتار به عنوان لایه امنیتی برای احراز هویت، هر شخصی می‌تواند به جای کاربر مورد نظر، کلمات را به درستی ادا کند و از لایه امنیتی به راحتی عبور نماید. با توجه به پیشرفت روزافزون هوش مصنوعی، امروزه برخی نرم‌افزارهای مبتنی بر هوش مصنوعی نیز توانایی تلفظ صحیح کلمات نمایش داده شده را دارند. بنابراین استفاده از این فناوری برای احراز هویت دیجیتال، استفاده از این فناوری برای احراز هویت، خطای امنیتی بزرگی محسوب می‌شود.

راهکارهایی که از این فناوری برای احراز هویت دیجیتال استفاده می‌کنند مجبور هستند برای پوشش خطای امنیتی آن از دیگر لایه‌های امنیتی مانند تلفیق این فناوری با Call Center ویدیویی استفاده کنند. به این صورت که همزمان یا بعد از استفاده از فناوری تشخیص گفتار و تایید تطابق کلمات خوانده شده کاربر با کلمات از پیش ذخیره شده، کاربر یک ویدیوی سلفی گرفته و این ویدیو توسط اپراتور انسانی بررسی و تایید می‌گردد. روش Call Center معایب زیادی دارد که چند نمونه از مهمترین آنها عبارتند از:

افزایش احتمال خطا توسط نیروی انسانی
مشکلات امنیت و حریم خصوصی مشتریان و در نتیجه کاهش اعتماد آنها
هزینه‌های اضافی برای احراز هویت

بیومتریک صوت برای احراز هویت؛ تشخیص صدا یا تشخیص گفتار

به طور کلی امنیت تشخیص صدا بیشتر از تشخیص گفتار است. استفاده از تشخیص صدا در فرایند احراز هویت به جای تشخیص گفتار، علاوه بر بهبود نسبی سطح امنیت، باعث ایجاد الگوی منحصر به فردی از صدای کاربران و مشتریان می‌شود. البته بیومتریک صوت در احراز هویت غیرحضوری برای اولین بار کاربردی ندارد. و صرفا به کمک این الگوی صدا که منحصر به خود هر کاربر است، می‌توان در مراجعه‌های بعدی آنها را شناسایی کرد.

به این صورت که الگوی اولیه‌ای از صدای کاربر در سیستم شناسایی هویت ذخیره می‌شود و در مراجعات بعدی او، الگوی صدای فرد مراجعه کننده توسط سیستم احراز هویت، با الگویی که توسط سیستم شناسایی هویت ثبت شده، مقایسه شده و در صورت تطابق الگوها، اجازه دسترسی به کاربر مورد نظر داده می‌شود.

درکل با اینکه فناوری تشخیص صدا در احراز هویت امنیت بالایی دارد ولی احراز هویت به صورت کاملا دیجیتال با استفاده از بیومتریک صدا امکان‌پذیر نیست و فارغ از مسئله ضعف امنیتی آن، دو نقص دیگر دارد:

1) در سیستم احراز هویت با بیومتریک صوت، شخص حداقل برای بار اول باید با مراجعه حضوری خود، الگوی صدای خود را به سیستم احراز هویت وارد کند تا در دفعات بعد بتوان با مقایسه صدای آن شخص با الگوی اولیه ذخیره شده در سیستم، فرد را احراز هویت کرد.

2) در احراز هویت بیومتریک صدا، امکان بررسی زنده بودن شخص در لحظه ضبط صوت خود وجود ندارد یا با ضعف مواجه است و نمی‌توان بررسی کرد که آیا شخص احراز شونده در لحظه احراز هویت، صدای خود را ضبط کرده است یا شخص دیگری از نوار صوتی آن، ضبط مجدد کرده است.

نقص ترکیب فناوری تشخیص گفتار با اپراتور انسانی

با این اوصاف و با توجه به دیجیتالیزه شدن جنبه‌های امنیت به دلیل دقت بالا، استفاده از ترکیب تشخیص گفتار و اپراتور انسانی برای احراز هویت روش کارآمدی نیست. روش‌های به روزتر، سریع‌تر و دقیق‌تر به جای اپراتورهای انسانی معقول‌تر به نظر می‌رسد. استفاده از تشخیص گفتار برای احراز هویت که روش مورد استفاده برخی راهکارهای احراز هویت در کشور است، باعث ایجاد ذهنیت نادرست از احراز هویت دیجیتال بین مردم و مسئولان می‌شود و در صورت مشاهده ضعف امنیتی آن باعث عدم اعتماد مردم به احراز هویت دیجیتال می‌شود.

احراز هویت