تشخیص ناهنجاری و تقلب در داده‌های مالی و موارد کاربرد

در 20 اردیبهشت , 1401

ارزش تجاری موارد استفاده از تشخیص ناهنجاری در خدمات مالی آشکار است؛ از کلاهبرداری کارت اعتباری یا چک گرفته تا پولشویی و امنیت سایبری، تشخیص دقیق و سریع ناهنجاری‌ها برای انجام تجارت و محافظت از مشتریان از ضررهای ویرانگر بالقوه، ضروری است.

ترجمه و تلخیص : فروغ مروّج صالحی، برندینگ آدانیک

تشخیص تقلب، برجسته‌ترین مورد استفاده تشخیص ناهنجاری مبتنی بر یادگیری ماشین یا هوش مصنوعی در بانکداری است. کمیسیون تجارت فدرال ایالات متحده 1 میلیون شکایت مرتبط با کلاهبرداری را در سال‌های 2015 تا 2020 ثبت کرده است. مقیاس این مشکل، باور نکردنی است! با این حال، ساختن یک سیستم دقیق که هر زمانی کار کند نیز بسیار دشوار است، زیرا تعداد موارد جعلی تراکنش بسیار کمتر از حجم کل موارد است (ویزا به تنهایی بیش از 2000 تراکنش را در هر ثانیه پردازش می‌کند) که ایجاد یک مجموعه آموزشی (برای الگوریتم‌های یادگیرنده ) را دشوار می‌کند.

از طرفی، سیستم‌های مبتنی بر قوانین سنتی کافی نیستند و اغلب منجر به نرخ‌های مثبت کاذب می‌شوند که در برخی موارد بیش از 90% است و منجر به تعداد زیادی هشدارهای مثبت کاذب می شود که پس از آن باید از طریق مداخله انسانی پاک شوند. اقدامات تکراری تحلیلگر می‌تواند به “بی حسی نسبت به موارد مثبت کاذب” منجر شود که ریسک عملیاتی و متعاقباً ریسک نظارتی را در فرآیند افزایش می‌دهد. علاوه بر این، سیستم‌های سنتی طبق تعریف، انفعالی هستند، زیرا آنها فقط می‌توانند بر اساس قوانین قبلی هشدار تولید کنند. روش دیگر، سیستم‌های مبتنی بر هوش مصنوعی فعال است که می‌توانند به تقویت سیستم‌های هشدار نظارتی و بهبود گردش کار تحلیلگران با کاهش نویز- بدون حذف هشدارها – کمک کنند.

ایجاد درک صحیحی از آنچه علمِ داده، یادگیری ماشین و فناوری‌های هوش مصنوعی می‌توانند برای کشف تقلب و سایر موارد استفاده از تشخیص ناهنجاری در بانکداری امروز به ارمغان بیاورند، اولین قدم برای پیشرفت در این حوزه است. ترکیب این دانش با بهترین شیوه‌های پروژه هوش مصنوعی، از جمله عملیاتی‌سازی و دموکراسی‌سازی داده‌ها، تضمین می‌کند که بانک‌ها از منحنی جلوتر باقی می‌مانند.

هدف از تشخیص ناهنجاری

تشخیص ناهنجاری در واقع یافتن الگوهای مورد نظر(غیرطبیعی، استثناها، ویژگی‌ها، و غیره) است که از رفتار مورد انتظار در مجموعه داده‌ها منحرف شده‌اند. با توجه به این تعریف، شایان ذکر است که تشخیص ناهنجاری، بسیار شبیه به حذف نویز و تشخیص موارد غیرمعمول است. اگرچه در روش تشخیص ناهنجاری شناسایی الگوها مورد نظر است، در تشخیص نویز هدف اندکی متفاوت است که حذف آن ناهنجاری‌ها – یا نویز – از داده‌ها است.

به عنوان یک دامنه کاربردی در تشخیص ناهنجاری، تشخیص تقلب از پرکاربردترین موارد در صنعت بانکداری است. تشخیص تقلب در واقع از روش‌های تشخیص ناهنجاری به منظور کشف رفتارهایی که برای گمراه کردن یا معرفی نادرست یک موجودیت بهره می‌گیرند، استفاده می‌کند. نمونه‌های رایج عبارتند از کلاهبرداری چک و کارت اعتباری، که از آن میان، کشف کلاهبرداری در سایر حوزه‌های مالی از جمله بیمه نیز دارای اهمیت است.

همچون بسیاری از پروژه‌های علم داده، هدف نهایی یا خروجی تشخیص ناهنجاری فقط یک الگوریتم یا مدل کاری نیست. بلکه راه اندازی فرآیندهای ضروری و اقدامات مناسب برای مقابله، از اهداف مهم این سیستم است. به عنوان مثال، شناسایی عوامل اختلال، کلاهبرداران، تراکنش‌های متقلبانه، یا نفوذهای شبکه، در این سیستم کافی نیست؛ سیستم کامل هوش مصنوعی همچنین باید اقداماتی براساس این شناسایی‌ها انجام دهد که شامل ارجاع موارد به یک تیم تحقیقات کلاهبرداری، مسدود کردن حساب‌ها یا دادن هشدار مناسب به تیم‌های عملیاتی در مورد اقدامات شرورانه است.

علاوه بر این، تشخیص ناهنجاری نیازمند سیستمی است که چابک باشد و دائماً در حال یادگیری باشد زیرا:

ماهیت موارد استفاده برای تشخیص ناهنجاری به این شکل است که کلاهبرداران یا سایر بازیگران بد به طور خاص و عمدی سعی در تولید ورودی‌هایی دارند که شبیه به موارد بی ربط و پرت نیست و درنتیجه انطباق با این واقعیت و یادگیری از آن بسیار مهم است.
از آنجایی که روند هزینه‌ها و دنیایی که به طور فزاینده جهانی می شود در حال تحول صنعت بانکداری است، مجموعه داده‌ها نیز همراه آن در طول زمان تغییر خواهند کرد، بنابراین یک سیستم ناگزیر است تا همراه با کاربرانش تکامل یابد. ناهنجاری‌ها، به دلیل ماهیت خود، غیرمنتظره هستند، بنابراین مهم است که هر روشی که استفاده می‌شود با داده‌های زیربنایی و تغییرات طبیعی که رخ خواهد داد سازگار باشند.
موارد استفاده مالی بسیار حساس به زمان هستند. کسب‌وکارها و مشتریان نمی‌توانند صبر کنند و هرگونه تأخیر در سرعت معاملات یا معاملات سهام می‌تواند عواقب بزرگی به همراه داشته باشد. تلاش برای پیش‌بینی الگوها و پیش‌بینی ناهنجاری‌ها قبل از وقوع خطرناک است، اما می‌تواند به تصمیم‌گیری به موقع کمک کند.

از سوی دیگر، توجه به این نکته ضروری است که علی‌رغم رایج‌ترین موارد استفاده که تشخیص تقلب یا خرابی سیستم است، ناهنجاری‌ها همیشه هم بد نیستند؛ یعنی لزوما نشان دهنده این نیستند که چیزی اشتباه است. تشخیص ناهنجاری می‌تواند برای توسعه و بهبود نیز مورد استفاده قرار گیرد، به عنوان مثال، برای شناسایی یا پیش بینی تغییرات جزئی در رفتار مشتری یا کاربر که ممکن است منجر به تغییر در استراتژی فروش، توسعه یا بازاریابی شود، و امکان پیش بینی دقیق‌تر بازار و توانایی یک قدم جلوتر ماندن را فراهم می‌کند.

سه نوع مهم ناهنجاری

1- ناهنجاری‌های نقطه‌ای: ناهنجاری‌های نقطه‌ای به بیان ساده، نمونه‌های منفرد و غیرعادی در یک مجموعه داده بزرگ‌تر هستند. به عنوان مثال، یک تراکنش به مبلغ 1 تریلیون دلار می‌ تواند یک ناهنجاری نقطه‌ای باشد، زیرا این مبلغ بیشتر از پولی است که حتی ثروتمندترین شرکت‌ها در یک سال به دست می‌آورند. سیستم‌های تشخیص ناهنجاری اغلب با شناسایی ناهنجاری‌های نقطه‌ای شروع می‌شوند، که می‌تواند برای شناسایی ناهنجاری‌های متنی یا جمعی ظریف‌تر استفاده شود.

2- ناهنجاری های متنی (یا مشروط): اینها مواردی هستند که فقط در زمینه خاصی نابهنجار تلقی می شوند. یک مثال خوب همان تراکنش است. در حالی که 10000 دلار در محدوده مبالغ تراکنش ممکن در نظر گرفته می‌شود، اگر خارج از حد اعتبار باشد، به وضوح غیرعادی است.

3- ناهنجاری‌های جمعی: زمانی که مجموعه داده‌های مرتبط متعدد یا بخش‌هایی از مجموعه داده‌های مشابه با هم نسبت به کل مجموعه داده غیرعادی هستند (حتی زمانی که مجموعه داده‌های منفرد حاوی ناهنجاری نیستند). به عنوان مثال، فرض کنید که داده‌هایی از یک کارت اعتباری در حال خرید در ایالات متحده وجود دارد، اما همچنین مجموعه داده‌ای وجود دارد که نشان می‌دهد پولی همزمان از دستگاه‌های خودپرداز در فرانسه خارج شده است. اگر هیچ ناهنجاری واحدی در یک مجموعه داده اتفاق نیفتده باشد، اما تمام مجموعه‌های داده‌ای که اجزای مختلف را با هم اندازه‌گیری می‌کنند، یک مشکل را نشان دهند، در این صورت ممکن است یک ناهنجاری جمعی رخ داده باشد.

موارد حایز اهمیت در بهره‌گیری از سیستم تشخیص ناهنجاری

در هنگام کار با سیستم تشخیص ناهنجاری چندین ویژگی وجود دارد که باید در نظر گرفت، سه مورد از آنها عبارتند از:

1- درک و انتخاب موارد استفاده

اولین گام در تشخیص موفقیت آمیز ناهنجاری این است که واقعاً درک کنید که خط کسب و کار به چه نوع سیستمی نیاز دارد و یک چارچوب برای الزامات و اهداف قبل از شروع تنظیم کنید. اینها بحث‌های اولیه مهمی هستند زیرا همه کارهای کشف ناهنجاری یا تقلب یکسان نیستند. دقیقاً آنچه که به عنوان یک ناهنجاری واجد شرایط می‌شود و فرآیندهای بعدی که توسط تشخیص ناهنجاری آغاز می‌شود به طور گسترده‌ای بر اساس موارد استفاده متفاوت است.

به شکل قابل توجهی، ماهیت داده‌ها، مشکل مورد بررسی، و اهداف پروژه در تکنیک‌های به کار گرفته شده برای تشخیص ناهنجاری تأثیر مستقیم دارند. حتی در صنعت مالی، پروژه‌های مختلف تعاریف متفاوتی از آنچه که یک مورد داده را به یک ناهنجاری تبدیل می کند، خواهند داشت. به عنوان مثال، نوسانات بسیار کوچک در سیستمی که قیمت سهام را ردیابی می‌کند، می‌تواند ناهنجاری در نظر گرفته شود، در حالی که سیستم‌های دیگر مانند محل شارژ کارت می‌توانند دامنه بسیار وسیع‌تری از ورودی‌ها را تحمل کنند. بنابراین به کارگیری یک رویکرد واحد برای تمامی انواع پروژه‌های داده منطقی نیست.

برای اطمینان از موفقیت یک پروژه کشف تقلب یا سایر پروژه‌های تشخیص ناهنجاری، گردآوری پروفایل‌های فنی انجام کار (اعم از دانشمندان علوم داده، کمیت‌ها یا آکچوئرها) با طرف تجاری (تیم ریسک، تحلیلگران) بسیار مهم است تا:

آنچه را که یک ناهنجاری است، تعریف و به طور مداوم اصلاح کنید. زیرا ناهنجاری ممکن است دائماً تغییر کند، که این به معنای نیاز به ارزیابی مجدد و مداوم است.
اهداف و پارامترهای پروژه را به طور کلی تعریف کنید. به عنوان مثال، هدف نهایی احتمالاً فقط شناسایی ناهنجاری‌ها نیست، بلکه چیزی بزرگتر است که بر تجارت تأثیر می‌گذارد، مانند مسدود کردن هزینه‌های جعلی. داشتن اهداف بزرگتر به شما این امکان را می‌دهد که محدوده پروژه و خروجی مورد انتظار را بهتر تعریف کنید.
به محض اینکه یک ناهنجاری شناسایی شد، مشخص کنید که سیستم در مرحله بعدی چه کاری انجام خواهد داد. به عنوان مثال، ناهنجاری‌ها برای تجزیه و تحلیل و بررسی بیشتر به تیم دیگری ارسال می‌شوند.
برنامه‌ای برای نظارت و ارزیابی موفقیت سیستم در آینده ایجاد کنید.
شناسایی کنید که کدام فرکانس تشخیص ناهنجاری (بلادرنگ در مقابل دسته ای) برای مورد استفاده حاضر مناسب است.

2- دریافت داده‌ها

داشتن هر چه بیشتر اطلاعات، امکان مدلسازی دقیق‌تر برای تشخیص ناهنجاری را می‌دهد ، زیرا هرگز نمی‌دانیم کدام ویژگی‌ها ممکن است نشان‌دهنده یک ناهنجاری باشند. استفاده از انواع و منابع داده‌های متعدد چیزی است که به بانک‌ها اجازه می‌دهد تا فراتر از ناهنجاری‌های نقطه‌ای حرکت کنند و ناهنجاری‌های بافتی یا جمعی پیچیده‌تر را شناسایی کنند. به عبارت دیگر، تنوع، یک عامل کلیدی است.

به عنوان مثال، این امکان وجود دارد که داده‌های تراکنش در نگاه اول غیرعادی نباشند زیرا کلاهبردار در محدوده “عادی” عادات کاربر واقعی باقی مانده است. اما داده‌های استفاده از ATM یا وبلاگ‌های حساب ممکن است ناهنجاری‌هایی را نشان دهد که به کشف تقلب کمک می‌کنند.

3- کاوش، پاکسازی و غنی سازی داده‌ها

هنگام انجام تشخیص ناهنجاری، این مرحله حتی از حد معمول مهمتر است، زیرا اغلب داده‌ها حاوی نویز هستند (معمولاً خطاها، چه انسانی یا غیر انسانی) که شبیه به ناهنجاری‌های واقعی است. از این رو، تمایز بین این دو و حذف هر گونه داده مشکل‌ساز که می‌تواند مثبت کاذب باشد، بسیار مهم است.

در یک دنیای ایده آل، مقدار کافی از داده‌های برچسب‌گذاری شده وجود دارد که کار از آن‌ها شروع می شود. یعنی تحلیلگران یا دانشمندان داده می‌توانند مجموعه داده‌های بانک را با اطلاعاتی در مورد اینکه کدام رکوردها ناهنجاری‌ها را نشان می‌دهند و کدام‌ها طبیعی هستند، غنی کنند. ترجیح برای ساختن یک سیستم تشخیص ناهنجاری شروع با داده‌هایی است که به‌عنوان غیرعادی یا عادی شناخته می‌شوند، زیرا ساده‌ترین مسیر است که امکان استفاده از روش‌های نظارت شده با طبقه‌بندی را فراهم می‌کند (بر خلاف روش‌های تشخیص ناهنجاری بدون نظارت).

گمانیک ابزار هوشمند تشخیص ناهنجاری و تقلب در داده‌های بانکی

متن اصلی :

Fraud and Anomaly Detection in Banking, A Step-by-Step Guide to Incorporating

منبع Machine Learning into Models

آدانیک گمانیک