تشخیص ناهنجاری و تقلب در دادههای مالی و موارد کاربرد
ترجمه و تلخیص : فروغ مروّج صالحی، برندینگ آدانیک
تشخیص تقلب، برجستهترین مورد استفاده تشخیص ناهنجاری مبتنی بر یادگیری ماشین یا هوش مصنوعی در بانکداری است. کمیسیون تجارت فدرال ایالات متحده 1 میلیون شکایت مرتبط با کلاهبرداری را در سالهای 2015 تا 2020 ثبت کرده است. مقیاس این مشکل، باور نکردنی است! با این حال، ساختن یک سیستم دقیق که هر زمانی کار کند نیز بسیار دشوار است، زیرا تعداد موارد جعلی تراکنش بسیار کمتر از حجم کل موارد است (ویزا به تنهایی بیش از 2000 تراکنش را در هر ثانیه پردازش میکند) که ایجاد یک مجموعه آموزشی (برای الگوریتمهای یادگیرنده ) را دشوار میکند.
از طرفی، سیستمهای مبتنی بر قوانین سنتی کافی نیستند و اغلب منجر به نرخهای مثبت کاذب میشوند که در برخی موارد بیش از 90% است و منجر به تعداد زیادی هشدارهای مثبت کاذب می شود که پس از آن باید از طریق مداخله انسانی پاک شوند. اقدامات تکراری تحلیلگر میتواند به “بی حسی نسبت به موارد مثبت کاذب” منجر شود که ریسک عملیاتی و متعاقباً ریسک نظارتی را در فرآیند افزایش میدهد. علاوه بر این، سیستمهای سنتی طبق تعریف، انفعالی هستند، زیرا آنها فقط میتوانند بر اساس قوانین قبلی هشدار تولید کنند. روش دیگر، سیستمهای مبتنی بر هوش مصنوعی فعال است که میتوانند به تقویت سیستمهای هشدار نظارتی و بهبود گردش کار تحلیلگران با کاهش نویز- بدون حذف هشدارها – کمک کنند.
ایجاد درک صحیحی از آنچه علمِ داده، یادگیری ماشین و فناوریهای هوش مصنوعی میتوانند برای کشف تقلب و سایر موارد استفاده از تشخیص ناهنجاری در بانکداری امروز به ارمغان بیاورند، اولین قدم برای پیشرفت در این حوزه است. ترکیب این دانش با بهترین شیوههای پروژه هوش مصنوعی، از جمله عملیاتیسازی و دموکراسیسازی دادهها، تضمین میکند که بانکها از منحنی جلوتر باقی میمانند.
هدف از تشخیص ناهنجاری
تشخیص ناهنجاری در واقع یافتن الگوهای مورد نظر(غیرطبیعی، استثناها، ویژگیها، و غیره) است که از رفتار مورد انتظار در مجموعه دادهها منحرف شدهاند. با توجه به این تعریف، شایان ذکر است که تشخیص ناهنجاری، بسیار شبیه به حذف نویز و تشخیص موارد غیرمعمول است. اگرچه در روش تشخیص ناهنجاری شناسایی الگوها مورد نظر است، در تشخیص نویز هدف اندکی متفاوت است که حذف آن ناهنجاریها – یا نویز – از دادهها است.
به عنوان یک دامنه کاربردی در تشخیص ناهنجاری، تشخیص تقلب از پرکاربردترین موارد در صنعت بانکداری است. تشخیص تقلب در واقع از روشهای تشخیص ناهنجاری به منظور کشف رفتارهایی که برای گمراه کردن یا معرفی نادرست یک موجودیت بهره میگیرند، استفاده میکند. نمونههای رایج عبارتند از کلاهبرداری چک و کارت اعتباری، که از آن میان، کشف کلاهبرداری در سایر حوزههای مالی از جمله بیمه نیز دارای اهمیت است.
همچون بسیاری از پروژههای علم داده، هدف نهایی یا خروجی تشخیص ناهنجاری فقط یک الگوریتم یا مدل کاری نیست. بلکه راه اندازی فرآیندهای ضروری و اقدامات مناسب برای مقابله، از اهداف مهم این سیستم است. به عنوان مثال، شناسایی عوامل اختلال، کلاهبرداران، تراکنشهای متقلبانه، یا نفوذهای شبکه، در این سیستم کافی نیست؛ سیستم کامل هوش مصنوعی همچنین باید اقداماتی براساس این شناساییها انجام دهد که شامل ارجاع موارد به یک تیم تحقیقات کلاهبرداری، مسدود کردن حسابها یا دادن هشدار مناسب به تیمهای عملیاتی در مورد اقدامات شرورانه است.
علاوه بر این، تشخیص ناهنجاری نیازمند سیستمی است که چابک باشد و دائماً در حال یادگیری باشد زیرا:
- ماهیت موارد استفاده برای تشخیص ناهنجاری به این شکل است که کلاهبرداران یا سایر بازیگران بد به طور خاص و عمدی سعی در تولید ورودیهایی دارند که شبیه به موارد بی ربط و پرت نیست و درنتیجه انطباق با این واقعیت و یادگیری از آن بسیار مهم است.
- از آنجایی که روند هزینهها و دنیایی که به طور فزاینده جهانی می شود در حال تحول صنعت بانکداری است، مجموعه دادهها نیز همراه آن در طول زمان تغییر خواهند کرد، بنابراین یک سیستم ناگزیر است تا همراه با کاربرانش تکامل یابد. ناهنجاریها، به دلیل ماهیت خود، غیرمنتظره هستند، بنابراین مهم است که هر روشی که استفاده میشود با دادههای زیربنایی و تغییرات طبیعی که رخ خواهد داد سازگار باشند.
- موارد استفاده مالی بسیار حساس به زمان هستند. کسبوکارها و مشتریان نمیتوانند صبر کنند و هرگونه تأخیر در سرعت معاملات یا معاملات سهام میتواند عواقب بزرگی به همراه داشته باشد. تلاش برای پیشبینی الگوها و پیشبینی ناهنجاریها قبل از وقوع خطرناک است، اما میتواند به تصمیمگیری به موقع کمک کند.
از سوی دیگر، توجه به این نکته ضروری است که علیرغم رایجترین موارد استفاده که تشخیص تقلب یا خرابی سیستم است، ناهنجاریها همیشه هم بد نیستند؛ یعنی لزوما نشان دهنده این نیستند که چیزی اشتباه است. تشخیص ناهنجاری میتواند برای توسعه و بهبود نیز مورد استفاده قرار گیرد، به عنوان مثال، برای شناسایی یا پیش بینی تغییرات جزئی در رفتار مشتری یا کاربر که ممکن است منجر به تغییر در استراتژی فروش، توسعه یا بازاریابی شود، و امکان پیش بینی دقیقتر بازار و توانایی یک قدم جلوتر ماندن را فراهم میکند.
سه نوع مهم ناهنجاری
1- ناهنجاریهای نقطهای: ناهنجاریهای نقطهای به بیان ساده، نمونههای منفرد و غیرعادی در یک مجموعه داده بزرگتر هستند. به عنوان مثال، یک تراکنش به مبلغ 1 تریلیون دلار می تواند یک ناهنجاری نقطهای باشد، زیرا این مبلغ بیشتر از پولی است که حتی ثروتمندترین شرکتها در یک سال به دست میآورند. سیستمهای تشخیص ناهنجاری اغلب با شناسایی ناهنجاریهای نقطهای شروع میشوند، که میتواند برای شناسایی ناهنجاریهای متنی یا جمعی ظریفتر استفاده شود.
2- ناهنجاری های متنی (یا مشروط): اینها مواردی هستند که فقط در زمینه خاصی نابهنجار تلقی می شوند. یک مثال خوب همان تراکنش است. در حالی که 10000 دلار در محدوده مبالغ تراکنش ممکن در نظر گرفته میشود، اگر خارج از حد اعتبار باشد، به وضوح غیرعادی است.
3- ناهنجاریهای جمعی: زمانی که مجموعه دادههای مرتبط متعدد یا بخشهایی از مجموعه دادههای مشابه با هم نسبت به کل مجموعه داده غیرعادی هستند (حتی زمانی که مجموعه دادههای منفرد حاوی ناهنجاری نیستند). به عنوان مثال، فرض کنید که دادههایی از یک کارت اعتباری در حال خرید در ایالات متحده وجود دارد، اما همچنین مجموعه دادهای وجود دارد که نشان میدهد پولی همزمان از دستگاههای خودپرداز در فرانسه خارج شده است. اگر هیچ ناهنجاری واحدی در یک مجموعه داده اتفاق نیفتده باشد، اما تمام مجموعههای دادهای که اجزای مختلف را با هم اندازهگیری میکنند، یک مشکل را نشان دهند، در این صورت ممکن است یک ناهنجاری جمعی رخ داده باشد.
موارد حایز اهمیت در بهرهگیری از سیستم تشخیص ناهنجاری
در هنگام کار با سیستم تشخیص ناهنجاری چندین ویژگی وجود دارد که باید در نظر گرفت، سه مورد از آنها عبارتند از:
1- درک و انتخاب موارد استفاده
اولین گام در تشخیص موفقیت آمیز ناهنجاری این است که واقعاً درک کنید که خط کسب و کار به چه نوع سیستمی نیاز دارد و یک چارچوب برای الزامات و اهداف قبل از شروع تنظیم کنید. اینها بحثهای اولیه مهمی هستند زیرا همه کارهای کشف ناهنجاری یا تقلب یکسان نیستند. دقیقاً آنچه که به عنوان یک ناهنجاری واجد شرایط میشود و فرآیندهای بعدی که توسط تشخیص ناهنجاری آغاز میشود به طور گستردهای بر اساس موارد استفاده متفاوت است.
به شکل قابل توجهی، ماهیت دادهها، مشکل مورد بررسی، و اهداف پروژه در تکنیکهای به کار گرفته شده برای تشخیص ناهنجاری تأثیر مستقیم دارند. حتی در صنعت مالی، پروژههای مختلف تعاریف متفاوتی از آنچه که یک مورد داده را به یک ناهنجاری تبدیل می کند، خواهند داشت. به عنوان مثال، نوسانات بسیار کوچک در سیستمی که قیمت سهام را ردیابی میکند، میتواند ناهنجاری در نظر گرفته شود، در حالی که سیستمهای دیگر مانند محل شارژ کارت میتوانند دامنه بسیار وسیعتری از ورودیها را تحمل کنند. بنابراین به کارگیری یک رویکرد واحد برای تمامی انواع پروژههای داده منطقی نیست.
برای اطمینان از موفقیت یک پروژه کشف تقلب یا سایر پروژههای تشخیص ناهنجاری، گردآوری پروفایلهای فنی انجام کار (اعم از دانشمندان علوم داده، کمیتها یا آکچوئرها) با طرف تجاری (تیم ریسک، تحلیلگران) بسیار مهم است تا:
- آنچه را که یک ناهنجاری است، تعریف و به طور مداوم اصلاح کنید. زیرا ناهنجاری ممکن است دائماً تغییر کند، که این به معنای نیاز به ارزیابی مجدد و مداوم است.
- اهداف و پارامترهای پروژه را به طور کلی تعریف کنید. به عنوان مثال، هدف نهایی احتمالاً فقط شناسایی ناهنجاریها نیست، بلکه چیزی بزرگتر است که بر تجارت تأثیر میگذارد، مانند مسدود کردن هزینههای جعلی. داشتن اهداف بزرگتر به شما این امکان را میدهد که محدوده پروژه و خروجی مورد انتظار را بهتر تعریف کنید.
- به محض اینکه یک ناهنجاری شناسایی شد، مشخص کنید که سیستم در مرحله بعدی چه کاری انجام خواهد داد. به عنوان مثال، ناهنجاریها برای تجزیه و تحلیل و بررسی بیشتر به تیم دیگری ارسال میشوند.
- برنامهای برای نظارت و ارزیابی موفقیت سیستم در آینده ایجاد کنید.
- شناسایی کنید که کدام فرکانس تشخیص ناهنجاری (بلادرنگ در مقابل دسته ای) برای مورد استفاده حاضر مناسب است.
2- دریافت دادهها
داشتن هر چه بیشتر اطلاعات، امکان مدلسازی دقیقتر برای تشخیص ناهنجاری را میدهد ، زیرا هرگز نمیدانیم کدام ویژگیها ممکن است نشاندهنده یک ناهنجاری باشند. استفاده از انواع و منابع دادههای متعدد چیزی است که به بانکها اجازه میدهد تا فراتر از ناهنجاریهای نقطهای حرکت کنند و ناهنجاریهای بافتی یا جمعی پیچیدهتر را شناسایی کنند. به عبارت دیگر، تنوع، یک عامل کلیدی است.
به عنوان مثال، این امکان وجود دارد که دادههای تراکنش در نگاه اول غیرعادی نباشند زیرا کلاهبردار در محدوده “عادی” عادات کاربر واقعی باقی مانده است. اما دادههای استفاده از ATM یا وبلاگهای حساب ممکن است ناهنجاریهایی را نشان دهد که به کشف تقلب کمک میکنند.
3- کاوش، پاکسازی و غنی سازی دادهها
هنگام انجام تشخیص ناهنجاری، این مرحله حتی از حد معمول مهمتر است، زیرا اغلب دادهها حاوی نویز هستند (معمولاً خطاها، چه انسانی یا غیر انسانی) که شبیه به ناهنجاریهای واقعی است. از این رو، تمایز بین این دو و حذف هر گونه داده مشکلساز که میتواند مثبت کاذب باشد، بسیار مهم است.
در یک دنیای ایده آل، مقدار کافی از دادههای برچسبگذاری شده وجود دارد که کار از آنها شروع می شود. یعنی تحلیلگران یا دانشمندان داده میتوانند مجموعه دادههای بانک را با اطلاعاتی در مورد اینکه کدام رکوردها ناهنجاریها را نشان میدهند و کدامها طبیعی هستند، غنی کنند. ترجیح برای ساختن یک سیستم تشخیص ناهنجاری شروع با دادههایی است که بهعنوان غیرعادی یا عادی شناخته میشوند، زیرا سادهترین مسیر است که امکان استفاده از روشهای نظارت شده با طبقهبندی را فراهم میکند (بر خلاف روشهای تشخیص ناهنجاری بدون نظارت).
گمانیک ابزار هوشمند تشخیص ناهنجاری و تقلب در دادههای بانکی
متن اصلی :
Fraud and Anomaly Detection in Banking, A Step-by-Step Guide to Incorporating
.