اصول اخلاقی مدیریت داده‏‏‌های مردم

برای شرکت‌های بزرگی که رقبای سرسختی دارند، اصول اخلاقی می‌تواند مثل تجملاتی گران‌قیمت به نظر برسد. به عنوان نمونه، ظاهرا مایکروسافت تمام تیم اصول اخلاقی پروژه هوش مصنوعی بینگش را اخراج کرد؛ چون طبق اخبار و گزارش‌های آنلاین، گوگل راهی تا انتشار برنامه مبتنی بر هوش مصنوعی خود نداشته؛ پس باید دست می‌جنباندند.

تاریخ انتشار: ۱۶:۱۲ - ۰۶ تير ۱۴۰۲

زمانی که شرکت‌ها پروژه جدیدی را بررسی می‌کنند که نیاز به داده‌های انسانی دارد یا پایگاه‌های داده موجود را به کار می‌گیرد، باید روی پنج مساله اساسی تمرکز کنند: سرمنشأ داده، هدف کاربردی، نحوه حفاظت، نحوه حفظ حریم خصوصی تامین کنندگان داده و نحوه آماده سازی داده برای استفاده.

ما در اینجا به هرکدام از این اصول می‌پردازیم و به این موضوع توجه می‌کنیم که چطور هوش مصنوعی خطر سوءاستفاده از داده را افزایش می‌دهد؛ اما اول نگاهی می‌اندازیم به الزامات سازمانی برای داشتن یک فرآیند بررسی اخلاقی مستحکم.

ساماندهی نظارت بر داده

در محیط‌های دانشگاهی معمولا کمیته بررسی سازمانی داخل مجموعه (IRB) بر گردآوری داده از سوژه‌های انسانی نظارت می‌کند. این کمیته‌ها متشکل از دانشمندانی هستند که به حوزه مطالعاتی پژوهش و اصول اخلاقی جمع آوری و استفاده اطلاعات تسلط دارند و در ابتدا در حوزه تحقیقات پزشکی پدیدار شدند؛ اما اکنون برای پژوهش‌هایی که سوژه انسانی دارند، تقریبا در تمام حوزه‌ها توسط سازمان‌های علمی مورد استفاده قرار می‌گیرند.

چند شرکت بزرگ هم عموما زیر نظر متخصص، اصول اخلاقی دیجیتال کمیته بررسی سازمانی خودشان را تاسیس کرده اند. بااین حال، این موضوع همچنان نادر است.

یک کمیته بررسی سازمانی بسته به کثرت، اهمیت و اندازه پروژه‌های دیجیتال شرکت باید بین ۴ تا ۷ عضو داشته باشد. اعضا باید شامل متخصص نظارت بر مقررات، دانشمند داده، مدیر اجرایی کسب و کار آشنا به حوزه عملکردی پروژه‌های دیجیتال (همچون منابع انسانی، بازاریابی، امور مالی) و یک یا چند متخصص ارشد با مدرک دانشگاهی مرتبط باشند. برای همه ارزیابی‌ها نیازی به حضور تمام اعضای گروه نیست. به عنوان نمونه، مدرسه اقتصاد لندن فقط برای نظارت بر پیچیده‌ترین پروژه هایش از گروه کاملش استفاده می‌کند. ممکن است پروژه‌های کوچک‌تر در عرض کمتر از یک هفته با استفاده از پرسشنامه‌ای آنلاین و با تلاش و نظرات فقط یک عضو گروه ارزیابی شوند.

هر پروژه جدیدی که شامل جمع آوری، ذخیره سازی و پردازش داده‌های انسانی می‌شود باید قبل از شروع، توسط کمیته بررسی سازمانی شرکت تایید شود و این قاعده فارغ از اینکه پروژه چقدر سنگین یا پیش پا افتاده است، نباید استثنایی داشته باشد.

بازبینی کمیته بررسی سازمانی با اولین اصل ما شروع می‌شود: تحقیق درباره اینکه داده از کجا می‌آید؛ با آگاهی و رضایت سوژه‌های تحقیق جمع آوری می‌شود و اینکه روش جمع آوری شامل هرگونه اجبار یا حقه و ترفندی می‌شود یا نه.

۱- سرمنشأ

برای اینکه بفهمید گردآوری داده چه خطراتی می‌تواند در پی داشته باشد، مورد هوش مصنوعی کلیرویو (Clearview AI) را در نظر بگیرید؛ شرکت تشخیص چهره‌ای که در سال ۲۰۲۱ به خاطر جمع آوری تصاویر مردم، استفاده از آن عکس‌ها برای تعلیم الگوریتم‌های تشخیص چهره و بعد فروش دسترسی پایگاه‌های داده تصاویر به سازمان‌های مجری قانون بسیار مورد توجه قرار گرفت. از نظر سازمان تنظیم مقررات استرالیا، این کار روش ناعادلانه‌ای برای دریافت اطلاعات شخصی و حساس افراد بدون رضایت یا اطلاع آن‌ها بود و قانون حفظ حریم خصوصی استرالیا را نقض می‌کرد. پس دولت به کلیرویو دستور داد جمع آوری داده را متوقف و عکس‌های جمع آوری شده در استرالیا را حذف کند. فرانسه هم به شرکت دستور داد جمع آوری، پردازش و ذخیره داده‌های تصویری را متوقف کنند. شاید به همین دلیل بود که فیس بوک اعلام کرد سیستم تشخیص چهره اش را کنار می‌گذارد و داده‌های اسکن چهره بیش از یک میلیارد کاربر را پاک می‌کند.

حتی زمانی که دلیل جمع آوری داده موجه است، روش به کاررفته برای جمع آوری آن می‌تواند غیراخلاقی باشد؛ همان‌طور که نمونه پیش رو که از تحقیقات ما حاصل شده این موضوع را نشان می‌دهد. یک شرکت استخدامی متوجه شد کسانی که در پلت‌فرم‌های این سازمان درخواست کار می‌دهند، فکر می‌کنند بر اساس اطلاعات آماری شان همچون سن و جنسیت مورد تبعیض قرار می‌گیرند. شرکت می‌خواست به آن‌ها اطمینان دهد که الگوریتم‌هایی که فرصت‌های شغلی را با متقاضیان تطابق می‌دهند، صرفا مبتنی بر مهارت و نسبت به اطلاعات آماری کاملا بی طرف هستند و اگر تبعیضی صورت گرفته در بنگاه‌های کاریابی بوده نه در خود پلت‌فرم؛ پس به مدرسه کسب وکار شناخته شده‌ای مراجعه و پروفسوری را پیدا کرد که حاضر بود برای امتحان تبعیض احتمالی در شرکت‌های استخدامی تحقیقاتی را ترتیب بدهد. پژوهشگر پیشنهاد کرد مطالعاتی را که چند سال قبل صورت گرفته بود شبیه سازی کنند که در آن چند رزومه متعارف ساخته بودند که فقط از نظر نژاد و جنسیت متقاضی باهم متفاوت بودند. در آن مطالعات هزاران درخواست کار جعلی به شرکت‌های محدوده فرستاده و پاسخ‌ها پیگیری و تجزیه وتحلیل شده بودند.

اگر تبعیض بارزی در کار بود، نتایج تحقیق اختلاف نرخ پذیرش را نشان می‌داد. مدیران بازاریابی و فروش شرکت از این پیشنهاد استقبال کردند. اما از آنجا که یکی از الزامات آن مدرسه کسب و کار، ارزیابی اصول اخلاقی پروژه بود، طرح پیشنهادی، تحویل کمیته بررسی سازمانی مدرسه شد و کمیته با این استدلال که پروفسور می‌خواهد با حیله و ترفند از شرکت‌ها داده جمع آوری کند، آن را رد کرد. او با این کار به کاربران دروغ می‌گفت و از آن‌ها می‌خواست بدون آگاهی و بی آنکه هیچ نفعی برایشان داشته باشد، برای مشتری مدرسه کار کنند (برعکس اگر معلوم می‌شد بنگاه‌ها از فرآیند استخدامی تبعیض آمیز استفاده می‌کردند، ممکن بود به ضررشان هم تمام شود). درس اخلاقی این داستان این است که برای جمع آوری داده اخلاقی، نیت خوب کافی نیست. شرکت‌ها نه فقط باید سرمنشأ داده‌هایی را که قصد دارند به دست بیاورند، بلکه سرمنشأ داده‌هایی را که قبلا جمع آوری کرده اند هم در نظر بگیرند. بسیاری از این شرکت‌ها مرتب اقدام به جمع آوری داده‌های تاریکی (داده تاریک به هر نوع داده فراموش شده‌ای گفته می‌شود که در نتیجه تعاملات دیجیتالی کاربران ذخیره می‌شوند، اما بلااستفاده و گمنام به جا می‌ماند) می‌کنند که به ندرت مورد استفاده قرار می‌گیرند و اغلب به دست فراموشی سپرده می‌شوند. با اینکه این داده‌ها اغلب سازمان یافته نیستند و به همین دلیل تلفیقشان مشکل است، اما ارزش بالقوه هنگفتی دارند و به همین خاطر بسیاری از برنامه‌نویسان محصولاتی را تولید می‌کنند که به شرکت‌ها کمک کند داده‌های تاریکشان را پیدا و استفاده کنند. این موضوع ما را به دومین اصل می‌رساند.

۲- هدف

داده برای هدفی غیر از هدف اصلی هم استفاده می‌شود؟ منبع اصلی داده با استفاده مجددش برای هدفی به جز هدف اولیه موافقت می‌کند؟ اگر از داده تاریک استفاده می‌شود، آیا تعهدات جمع آوری اولیه را حفظ می‌کند؟

در فضای شرکتی، داده‌هایی که با رضایت سوژه‌های انسانی برای هدف خاصی گردآوری شده اند، اغلب درگذر زمان برای اهداف دیگری هم مورد استفاده قرار می‌گیرند که سوژه‌ها از آن بی خبرند. به همین دلیل شرکت‌ها در بررسی بهره برداری از داده‌های موجود باید مشخص کنند که رضایت افزوده‌ای لازم است یا نه.

شرکت‌ها معمولا با داده‌های مشتریان اصلا موشکافانه برخورد نمی‌کنند. بسیاری به این داده‌ها به عنوان منبع درآمد نگاه می‌کنند و آن را به طرف سومی می‌فروشند؛ اما مخالفت گسترده‌ای علیه این کار در حال شکل گیری است. بیشتر شرکت‌ها از پایگاه داده مشتری هایشان برای فروش محصولات دیگری به آن‌ها هم استفاده می‌کنند؛ اما این کار هم می‌تواند برایشان دردسرساز باشد. در سال ۲۰۲۱ دفتر ریاست اطلاعات بریتانیا ویرجین مدیا را متهم به نقض حق حریم خصوصی مشتریانش کرد. ویرجین مدیا ۱۹۶۴۵۶۲ ایمیل فرستاده بود تا اطلاع دهد دارد هزینه‌های حق عضویت را ثبت می‌کند. تا اینجای کارشان منطقی بود؛ اما ویرجین مدیا از آن ایمیل‌ها استفاده کرده بود تا علاوه بر اطلاع رسانی، تبلیغ هم بکند. ازآنجا که ۴۵۰‌هزار نفر از مشترکان آن لیست انتخاب کرده بودند که ایمیل تبلیغاتی برایشان ارسال نشود، نهاد نظارتی، ویرجین مدیا را برای نقض این حق مشتریان ۵۰‌هزار دلار جریمه کرد.

این احتمال که ممکن است پایگاه‌های داده شرکت‌ها بدون رضایت تامین کننده‌های داده برای هدف دیگری مورد استفاده قرار بگیرند، ما را به سومین اصل می‌رساند.

۳- حفاظت

داده چگونه محافظت می‌شود؟ چه مدت در دسترس پروژه خواهد بود؟ چه کسی مسوول از بین بردن آن است؟

طبق گفته مرکز چاره یابی سرقت هویت، در سال ۲۰۲۱ در ایالات متحده آمریکا نزدیک به ۲‌هزار رخنه اطلاعاتی اتفاق افتاده است. حتی بزرگ‌ترین و کارآزموده‌ترین شرکت‌های تکنولوژی هم رخنه‌های امنیتی ترسناک را تجربه کرده اند که منجر به افشای مشخصات فردی بیش از چند میلیارد انسان شده است.

عمل رایج قرار دادن داده‌ها روی سرور‌های یک طرف سوم متخصص هم الزاما حفاظت بهتری را فراهم نمی‌کند. داکتولیب (doctolib) که یک برنامه نوبت دهی پزشکی است، به این علت که داده هایش را روی وب سرور‌های آمازون ذخیره کرده بود و خود آمازون و چند سازمان دیگر از جمله سازمان‌های اطلاعاتی آمریکا امکان دسترسی به آن را داشتند، دادگاهی شد. کمیته بررسی سازمانی باید به وضوح بداند که داده‌های شرکت کجا ذخیره می‌شود، چه کسی می‌تواند به آن دسترسی داشته باشد، کجا و چه زمانی ناشناس‌سازی می‌شود و چه زمانی از بین می‌رود. به همین دلیل بسیاری از شرکت‌ها باید پروتکل‌ها و تمهیدات موجودشان را تغییر دهند که می‌تواند هزینه بر باشد: همان‌طور که پس از رخنه اطلاعاتی سال ۲۰۱۴ شرکت خدمات مالی و بانکداری جی پی مورگان که ۷۶میلیون نفر و ۷ میلیون کسب‌و‌کار را به مخاطره انداخت، این بانک مجبور شد سالانه ۲۵۰ میلیون دلار صرف حفاظت از داده کند.

۴- حریم خصوصی

چه کسی به داده‌ای که می‌تواند برای تشخیص هویت به کار برود، دسترسی خواهد داشت؟ مشاهدات فردی گروه داده چگونه غیرقابل شناسایی می‌شود؟ چه کسی به اطلاعات ناشناس شده دسترسی خواهد داشت؟

معضلی که بسیاری از شرکت‌ها با آن مواجهند ایجاد توازن بین ناشناس‌سازی اندک و بیش از حد است. در اغلب مقررات دولتی، ناشناس سازی اندک بدون رضایت افراد صاحب داده غیر‌قابل قبول است. ناشناس‌سازی بیش از حد هم می‌تواند داده را برای اهداف بازاریابی بی استفاده کند. تکنیک‌های بسیاری برای ناشناس سازی وجود دارد. به صورت تئوریک، این تکنیک‌ها باید از هویت اشخاص حفاظت کنند. اما پژوهشگران موفق شده اند با داده‌های ناچیزی هویت افراد را در یک پایگاه داده مشخص کنند. حتی اطلاعات عام‌تر هم وقتی با پایگاه‌های داده دیگری ترکیب شوند، می‌توانند برای تشخیص هویت افراد به کار بروند. به همین دلیل در ارزیابی مساله امنیتی داده‌های انسانی، کمیته‌های بررسی سازمانی شرکتی باید حداقل بررسی کنند که دیوار‌های آتش ناشناس سازی تا چه حد موثرند؛ به خصوص با توجه به قدرت تحلیلگران داده در عبور از ناشناسی.

۵- آمادگی

داده چگونه پاک سازی می‌شود؟ صحت داده چگونه تایید و اصلاح می‌شود؟ داده‌های ناقص و متغیر‌های از قلم افتاده چگونه مدیریت می‌شوند؟

داده‌های ازقلم افتاده، غلط و پرت می‌توانند به شدت بر کیفیت تحلیل آماری تاثیر بگذارند و کیفیت داده معمولا ضعیف است. پاک سازی داده، به خصوص زمانی که در دوره‌های متفاوت و از واحد‌های کسب و کار و کشور‌های مختلفی جمع آوری شده باشد، می‌تواند بسیار چالش برانگیز باشد. طبق گفته پلت‌فرم تحلیل داده تبلیو (Tableau)، پاک سازی داده پنج گام ساده دارد:

۱- حذف مشاهدات تکراری یا بی ربط ۲- ترمیم خطا‌های ساختاری ۳- حذف داده‌های پرت ناخواسته ۴- مدیریت داده‌های از قلم افتاده و ۵- زیر سوال بردن داده و نتایج تحلیلی و تایید اعتبار.

هوش مصنوعی چگونه این خطر را افزایش می‌دهد؟

اما پای هوش مصنوعی که به میان می‌آید، اینکه اصول اخلاقی داده را ایده‌آل، اما نشدنی ببینیم می‌تواند خطرناک باشد. مدیر ارشد فناوری شرکت OpenAI، شرکتی که چت جی پی تی را ساخت و توسعه داد، در یکی از مصاحبه‌های اخیرش گفت: «هر چیزی به این قدرتمندی که می‌تواند بسیار سودمند باشد، عواقب احتمالی سنگینی هم خواهد داشت- و به خاطر همین است که ما تلاش می‌کنیم بفهمیم چطور مسوولانه این کار را بکنیم.» به لطف هوش مصنوعی، دانشمندان داده می‌توانند بر اساس خرده ریز‌های بقایای دیجیتالی از بازدید‌های پلت‌فرم‌های اجتماعی به مشخصات شخصی و روان‌شناختی فوق العاده دقیقی از افراد برسند. سه نفر از پژوهشگران دانشگاه کمبریج نشان دادند که لایک‌های فیس بوک چقدر ساده می‌توانند مجموعه‌ای از ویژگی‌های شخصی بسیار حساس همچون: گرایش جنسی، قومیت، مذهب و دیدگاه سیاسی، ویژگی‌های شخصیتی، هوش، شادمانی، مصرف مواد مخدر، جدایی والدین، سن و جنسیت را به درستی پیش‌بینی کنند. پژوهش دیگری که توسط سه محقق دیگر صورت گرفت نشان داد که قدرت تشخیص شخصیتی مبتنی بر کامپیوتر می‌تواند دقیق‌تر از قضاوت‌های انسانی باشد و به این ترتیب یافته‌های پژوهش قبلی را تقویت کرد. حواستان به پیامد‌های این اتفاق باشد. نباید سرسری گرفته شود. اگر دولت می‌خواست افکار و اعمال خصوصی تان را دسته بندی کند، چه احساسی پیدا می‌کردید؟

نه فقط در داده‌های تحلیل شده، بلکه در داده‌های نادیده گرفته شده هم می‌تواند مشکلی جا خوش کرده باشد. ماشین‌ها می‌توانند فقط از چیزی که به خوردشان داده می‌شود یاد بگیرند؛ آن‌ها نمی‌توانند متغیر‌هایی را که بنا نیست مشاهده کنند تشخیص دهند.

این پدیده به «سوگیری متغیر‌های حذف شده» معروف است. نمونه بارز این اتفاق، توسعه الگوریتم شناسایی مشتریان باردار فروشگاه‌های زنجیره‌ای تارگت است. این کار به تارگت اجازه داد به امید به دست آوردن مشتریان وفاداری که تمام محصولات فرزندشان را از تارگت بخرند، پیش از رقبایشان محصولات مربوطه را تبلیغ کنند.

مشکل پیش روی هیات‌های مدیره و مدیران رده بالا این است که استفاده از هوش مصنوعی برای جذب مشتری، تشخیص شایستگی نیروی استخدامی یا تایید درخواست وام می‌تواند اثرات فاجعه باری در پی داشته باشد. ممکن است پیش‌بینی‌های هوش مصنوعی از رفتار انسان‌ها به شدت درست باشد؛ اما بسترسازی اش نامناسب باشد. به علاوه اینکه ممکن است به پیش‌بینی‌های به وضوح غلطی منجر شوند که رسما احمقانه یا حتی از نظر اخلاقی مشمئزکننده است. تکیه بر ابزار‌های آماری خودکار برای تصمیم‌گیری ایده بدی است. اعضای هیات مدیره و مدیران اجرایی ارشد باید کمیته بررسی سازمانی شرکتی را نه به عنوان یک هزینه، محدودیت یا یک الزام اجتماعی، بلکه به عنوان یک سیستم هشدار زودهنگام ببینند.

ترجمه: دنیای اقتصاد
منبع: hbr