زمانی که شرکتها پروژه جدیدی را بررسی میکنند که نیاز به دادههای انسانی دارد یا پایگاههای داده موجود را به کار میگیرد، باید روی پنج مساله اساسی تمرکز کنند: سرمنشأ داده، هدف کاربردی، نحوه حفاظت، نحوه حفظ حریم خصوصی تامین کنندگان داده و نحوه آماده سازی داده برای استفاده.
ما در اینجا به هرکدام از این اصول میپردازیم و به این موضوع توجه میکنیم که چطور هوش مصنوعی خطر سوءاستفاده از داده را افزایش میدهد؛ اما اول نگاهی میاندازیم به الزامات سازمانی برای داشتن یک فرآیند بررسی اخلاقی مستحکم.
در محیطهای دانشگاهی معمولا کمیته بررسی سازمانی داخل مجموعه (IRB) بر گردآوری داده از سوژههای انسانی نظارت میکند. این کمیتهها متشکل از دانشمندانی هستند که به حوزه مطالعاتی پژوهش و اصول اخلاقی جمع آوری و استفاده اطلاعات تسلط دارند و در ابتدا در حوزه تحقیقات پزشکی پدیدار شدند؛ اما اکنون برای پژوهشهایی که سوژه انسانی دارند، تقریبا در تمام حوزهها توسط سازمانهای علمی مورد استفاده قرار میگیرند.
چند شرکت بزرگ هم عموما زیر نظر متخصص، اصول اخلاقی دیجیتال کمیته بررسی سازمانی خودشان را تاسیس کرده اند. بااین حال، این موضوع همچنان نادر است.
یک کمیته بررسی سازمانی بسته به کثرت، اهمیت و اندازه پروژههای دیجیتال شرکت باید بین ۴ تا ۷ عضو داشته باشد. اعضا باید شامل متخصص نظارت بر مقررات، دانشمند داده، مدیر اجرایی کسب و کار آشنا به حوزه عملکردی پروژههای دیجیتال (همچون منابع انسانی، بازاریابی، امور مالی) و یک یا چند متخصص ارشد با مدرک دانشگاهی مرتبط باشند. برای همه ارزیابیها نیازی به حضور تمام اعضای گروه نیست. به عنوان نمونه، مدرسه اقتصاد لندن فقط برای نظارت بر پیچیدهترین پروژه هایش از گروه کاملش استفاده میکند. ممکن است پروژههای کوچکتر در عرض کمتر از یک هفته با استفاده از پرسشنامهای آنلاین و با تلاش و نظرات فقط یک عضو گروه ارزیابی شوند.
هر پروژه جدیدی که شامل جمع آوری، ذخیره سازی و پردازش دادههای انسانی میشود باید قبل از شروع، توسط کمیته بررسی سازمانی شرکت تایید شود و این قاعده فارغ از اینکه پروژه چقدر سنگین یا پیش پا افتاده است، نباید استثنایی داشته باشد.
بازبینی کمیته بررسی سازمانی با اولین اصل ما شروع میشود: تحقیق درباره اینکه داده از کجا میآید؛ با آگاهی و رضایت سوژههای تحقیق جمع آوری میشود و اینکه روش جمع آوری شامل هرگونه اجبار یا حقه و ترفندی میشود یا نه.
برای اینکه بفهمید گردآوری داده چه خطراتی میتواند در پی داشته باشد، مورد هوش مصنوعی کلیرویو (Clearview AI) را در نظر بگیرید؛ شرکت تشخیص چهرهای که در سال ۲۰۲۱ به خاطر جمع آوری تصاویر مردم، استفاده از آن عکسها برای تعلیم الگوریتمهای تشخیص چهره و بعد فروش دسترسی پایگاههای داده تصاویر به سازمانهای مجری قانون بسیار مورد توجه قرار گرفت. از نظر سازمان تنظیم مقررات استرالیا، این کار روش ناعادلانهای برای دریافت اطلاعات شخصی و حساس افراد بدون رضایت یا اطلاع آنها بود و قانون حفظ حریم خصوصی استرالیا را نقض میکرد. پس دولت به کلیرویو دستور داد جمع آوری داده را متوقف و عکسهای جمع آوری شده در استرالیا را حذف کند. فرانسه هم به شرکت دستور داد جمع آوری، پردازش و ذخیره دادههای تصویری را متوقف کنند. شاید به همین دلیل بود که فیس بوک اعلام کرد سیستم تشخیص چهره اش را کنار میگذارد و دادههای اسکن چهره بیش از یک میلیارد کاربر را پاک میکند.
حتی زمانی که دلیل جمع آوری داده موجه است، روش به کاررفته برای جمع آوری آن میتواند غیراخلاقی باشد؛ همانطور که نمونه پیش رو که از تحقیقات ما حاصل شده این موضوع را نشان میدهد. یک شرکت استخدامی متوجه شد کسانی که در پلتفرمهای این سازمان درخواست کار میدهند، فکر میکنند بر اساس اطلاعات آماری شان همچون سن و جنسیت مورد تبعیض قرار میگیرند. شرکت میخواست به آنها اطمینان دهد که الگوریتمهایی که فرصتهای شغلی را با متقاضیان تطابق میدهند، صرفا مبتنی بر مهارت و نسبت به اطلاعات آماری کاملا بی طرف هستند و اگر تبعیضی صورت گرفته در بنگاههای کاریابی بوده نه در خود پلتفرم؛ پس به مدرسه کسب وکار شناخته شدهای مراجعه و پروفسوری را پیدا کرد که حاضر بود برای امتحان تبعیض احتمالی در شرکتهای استخدامی تحقیقاتی را ترتیب بدهد. پژوهشگر پیشنهاد کرد مطالعاتی را که چند سال قبل صورت گرفته بود شبیه سازی کنند که در آن چند رزومه متعارف ساخته بودند که فقط از نظر نژاد و جنسیت متقاضی باهم متفاوت بودند. در آن مطالعات هزاران درخواست کار جعلی به شرکتهای محدوده فرستاده و پاسخها پیگیری و تجزیه وتحلیل شده بودند.
اگر تبعیض بارزی در کار بود، نتایج تحقیق اختلاف نرخ پذیرش را نشان میداد. مدیران بازاریابی و فروش شرکت از این پیشنهاد استقبال کردند. اما از آنجا که یکی از الزامات آن مدرسه کسب و کار، ارزیابی اصول اخلاقی پروژه بود، طرح پیشنهادی، تحویل کمیته بررسی سازمانی مدرسه شد و کمیته با این استدلال که پروفسور میخواهد با حیله و ترفند از شرکتها داده جمع آوری کند، آن را رد کرد. او با این کار به کاربران دروغ میگفت و از آنها میخواست بدون آگاهی و بی آنکه هیچ نفعی برایشان داشته باشد، برای مشتری مدرسه کار کنند (برعکس اگر معلوم میشد بنگاهها از فرآیند استخدامی تبعیض آمیز استفاده میکردند، ممکن بود به ضررشان هم تمام شود). درس اخلاقی این داستان این است که برای جمع آوری داده اخلاقی، نیت خوب کافی نیست. شرکتها نه فقط باید سرمنشأ دادههایی را که قصد دارند به دست بیاورند، بلکه سرمنشأ دادههایی را که قبلا جمع آوری کرده اند هم در نظر بگیرند. بسیاری از این شرکتها مرتب اقدام به جمع آوری دادههای تاریکی (داده تاریک به هر نوع داده فراموش شدهای گفته میشود که در نتیجه تعاملات دیجیتالی کاربران ذخیره میشوند، اما بلااستفاده و گمنام به جا میماند) میکنند که به ندرت مورد استفاده قرار میگیرند و اغلب به دست فراموشی سپرده میشوند. با اینکه این دادهها اغلب سازمان یافته نیستند و به همین دلیل تلفیقشان مشکل است، اما ارزش بالقوه هنگفتی دارند و به همین خاطر بسیاری از برنامهنویسان محصولاتی را تولید میکنند که به شرکتها کمک کند دادههای تاریکشان را پیدا و استفاده کنند. این موضوع ما را به دومین اصل میرساند.
داده برای هدفی غیر از هدف اصلی هم استفاده میشود؟ منبع اصلی داده با استفاده مجددش برای هدفی به جز هدف اولیه موافقت میکند؟ اگر از داده تاریک استفاده میشود، آیا تعهدات جمع آوری اولیه را حفظ میکند؟
در فضای شرکتی، دادههایی که با رضایت سوژههای انسانی برای هدف خاصی گردآوری شده اند، اغلب درگذر زمان برای اهداف دیگری هم مورد استفاده قرار میگیرند که سوژهها از آن بی خبرند. به همین دلیل شرکتها در بررسی بهره برداری از دادههای موجود باید مشخص کنند که رضایت افزودهای لازم است یا نه.
شرکتها معمولا با دادههای مشتریان اصلا موشکافانه برخورد نمیکنند. بسیاری به این دادهها به عنوان منبع درآمد نگاه میکنند و آن را به طرف سومی میفروشند؛ اما مخالفت گستردهای علیه این کار در حال شکل گیری است. بیشتر شرکتها از پایگاه داده مشتری هایشان برای فروش محصولات دیگری به آنها هم استفاده میکنند؛ اما این کار هم میتواند برایشان دردسرساز باشد. در سال ۲۰۲۱ دفتر ریاست اطلاعات بریتانیا ویرجین مدیا را متهم به نقض حق حریم خصوصی مشتریانش کرد. ویرجین مدیا ۱۹۶۴۵۶۲ ایمیل فرستاده بود تا اطلاع دهد دارد هزینههای حق عضویت را ثبت میکند. تا اینجای کارشان منطقی بود؛ اما ویرجین مدیا از آن ایمیلها استفاده کرده بود تا علاوه بر اطلاع رسانی، تبلیغ هم بکند. ازآنجا که ۴۵۰هزار نفر از مشترکان آن لیست انتخاب کرده بودند که ایمیل تبلیغاتی برایشان ارسال نشود، نهاد نظارتی، ویرجین مدیا را برای نقض این حق مشتریان ۵۰هزار دلار جریمه کرد.
این احتمال که ممکن است پایگاههای داده شرکتها بدون رضایت تامین کنندههای داده برای هدف دیگری مورد استفاده قرار بگیرند، ما را به سومین اصل میرساند.
داده چگونه محافظت میشود؟ چه مدت در دسترس پروژه خواهد بود؟ چه کسی مسوول از بین بردن آن است؟
طبق گفته مرکز چاره یابی سرقت هویت، در سال ۲۰۲۱ در ایالات متحده آمریکا نزدیک به ۲هزار رخنه اطلاعاتی اتفاق افتاده است. حتی بزرگترین و کارآزمودهترین شرکتهای تکنولوژی هم رخنههای امنیتی ترسناک را تجربه کرده اند که منجر به افشای مشخصات فردی بیش از چند میلیارد انسان شده است.
عمل رایج قرار دادن دادهها روی سرورهای یک طرف سوم متخصص هم الزاما حفاظت بهتری را فراهم نمیکند. داکتولیب (doctolib) که یک برنامه نوبت دهی پزشکی است، به این علت که داده هایش را روی وب سرورهای آمازون ذخیره کرده بود و خود آمازون و چند سازمان دیگر از جمله سازمانهای اطلاعاتی آمریکا امکان دسترسی به آن را داشتند، دادگاهی شد. کمیته بررسی سازمانی باید به وضوح بداند که دادههای شرکت کجا ذخیره میشود، چه کسی میتواند به آن دسترسی داشته باشد، کجا و چه زمانی ناشناسسازی میشود و چه زمانی از بین میرود. به همین دلیل بسیاری از شرکتها باید پروتکلها و تمهیدات موجودشان را تغییر دهند که میتواند هزینه بر باشد: همانطور که پس از رخنه اطلاعاتی سال ۲۰۱۴ شرکت خدمات مالی و بانکداری جی پی مورگان که ۷۶میلیون نفر و ۷ میلیون کسبوکار را به مخاطره انداخت، این بانک مجبور شد سالانه ۲۵۰ میلیون دلار صرف حفاظت از داده کند.
چه کسی به دادهای که میتواند برای تشخیص هویت به کار برود، دسترسی خواهد داشت؟ مشاهدات فردی گروه داده چگونه غیرقابل شناسایی میشود؟ چه کسی به اطلاعات ناشناس شده دسترسی خواهد داشت؟
معضلی که بسیاری از شرکتها با آن مواجهند ایجاد توازن بین ناشناسسازی اندک و بیش از حد است. در اغلب مقررات دولتی، ناشناس سازی اندک بدون رضایت افراد صاحب داده غیرقابل قبول است. ناشناسسازی بیش از حد هم میتواند داده را برای اهداف بازاریابی بی استفاده کند. تکنیکهای بسیاری برای ناشناس سازی وجود دارد. به صورت تئوریک، این تکنیکها باید از هویت اشخاص حفاظت کنند. اما پژوهشگران موفق شده اند با دادههای ناچیزی هویت افراد را در یک پایگاه داده مشخص کنند. حتی اطلاعات عامتر هم وقتی با پایگاههای داده دیگری ترکیب شوند، میتوانند برای تشخیص هویت افراد به کار بروند. به همین دلیل در ارزیابی مساله امنیتی دادههای انسانی، کمیتههای بررسی سازمانی شرکتی باید حداقل بررسی کنند که دیوارهای آتش ناشناس سازی تا چه حد موثرند؛ به خصوص با توجه به قدرت تحلیلگران داده در عبور از ناشناسی.
داده چگونه پاک سازی میشود؟ صحت داده چگونه تایید و اصلاح میشود؟ دادههای ناقص و متغیرهای از قلم افتاده چگونه مدیریت میشوند؟
دادههای ازقلم افتاده، غلط و پرت میتوانند به شدت بر کیفیت تحلیل آماری تاثیر بگذارند و کیفیت داده معمولا ضعیف است. پاک سازی داده، به خصوص زمانی که در دورههای متفاوت و از واحدهای کسب و کار و کشورهای مختلفی جمع آوری شده باشد، میتواند بسیار چالش برانگیز باشد. طبق گفته پلتفرم تحلیل داده تبلیو (Tableau)، پاک سازی داده پنج گام ساده دارد:
۱- حذف مشاهدات تکراری یا بی ربط ۲- ترمیم خطاهای ساختاری ۳- حذف دادههای پرت ناخواسته ۴- مدیریت دادههای از قلم افتاده و ۵- زیر سوال بردن داده و نتایج تحلیلی و تایید اعتبار.
برای شرکتهای بزرگی که رقبای سرسختی دارند، اصول اخلاقی میتواند مثل تجملاتی گرانقیمت به نظر برسد. به عنوان نمونه، ظاهرا مایکروسافت تمام تیم اصول اخلاقی پروژه هوش مصنوعی بینگش را اخراج کرد؛ چون طبق اخبار و گزارشهای آنلاین، گوگل راهی تا انتشار برنامه مبتنی بر هوش مصنوعی خود نداشته؛ پس باید دست میجنباندند.
اما پای هوش مصنوعی که به میان میآید، اینکه اصول اخلاقی داده را ایدهآل، اما نشدنی ببینیم میتواند خطرناک باشد. مدیر ارشد فناوری شرکت OpenAI، شرکتی که چت جی پی تی را ساخت و توسعه داد، در یکی از مصاحبههای اخیرش گفت: «هر چیزی به این قدرتمندی که میتواند بسیار سودمند باشد، عواقب احتمالی سنگینی هم خواهد داشت- و به خاطر همین است که ما تلاش میکنیم بفهمیم چطور مسوولانه این کار را بکنیم.» به لطف هوش مصنوعی، دانشمندان داده میتوانند بر اساس خرده ریزهای بقایای دیجیتالی از بازدیدهای پلتفرمهای اجتماعی به مشخصات شخصی و روانشناختی فوق العاده دقیقی از افراد برسند. سه نفر از پژوهشگران دانشگاه کمبریج نشان دادند که لایکهای فیس بوک چقدر ساده میتوانند مجموعهای از ویژگیهای شخصی بسیار حساس همچون: گرایش جنسی، قومیت، مذهب و دیدگاه سیاسی، ویژگیهای شخصیتی، هوش، شادمانی، مصرف مواد مخدر، جدایی والدین، سن و جنسیت را به درستی پیشبینی کنند. پژوهش دیگری که توسط سه محقق دیگر صورت گرفت نشان داد که قدرت تشخیص شخصیتی مبتنی بر کامپیوتر میتواند دقیقتر از قضاوتهای انسانی باشد و به این ترتیب یافتههای پژوهش قبلی را تقویت کرد. حواستان به پیامدهای این اتفاق باشد. نباید سرسری گرفته شود. اگر دولت میخواست افکار و اعمال خصوصی تان را دسته بندی کند، چه احساسی پیدا میکردید؟
نه فقط در دادههای تحلیل شده، بلکه در دادههای نادیده گرفته شده هم میتواند مشکلی جا خوش کرده باشد. ماشینها میتوانند فقط از چیزی که به خوردشان داده میشود یاد بگیرند؛ آنها نمیتوانند متغیرهایی را که بنا نیست مشاهده کنند تشخیص دهند.
این پدیده به «سوگیری متغیرهای حذف شده» معروف است. نمونه بارز این اتفاق، توسعه الگوریتم شناسایی مشتریان باردار فروشگاههای زنجیرهای تارگت است. این کار به تارگت اجازه داد به امید به دست آوردن مشتریان وفاداری که تمام محصولات فرزندشان را از تارگت بخرند، پیش از رقبایشان محصولات مربوطه را تبلیغ کنند.
مشکل پیش روی هیاتهای مدیره و مدیران رده بالا این است که استفاده از هوش مصنوعی برای جذب مشتری، تشخیص شایستگی نیروی استخدامی یا تایید درخواست وام میتواند اثرات فاجعه باری در پی داشته باشد. ممکن است پیشبینیهای هوش مصنوعی از رفتار انسانها به شدت درست باشد؛ اما بسترسازی اش نامناسب باشد. به علاوه اینکه ممکن است به پیشبینیهای به وضوح غلطی منجر شوند که رسما احمقانه یا حتی از نظر اخلاقی مشمئزکننده است. تکیه بر ابزارهای آماری خودکار برای تصمیمگیری ایده بدی است. اعضای هیات مدیره و مدیران اجرایی ارشد باید کمیته بررسی سازمانی شرکتی را نه به عنوان یک هزینه، محدودیت یا یک الزام اجتماعی، بلکه به عنوان یک سیستم هشدار زودهنگام ببینند.
ترجمه: دنیای اقتصاد
منبع: hbr