آشكار شدن ردپاي تعصبات نژادي در الگوريتم‌هاي هوش مصنوعي تشخيص صدا

پنج‌شنبه ۷ فروردين ۱۳۹۹ - ۱۴:۳۰

مطالعه 4 دقيقه

احتمال وجود تعصب، نژادپرستي و جانب‌‌گرايي در الگوريتم‌هاي هوش مصنوعي از نگراني‌هاي عمده‌ي محققان است و در الگوريتم‌هاي تشخيص صدا هم ديده مي‌شود.

تبليغات

اتكا به الگوريتم‌ها و واگذار كردن تصميم‌گيري‌هاي مهم به آن‌ها، روز‌به‌روز در دنياي فناوري بيشتر مي‌شود. درواقع انسان‌ها بيش از هميشه تصميم‌گيري را برعهده‌ي الگوريتم‌ها مي‌گذارند تا شايد راحت‌تر زندگي كنند. ازطرفي اين تصور وجود دارد كه الگوريتم‌هاي كامپيوتري و هوش مصنوعي به‌صورت كلي، به تعصب‌هاي رايج در ميان انسان‌ها دچار نيستند. ازطرفي، الگوريتم‌ها براساس داده‌ها يادگيري مي‌بينند و داده‌ها با همان تعصب ذاتي انساني جمع‌آوري شده‌اند. درنتيجه امروز شاهد الگوريتم‌هاي هوش مصنوعي هستيم كه تعصب و بعضا نژادپرستي توسعه‌دهنده‌هاي خود را تكرار مي‌كنند. تاكنون مثال‌هاي متعددي از تعصب در تصميم‌گيري الگوريتم‌هاي هوش مصنوعي ديده شده است. ظاهرا اكثر الگوريتم‌ها به تعصب دچار هستند.

محققان دانشگاه استنفورد در جديدترين تحقيقات خود، حوزه‌ي جديدي را كشف كرده‌اند كه احتمالا از خطر تعصب و نژادپرستي الگوريتمي در امان نيست. الگوريتم‌هاي تشخيص صدا كه متخصصدهاي متنوعي از تبديل ساده‌ي صوت به متن تا دريافت دستورهاي صوتي در موبايل‌هاي هوشمند را انجام مي‌دهند، دچار تعصب ذاتي هستند. ظاهرا اين الگوريتم‌ها در تشخيص صداي افرادي با نژاد آفريقايي آمريكايي اشكالات عملكردي پيدا مي‌كنند. البته برخي شواهد نشان مي‌دهد كه مختصات جغرافيايي هم در عملكرد آن‌‌ها تأثير دارد.

مقاله‌هاي مرتبط:

هوش مصنوعي چيست؟ هر آنچه بايد درباره فناوري مرموز و جذاب امروز بدانيم

سوگيري عمدي در هوش مصنوعي چگونه به ما آسيب مي‌رساند

ليست كامل دستورات سيري اپل

سيستم‌هاي تشخيص صدا امروز به بخشي مهم و حياتي در دنياي فناوري تبديل شده‌اند. تقريبا هر شركت بزرگ دنياي فناوري، سيستم تشخيص صداي اختصاصي خود را دارد. گروه تحقيقات براي آزمايش خود سيستم‌ تشخيص صداي شركت‌هاي آمازون، اپل، گوگل، مايكروسافت و IBM را مورد مطالعه قرار داد. اگرچه برخي از سرويس‌ها به‌عنوان سرويس فروشي به كسب‌وكارهاي ديگر ارائه مي‌شوند، الگوريتم‌هاي اپل و گوگل به‌صورت مستقيم در موبايل هوشمند مصرف‌كننده‌ها متخصصد دارند. نقش روزافزون الگوريتم‌‌ها در زندگي مردم، خطا در عملكرد آن‌ها را براي بسياري ناراحت‌كننده و آزاردهنده مي‌كند. محققان در تحقيقات خود تلاش كردند تا هرگونه تعصب يا نژادپرستي را در اختلال‌هاي عملكردي الگوريتم‌ها تشخيص دهند.

گروه تحقيقاتي براي آزمايش الگوريتم‌ها، مجموعه‌اي عظيم از نمونه‌هاي صوتي را جمع‌آوري كرد. دو مجموعه‌ي آزمايشي، اكثرا شامل صداهاي يك گروه خاص بودند. يك مجموعه، بيشتر شامل صداي آفريقايي-آمريكايي‌هاي مقيم كاروليناي شمالي و ديگر اكثرا شامل صداي سفيدپوستان آن منطقه بود. نمونه‌هاي ديگر، شامل صداهاي گوناگون و تركيبي از نژادهاي ديگر بودند. نمونه‌هاي از مناطقي همچون راچستر نينيورك، ساكرامنتو كاليفرنيا و واشينگتن دي‌سي جمع‌آوري شدند. تمامي مجموعه‌هاي صوتي در همه‌ي پنج الگوريتم بزرگ تشخيص صدا آزمايش شدند. دقت الگوريتم‌ها ازطريق مقايسه با تشخيص صدا توسط متخصص انساني، اندازه‌گيري شد.

محققان براي آزمايش خود معياري به‌نام «نرخ خطاي كلمه‌اي» تعيين كردند. خطا شامل كلمات تشخيص‌داده نشده و كلماتي مي‌شد كه به اشتباه توسط الگوريتم تفسير مي‌شدند. همه‌ي سيستم‌هاي تشخيص صدا عملكردي مناسب را در آزمايش نشان دادند و همگي نرخي كمتر از ۰/۵ داشتند. در آزمايش مذكور، سيستم اپل بدترين و سيستم مايكروسافت، بهترين امتيازها را دريافت كردند. در همه‌ي آزمايش‌ها، نرخ خطا در صداهاي گروه آفريقايي-آمريكايي، بيشتر از نرخ خطا در گروه سفيدپوست بود. درواقع به‌صورت كلي نرخ خطاي دوبرابري در تشخيص صداي يك نژاد ديده مي‌شد.

نرخ خطاي سيستم‌هاي تشخيص صدا در تفسير صداي مردان از نژاد آفريقايي-آمريكايي بيش از همه بود. مردان و زنان سفيدپوست نرخ خطاي ميانگين ۰/۲۱ و ۰/۱۷ داشتند، درحاليكه نرخ خطاي زنان آفريقايي-آمريكايي برابر با ۰/۳ و براي مردان آن نژاد برابر با ۰/۴۱ بود.

تفاوت در نرخ خطاي سيستم‌‌هاي تشخيص صدا در تفسير صدا از نژادهاي گوناگون چه اهميتي دارد؟ محققان ادعا مي‌كنند كه بسته به كارايي سيستم‌ها، تفاوت در نرخ خطا اهميت بالايي پيدا مي‌كند. وقتي نرخ خطا از حدي بالاتر برود، اصلاح تبديل صوت به متن كامپيوتري زمان بيشتري نسبت به نوشتن دستي توسط خود فرد نياز خواهد داشت. به‌علاوه، با نرخ خطاي بالا، موبايل هوشمند شما اكثر فرمان‌هاي صوتي را اشتباه انجام مي‌دهد.

شايد نتايج بالا، به منطقه‌ي جغرافيايي وابسته باشند. از انديشه متخصصين آمريكايي‌ها، شهروندان كاليفرنيا عموما به‌عنوان افرادي بدون لهجه شناخته مي‌شوند. نمونه‌هاي صوتي آن منطقه، نرخ خطاي پاييني داشتند. منطقه‌ي راچستر هم نتايجي نزديك به كاليفرنيا داشت و نتايج منطقه‌ي كلمبيا، به منطقه‌ي روستايي در كاروليناي شمالي نزديك‌تر بود. اگر فرض كنيم موقعيت جغرافيايي، در نرخ خطاي الگوريتم‌ها تأثير داشته باشد، بايد نمونه‌هاي بزرگ‌تري براي آزمايش خطا به‌كار گرفته شود.

محققان در مرحله‌ي بعدي، ساختاربندي زبان را تحليل كردند. از آنجايي كه آن‌ها به الگوريتم‌هاي پايه‌ي پنج سيستم برتر دسترسي نداشتد، از پكيج متن‌بازي استفاده كردند كه كارايي‌هاي مشابه دارد. آن‌ها درك نرم‌افزار از زبان را با فاكتوري به‌نام perplexity مطالعه كردند. اين فاكتور، قدرت پيش‌بيني كلمه‌ي بعدي در يك جمله را در سيستم تشخيص صوت مطالعه مي‌كند. با مطالعه فاكتور مذكور مشخص شد كه سيستم‌ها توانايي بهتري در تشخيص ساختاربندي زبان آفريقايي-آمريكايي‌ها دارند. چرا نتايج به‌ اينگونه شكل گرفتند؟

سيستم‌ها در تشخيص صداي برخي نژادها و گروه‌هاي خاص، خطاي عملكردي بيشتري دارند

محققان با مطالعه دو نوع خروجي تحقيقاتي به اين نتيجه رسيدند كه دو گرايش نژادي در صحبت كردن وجود دارد. آفريقايي-آمريكايي‌ها نسبت به همشهري‌هاي سفيدپوست خود، از تعداد كلمات كمتري استفاده مي‌كنند. ازطرفي جمله‌بندي آن‌ها ساختار پيچيده‌تري دارد. آن‌ها در بسياري از موارد، كلمات را از ميان جمله‌ها حذف مي‌كنند، اما مخاطب به‌راحتي منظورشان را متوجه مي‌شود.

در مجموع يافته‌هاي دانشمندان اين سؤال مطرح مي‌شود كه سيستم‌‌هاي تجاري چقدر براي واكنش بهتر به صداهاي يك نژاد خاص بهينه‌سازي شده‌اند. محققان براي پيدا كردن پاسخ، نمونه‌هاي موجود را جست‌وجو گردند تا عبارت‌هاي مشابه و برابر بين دو نژاد را پيدا كنند. وقتي اين عبارت‌هاي مشابه در سيستم‌ها آزمايش شدند، باز هم نرخ خطاي آفريقايي-آمريكايي‌ها بيشتر از سفيدپوستان بود.

سيستم‌هاي تشخص صدا بايد فاكتورهاي متعددي را در تفسير صحبت متخصصان در انديشه متخصصين بگيرند. تشخيص كلمه‌ها، ساختاربندي جمله‌ها و معناي مورد انديشه متخصصين مخاطب، برخي از فاكتورها هستند. با مطالعه تجميعي همه‌ي فاكتورها مي‌توان كلمات را به‌خوبي پيش‌بيني كرد. سيستم‌هاي تجاري كنوني ظاهرا در تفسير كلمات برخي از جوامع با چالش روبه‌رو هستند. اين سيستم‌ها در ذات خود جانب‌گرا طراحي نشده‌اند. ظاهرا زيرمجموعه‌اي از همه‌ي صداهاي موجود در ايالات متحده براي يادگيري سيستم‌ها استفاده شده است. درنتيجه آن‌ها براي تشخيص برخي صداها، يادگيري كافي را نديده‌اند. درنهايت اين وظيفه برعهده‌ي شركت‌هاي توسعه‌دهنده خواهد بود تا مجموعه‌ي يادگيريي سيستم‌ها را براي درك بهتر گفتار همه‌ي گروه‌هاي جامعه، بهينه‌سازي كنند.

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

مهدي زارع سريزدي

تبليغات

جديد‌ترين مطالب روز

مقاله رو دوست داشتي؟

انديشه متخصصينت چيه؟

مهدي زارع سريزدي

هم انديشي ها