آشكار شدن ردپاي تعصبات نژادي در الگوريتمهاي هوش مصنوعي تشخيص صدا
اتكا به الگوريتمها و واگذار كردن تصميمگيريهاي مهم به آنها، روزبهروز در دنياي فناوري بيشتر ميشود. درواقع انسانها بيش از هميشه تصميمگيري را برعهدهي الگوريتمها ميگذارند تا شايد راحتتر زندگي كنند. ازطرفي اين تصور وجود دارد كه الگوريتمهاي كامپيوتري و هوش مصنوعي بهصورت كلي، به تعصبهاي رايج در ميان انسانها دچار نيستند. ازطرفي، الگوريتمها براساس دادهها يادگيري ميبينند و دادهها با همان تعصب ذاتي انساني جمعآوري شدهاند. درنتيجه امروز شاهد الگوريتمهاي هوش مصنوعي هستيم كه تعصب و بعضا نژادپرستي توسعهدهندههاي خود را تكرار ميكنند. تاكنون مثالهاي متعددي از تعصب در تصميمگيري الگوريتمهاي هوش مصنوعي ديده شده است. ظاهرا اكثر الگوريتمها به تعصب دچار هستند.
محققان دانشگاه استنفورد در جديدترين تحقيقات خود، حوزهي جديدي را كشف كردهاند كه احتمالا از خطر تعصب و نژادپرستي الگوريتمي در امان نيست. الگوريتمهاي تشخيص صدا كه متخصصدهاي متنوعي از تبديل سادهي صوت به متن تا دريافت دستورهاي صوتي در موبايلهاي هوشمند را انجام ميدهند، دچار تعصب ذاتي هستند. ظاهرا اين الگوريتمها در تشخيص صداي افرادي با نژاد آفريقايي آمريكايي اشكالات عملكردي پيدا ميكنند. البته برخي شواهد نشان ميدهد كه مختصات جغرافيايي هم در عملكرد آنها تأثير دارد.
سيستمهاي تشخيص صدا امروز به بخشي مهم و حياتي در دنياي فناوري تبديل شدهاند. تقريبا هر شركت بزرگ دنياي فناوري، سيستم تشخيص صداي اختصاصي خود را دارد. گروه تحقيقات براي آزمايش خود سيستم تشخيص صداي شركتهاي آمازون، اپل، گوگل، مايكروسافت و IBM را مورد مطالعه قرار داد. اگرچه برخي از سرويسها بهعنوان سرويس فروشي به كسبوكارهاي ديگر ارائه ميشوند، الگوريتمهاي اپل و گوگل بهصورت مستقيم در موبايل هوشمند مصرفكنندهها متخصصد دارند. نقش روزافزون الگوريتمها در زندگي مردم، خطا در عملكرد آنها را براي بسياري ناراحتكننده و آزاردهنده ميكند. محققان در تحقيقات خود تلاش كردند تا هرگونه تعصب يا نژادپرستي را در اختلالهاي عملكردي الگوريتمها تشخيص دهند.
گروه تحقيقاتي براي آزمايش الگوريتمها، مجموعهاي عظيم از نمونههاي صوتي را جمعآوري كرد. دو مجموعهي آزمايشي، اكثرا شامل صداهاي يك گروه خاص بودند. يك مجموعه، بيشتر شامل صداي آفريقايي-آمريكاييهاي مقيم كاروليناي شمالي و ديگر اكثرا شامل صداي سفيدپوستان آن منطقه بود. نمونههاي ديگر، شامل صداهاي گوناگون و تركيبي از نژادهاي ديگر بودند. نمونههاي از مناطقي همچون راچستر نينيورك، ساكرامنتو كاليفرنيا و واشينگتن ديسي جمعآوري شدند. تمامي مجموعههاي صوتي در همهي پنج الگوريتم بزرگ تشخيص صدا آزمايش شدند. دقت الگوريتمها ازطريق مقايسه با تشخيص صدا توسط متخصص انساني، اندازهگيري شد.
محققان براي آزمايش خود معياري بهنام «نرخ خطاي كلمهاي» تعيين كردند. خطا شامل كلمات تشخيصداده نشده و كلماتي ميشد كه به اشتباه توسط الگوريتم تفسير ميشدند. همهي سيستمهاي تشخيص صدا عملكردي مناسب را در آزمايش نشان دادند و همگي نرخي كمتر از ۰/۵ داشتند. در آزمايش مذكور، سيستم اپل بدترين و سيستم مايكروسافت، بهترين امتيازها را دريافت كردند. در همهي آزمايشها، نرخ خطا در صداهاي گروه آفريقايي-آمريكايي، بيشتر از نرخ خطا در گروه سفيدپوست بود. درواقع بهصورت كلي نرخ خطاي دوبرابري در تشخيص صداي يك نژاد ديده ميشد.
نرخ خطاي سيستمهاي تشخيص صدا در تفسير صداي مردان از نژاد آفريقايي-آمريكايي بيش از همه بود. مردان و زنان سفيدپوست نرخ خطاي ميانگين ۰/۲۱ و ۰/۱۷ داشتند، درحاليكه نرخ خطاي زنان آفريقايي-آمريكايي برابر با ۰/۳ و براي مردان آن نژاد برابر با ۰/۴۱ بود.
تفاوت در نرخ خطاي سيستمهاي تشخيص صدا در تفسير صدا از نژادهاي گوناگون چه اهميتي دارد؟ محققان ادعا ميكنند كه بسته به كارايي سيستمها، تفاوت در نرخ خطا اهميت بالايي پيدا ميكند. وقتي نرخ خطا از حدي بالاتر برود، اصلاح تبديل صوت به متن كامپيوتري زمان بيشتري نسبت به نوشتن دستي توسط خود فرد نياز خواهد داشت. بهعلاوه، با نرخ خطاي بالا، موبايل هوشمند شما اكثر فرمانهاي صوتي را اشتباه انجام ميدهد.
شايد نتايج بالا، به منطقهي جغرافيايي وابسته باشند. از انديشه متخصصين آمريكاييها، شهروندان كاليفرنيا عموما بهعنوان افرادي بدون لهجه شناخته ميشوند. نمونههاي صوتي آن منطقه، نرخ خطاي پاييني داشتند. منطقهي راچستر هم نتايجي نزديك به كاليفرنيا داشت و نتايج منطقهي كلمبيا، به منطقهي روستايي در كاروليناي شمالي نزديكتر بود. اگر فرض كنيم موقعيت جغرافيايي، در نرخ خطاي الگوريتمها تأثير داشته باشد، بايد نمونههاي بزرگتري براي آزمايش خطا بهكار گرفته شود.
محققان در مرحلهي بعدي، ساختاربندي زبان را تحليل كردند. از آنجايي كه آنها به الگوريتمهاي پايهي پنج سيستم برتر دسترسي نداشتد، از پكيج متنبازي استفاده كردند كه كاراييهاي مشابه دارد. آنها درك نرمافزار از زبان را با فاكتوري بهنام perplexity مطالعه كردند. اين فاكتور، قدرت پيشبيني كلمهي بعدي در يك جمله را در سيستم تشخيص صوت مطالعه ميكند. با مطالعه فاكتور مذكور مشخص شد كه سيستمها توانايي بهتري در تشخيص ساختاربندي زبان آفريقايي-آمريكاييها دارند. چرا نتايج به اينگونه شكل گرفتند؟
سيستمها در تشخيص صداي برخي نژادها و گروههاي خاص، خطاي عملكردي بيشتري دارند
محققان با مطالعه دو نوع خروجي تحقيقاتي به اين نتيجه رسيدند كه دو گرايش نژادي در صحبت كردن وجود دارد. آفريقايي-آمريكاييها نسبت به همشهريهاي سفيدپوست خود، از تعداد كلمات كمتري استفاده ميكنند. ازطرفي جملهبندي آنها ساختار پيچيدهتري دارد. آنها در بسياري از موارد، كلمات را از ميان جملهها حذف ميكنند، اما مخاطب بهراحتي منظورشان را متوجه ميشود.
در مجموع يافتههاي دانشمندان اين سؤال مطرح ميشود كه سيستمهاي تجاري چقدر براي واكنش بهتر به صداهاي يك نژاد خاص بهينهسازي شدهاند. محققان براي پيدا كردن پاسخ، نمونههاي موجود را جستوجو گردند تا عبارتهاي مشابه و برابر بين دو نژاد را پيدا كنند. وقتي اين عبارتهاي مشابه در سيستمها آزمايش شدند، باز هم نرخ خطاي آفريقايي-آمريكاييها بيشتر از سفيدپوستان بود.
سيستمهاي تشخص صدا بايد فاكتورهاي متعددي را در تفسير صحبت متخصصان در انديشه متخصصين بگيرند. تشخيص كلمهها، ساختاربندي جملهها و معناي مورد انديشه متخصصين مخاطب، برخي از فاكتورها هستند. با مطالعه تجميعي همهي فاكتورها ميتوان كلمات را بهخوبي پيشبيني كرد. سيستمهاي تجاري كنوني ظاهرا در تفسير كلمات برخي از جوامع با چالش روبهرو هستند. اين سيستمها در ذات خود جانبگرا طراحي نشدهاند. ظاهرا زيرمجموعهاي از همهي صداهاي موجود در ايالات متحده براي يادگيري سيستمها استفاده شده است. درنتيجه آنها براي تشخيص برخي صداها، يادگيري كافي را نديدهاند. درنهايت اين وظيفه برعهدهي شركتهاي توسعهدهنده خواهد بود تا مجموعهي يادگيريي سيستمها را براي درك بهتر گفتار همهي گروههاي جامعه، بهينهسازي كنند.
هم انديشي ها