ديپ فيك صوتي چيست و چگونه صداي تقلبي را شناسايي كنيم؟
ويديوهاي ديپفيك، شخصيتهاي غيرواقعي را در يك فيلم قرار ميدهند. با ديدن اين فيلمها، ديگر نميتوان به آنچه كه ميبينيم، اعتماد كنيم. اكنون نمونههاي ديگري بهنام ديپ فيك صوتي مطرح ميشوند كه اعتماد به گوشها را هم از بين ميبرند. شايد از اين پس با شنيدن يك قطعهي صوتي هم از خود بپرسيد كه آيا صداي فايل، همان شخص مدانديشه متخصصين بود؟ بهعنوان مثال تصور كنيد يكي از دوستان، در پيامي صوتي يا حتي تماس، از شما بخواهد كه رمز عبور مهم مشتركي را براي او بخوانيد. آيا صدايي كه شنيديد، صداي خود او بوده است؟
فناوري ديپفيك اگرچه در ابتدا بهعنوان سرگرمي متولد شد، بهمرور خود را به يك نگراني و بحران امنيتي تبديل كرد. درواقع بسياري از متخصصان امنيت نگران هستند كه در آينده، محتواي صوتي و تصويري توليدشده بهكمك ديپفيك، حتي به جنگهاي جهاني بينجامد. تصور كنيد پيامي صوتي يا تصويري از مقام مسئول يك كشور پخش شود كه با كشوري ديگر، اعلام جنگ ميكند. شايد تا پاسخ رسمي آن مقام مسئول و تكذيب محتواي منتشرشده، نيمي از جهان وارد جنگ شده باشند. بههرحال ديپفيك امروز اهميت بالايي در انديشه متخصصين متخصصان دارد و شايد آشنايي بهتر با آن، از فريب خوردن ساده و ابتدايي جلوگيري كند.
ديپ فيك صوتي چيست؟
اكثر ما ويديوهاي ديپفيك را ديدهايم كه در آنها، چهرهي شخصيت اصلي يك فيلم با چهرهي فرد ديگري جابهجا ميشود. در نمونههاي حرفهاي، شناسايي تقلبي بودن چهرهي جديد بسيار دشوار ميشود. اكنون نمونههاي ديگري ديده ميشوند كه از هوش مصنوعي براي تغيير صدا استفاده ميكنند. شركت Resemble AI يكي از ارائهدهندههاي فناوري كپي كردن صدا است. زهيب احمد، مديرعامل شركت، ديپفيك صوتي را به فتوشاپ تشبيه ميكند كه براي صوت به كار رفته باشد. ويرايش ناشيانهي يك فايل فتوشاپ، اغلب بهراحتي شناسايي ميشود. درحاليكه محققان امنيتي ميگويند مردم در شناسايي صداي ديپفيك، تنها ۵۷ درصد دقت دارند.
ديپ فيك صوتي از هوش مصنوعي براي جابهجايي يا كپي كردن صداي افراد استفاده ميكند
نكتهي قابلتوجه در ديپفيك صوتي اين است كه اغلب محتواي ضبطشده از تماسهاي صوتي يا پيامهاي صوتي كه در شبكههاي اجتماعي ردوبدل ميشود، كيفيت پاييني دارد. بههرحال اين محتوا در محيطهاي پر سروصدا يا با دستگاههاي نهچندان حرفهاي ضبط ميشود. در چنين شرايطي ديپ فيك صوتي راحتتر عمل ميكند. درنهايت هرچه كيفيت صدا پايينتر باشد، شناسايي صداي اصلي و تقلبي دشوارتر خواهد بود.
اكنون اين سؤال ايجاد ميشود كه چرا از ابتدا بايد يك فناوري شبيه فتوشاپ براي صدا توسعه پيدا كند؟
دليل قانعكننده براي ساخت صداي مصنوعي
زهيب ميگويد تقاضاي زيادي براي صداي مصنوعي در بازار وجود دارد. خصوصا در دنياي بازي، تقاضا بسيار بيشتر ميشود. در گذشته، صداي صحبت كردن افراد در بازيها بهصورت آني ساخته نميشد. حتي در حرفهايترين بازيها با صحنههاي سينمايي باكيفيت هم صداي شخصيتها بهصورت ايستا ضبط و پخش شده بود. امروزه با پيشرفت فناوري، استوديوها ظرفيت مناسب را براي كپي كردن صداي يك بازيگر پيدا كردهاند. آنها با تركيب اين صداي كپي با فناوريهاي تبديل متن به صوت، صداي زنده را به شخصيتهاي بازي ميدهند. درنتيجه هر شخصيت در بازي، بهصورت زنده صحبت ميكند.
علاوه بر دنياي بازي، تبليغات و همراهي مشتريان و ديگر حوزههاي فناوري هم از صداي مصنوعي بهره ميبرند. در بخش ارتباط با مشتري، صدايي طبيعي و شبيه به انسان كه واكنشي طبيعي به پرسشها و سؤالهاي مشتري دارد، بسيار كارآمد خواهد بود. شركتهاي فعال در صنعت كپي كردن صدا، متخصصدهاي زيادي را هم در حوزههاي پزشكي پيدا كردهاند. البته استفاده از صداي جايگزين در دنياي پزشكي آنچنان جديد نيست. استيون هاوكينگ از سال ۱۹۸۵ و پس از آنكه صدايش را از دست داد، از صداي مصنوعي براي صحبت كردن استفاده ميكرد. امروزه فناوريهاي پيشرفتهتري به كمك دانشمندان ميآيند و صداي مصنوعي با كيفيت بالاتري توليد ميكنند.
از شركتهاي فعال در صنعت ساخت صداي مصنوعي ميتوان به CereProc اشاره كرد. اين شركت پروژههايي همچون ساخت صداي مصنوعي براي منتقد سينما، راجر ايبرت داشت كه پس از ابتلا به سرطان، صداي خود را از دست داده بود. آنها همچنين وبسايتي توسعه دادند كه متنهاي واردشده توسط متخصصان را با صداي رئيسجمهور ايالات متحده ميخواند. شركت مذكور بههمراه چندين شركت مشابه، همكاريهايي هم با مؤسسهي ASL Associaton دارد و با راهاندازي Project Revoice، در بازيابي صدا به بيماران مبتلا به ALS كمك ميكند.
صداي مصنوعي چگونه ساخته ميشود؟
توليد صداي كپي و مصنوعي امروزه طرفداران زيادي دارد و شركتهاي متعددي با جديت در اين حوزه فعاليت ميكنند. بهعنوان مثال Resemble AI و Descript دموهاي الكترونيكي را دراختيار متخصصان عادي قرار ميدهند كه امكانات قابلتوجهي هم دارند. براي استفاده از دموهاي الكترونيك تنها بايد صداي خود را با خواندن يك متن روي نمايشگر ضبط كرده و ارسال كنيد. سپس يك نمونهي كامل از صداي شما ساخته ميشود.
تبديل كردن نمونهي صدا به صدايي كامل، به لطف فناوري هوش مصنوعي و خصوصا الگوريتمهاي يادگيري عميق ممكن ميشود. اين الگوريتمها، جزئيات صداي شما را از نمونهي ضبطشده استخراج ميكنند و مدلي از آن ميسازند. سپس بلوكهاي سازندهي زبان استخراج ميشوند تا براي تفلظ كلماتي كه شما به زبان نياوردهايد، استفاده شوند. فناوري موردنياز براي چنين فرايندي از مدتها پيش وجود داشت، اما دانشمندان به تركيب كردن و استخراج بهترين راهكار براي استفاده از آن، نياز داشتند.
پيشرفتهاي صورتگرفته در بينايي كامپيوتري، در كپي كردن صدا هم به كار آمدند
توسعهدهندهها براي ساختن الگوريتمهاي حرفهاي، به مجموعهاي عظيم از صداهاي ضبطشده نياز داشتند تا نتايج قابلقبولي از فرايندهاي ساخت صدا كسب شود. از چند سال پيش، تحقيقات و پيشرفتهاي علمي با سرعت زيادي پيش رفتند و زمينهي كافي براي توسعهي فناوري فراهم شد. تحقيقات در حوزهي بينايي كامپيوتري اهميت زيادي پيدا كرد كه بعدا منجر به پيشرفت سريعتر هوش مصنوعي صوتي هم شد. دانشمندان براي توسعهي الگوريتمهاي بينايي كامپيوتري، شبكههاي GAN توسعه دادند كه توانايي پيشبيني براساس دادههاي موجود را داشت. درنهايت دانشمندان حوزهي هوش مصنوعي صوتي اعتقاد دارند پايههاي پيشرفت، از توسعهي هوش مصنوعي بصري ايجاد شد.
يكي از نوآوريهاي مهمي كه در فناوري كپي كردن صدا ايجاد شد، نياز به دادههاي خام براي ساخت يك صدا را تا حد زيادي كاهش داد. همانطور كه گفته شد، در گذشته به دهها يا صدها ساعت صدا نياز بود تا يك صداي مصنوعي ساخته شود. اكنون تنها با استفاده از چند دقيقه نمونهي صدا، ميتوان آن را كپي كرد.
ترس ذاتي و عدم اعتماد
فناوري صداي مصنوعي هم مانند هر فناوري انقلابي ديگر همچون انرژي هستهاي، نانوتكنولوژي، چاپ سهبعدي و CRISPR، در ابتدا با نگراني و ترس روبهرو شد. در مجموع، گزارشهاي متعددي هم وجود داشتند كه از فريب خوردن بهخاطر صداي مصنوعي و تقلبي شكايت ميكردند. يك شركت بريتانياي در سال ۲۰۱۹ گزارش داد كه با فريب خوردن از يك صداي مصنوعي، مقداري پول به مجرمان پرداخت كرده است. براي ديدن نمونههاي صوت كپي شده، نياز به جستوجوي زيادي نداريد. هماكنون در يوتيوب كانالهاي متعددي هستند كه از صداي شخصيتهاي مشهور براي ساختن كليپهاي طنز استفاده ميكنند.
دموهايي كه شركتهاي Descript و Resemble AI در وب قرار دادهاند، كيفيت قابلقبولي دارند. Descript از الگوريتمي بهنام Lyrebird استفاده ميكند و صداي كپي را با وجود كمي جلوههاي مصنوعي، بسيار نزديك به واقعيت توليد ميكند. Resemble AI امكانات بيشتري دارد و حتي ميتوان با استفاده از چند صدا در سرويس آنها يك مكالمهي مصنوعي ايجاد كرد. همچنين امكان تغيير شدت صدا و احساسات هم وجود دارد تا صداي توليدي، هرچه بيشتر طبيعي باشد. البته درنهايت سرويس اين شركت آنچنان طبيعي عمل نميكند.
فناوري ساخت صداي مصنوعي مانند هر فناوري ديگر به مرور زمان بهبود پيدا ميكند و طبيعيتر ميشود. با گذشت زمان، سيستمها با نمونههاي كوتاهتر و كمتر صدا، موفق به ساخت صداي مصنوعي ميشوند. با پيشرفت پردازندهها، سرعت ساخت صداي مصنوعي هم بيشتر ميشود و شايد بتوان بهصورت زنده، يك صداي مصنوعي توليد كرد. هوش مصنوعي هم با هوشمندتر شدن، قابليت اضافه كردن جلوههاي طبيعي به صدا را پيدا ميكند و نمونههايي نزديكتر به واقعيت توليد خواهد كرد.
در مجموع، پيشرفت فناوريهاي ساخت صداي مصنوعي، به سمتي ميرود كه شايد نگراني ما را از ساخت نمونههاي بسيار نزديك به واقعي بيشتر كند.
تعهد اخلاقي توسعهدهندهها
توسعهدهندههاي فناوري هوش مصنوعي براي توليد صدا، چالشهاي اخلاقي زيادي را پيش روي خود ميبينند. آنها بايد به جامعه اطمينان دهند كه فناوري توليدي، براي متخصصدهاي غلط استفاده نميشود. بهعنوان مثال، Resemble AI در وبسايت خود بخشي مخصوص همين موارد دارد. آنها در متني مرتبط با پيشنيازهاي اخلاقي ميگويند كه با شركتهاي خريدار فناوري، فرايندي سختگيرانه را طي ميكنند تا محصول خريداري شده با مسئوليتپذيري كامل استفاده شود. شركت از خريداران ميخواهد كه تأييديه و اجازهي لازم را براي استفاده كردن از صدا، از صداپيشهي اصلي دريافت كنند.
توسعهدهندهها چارجوبهاي سختگيرانهاي براي فروش فناوري ساخت صداي مصنوعي دارند
شركتها براي جلوگيري هرچه بيشتر از سوءاستفاده از فناوري تغيير صدا، راهكارهايي جدي را پياده ميكنند. بهعنوان مثال Resemble AI و Descript متخصص را ملزم ميكنند تا صداي خود را بهصورت زنده ازطريق ميكروفن وارد كند. با اين كار تاحدودي از وارد شدن صداي فرد ديگر و ساخت مدل از آن، جلوگيري ميشود.
پيادهسازي سياستها و قوانين سختگيرانه در شركتهايي كه فناوري را بهصورت تجاري عرضه ميكنند، اميدواركننده بهانديشه متخصصين ميرسد. ازطرفي فراموش نكنيد كه آنها تنها فعالان صنعت نيستند. امروزه انواع ابزارهاي متنباز مشابه در دنياي فناوري ديده ميشود كه بدون هيچ قانون و تعهد خاصي ميتوان از آنها استفاده كرد. حتي برخي از متخصص كارشناسان ميگويند بدون دانش برنامهنويسي حرفهاي ميتوان الگوريتمها را مورد استفاده قرار داد.
هشدار و فعاليت هميشگي متخصصان امنيت
مجرمان از سالها پيش تلاش ميكنند تا با تماسهاي تلفني، از افراد سرقت كنند. آنها فعاليت خود را سالها پيش از توسعهي فناوري كپي صدا شروع كردهاند. درمقابل، متخصصان امنيت نيز هميشه درگير پيدا كردن راههاي براي پيشگيري از سرقتها بودهاند. شركت امنيتي Pindrop يكي از فعالان جدي اين حوزه محسوب ميشود كه در شناسايي صداي تقلبي فعاليتي جدي دارد. آنها تنها در سال ۲۰۱۹ با تحليل ۱/۲ ميليارد تعامل صوتي توانستند از ۴۷۰ ميليون دلار كلاهبرداري مبتني بر كپي كردن صدا، جلوگيري كنند.
فناوريهاي امنيتي امروزه با تركيب موقعيتيابي و شناسايي مشخصههاي صوتي از تماسها، امكان شناسايي كلاهبرداري و صداي تقلبي را دارند. بهعنوان مثال اگر يك مجرم، موقعيت مكاني تماس را با استفاده از تماسهاي اينترنتي تغيير دهد و همچنين صدا هم بهكمك هوش مصنوعي كپي شود، ميتوان از برخي از مشخصههاي موجود در مكالمه، او را شناسايي كرد. نكتهي جالبتوجه اينكه برخي از مجرمان از صداي پسزمينه و شلوغ كردن صداي مكالمه براي فريب آسانتر استفاده ميكنند. برخي ديگر نيز جنسيت صداي خود را تغيير ميدهند كه باز هم با دقت بيشتر ميتوان غيرطبيعي بودن لحن صدا را در مكالمهي آنها تشخيص داد.
بههرحال نبرد بين مجرمان سايبري و متخصصان امنيت هميشه ادامه دارد. هر دو طرف بهدنبال فناوريهاي پيشرفتهتر هستند تا جبههي مقابل را شكست دهند. دراينميان مجرمان فعاليتهايي بسيار جدي در تركيب فناوريها و پيدا كردن قربانيهاي بيشتر دارند.
شناسايي صداي مصنوعي
در شناسايي صداهاي مصنوعي و ديپ فيك صوتي اخبار خوب و بد به يك ميزان وجود دارند. خبر بد اينكه صداهاي مصنوعي روزبهروز قويتر ميشوند. سيستمهاي يادگيري عميق هوشمندتر شدهاند و صداهايي معتبرتر توليد ميكنند. با جستوجويي ساده در اينترت، نمونههاي زيادي را ميبينيد كه صداي افراد مشهور و معتبر را براي گفتن عبارتهاي طنز به كار گرفتهاند و نمونههاي موفقي هم به شمار ميروند.
هرچه طول كليپ صوتي بيشتر باشد، شانس شناسايي كپي بودن صدا هم بيشتر كميشود. در كليپهاي كوتاهتر، احتمال شناسايي پايين ميآيد. خصوصا اگر مخاطب با آمادگي و دقت زياد به كليپ گوش ندهد، امكات فريب خوردن بيشتر خواهد بود.
با افزايش كيفيت فايل صوتي، ميتوان وجود جلوههاي مصنوعي در صدا را بهتر شناسايي كرد. وقتي صداي ضبطشده، از صحبت مستقيم با ميكروفن حرفهاي استوديويي ضبط شده باشد، شناسايي كپي بودن آن آسانتر شده باشد. با اينحال در تماسهاي صوتي كه اغلب كيفيت پاييني دارند، شرايط دشوارتر خواهد بود.
خبر خوب دربارهي ديپ فيك صوتي اينكه توانايي كامپيوترها در شناسايي صداي ساختگي از انسانها بيشتر است. خوشبختانه ابزارهاي شناسايي صداي مصنوعي بهخوبي پيشرفت كردهاند و كيفيت عملكردي بالايي هم دارند. شركت Pindrop ابزاري دارد كه بهنوعي الگوريتمهاي يادگيري عميق را در نبردي روبهرو هم قرار ميدهد تا تفلبي بودن صدا را شناسايي كند. در ابزار آنها، اين امكان مطالعه ميشود كه آيا يك فرد عادي ميتواند تمامي صداهاي موجود در فايل صوتي نمونه را ايجاد كند؟
بسته به كيفيت صدا، هر ثانيه از صحبت يك فرد در فايل صوتي داراي هشت تا ۵۰ هزار نمونهي دادهاي ميشود كه بايد مطالعه و تحليل شود. الگوريتم امنيتي، در دادههاي موجود بهدنبال مواردي ميگردد كه با محدوديتهاي صحبت كردن انسان ارتباط داشته باشد. بهعنوان مثال، صداهاي صحبت كردن افراد، فاصلهي زماني مشخصي با هم دارند. اين فاصله بهخاطر محدوديت فيزيكي ايجاد ميشود كه در ماهيچههاي دهان وجود دارد. به بيان سادهتر، براي گفتن دو صداي گوناگون دركنار يكديگر، شما محدوديت سرعت داريد و نميتوانيد با سرعت زياد، آنها را به هم متصل كنيد. متخصصان در شناسايي صداي مصنوعي اغلب متوجه ميشوند كه صداي مذكور، امكان گفته شدن توسط يك انسان عادي را ندارد و مثلا براي اداي آن، نياز به گردني بسيار بزرگ خواهد داشت!
برخي صداها كه به صداهاي سايشي شناخته ميشوند، المانهايي ديگر براي شناسايي صداي مصنوعي هستند. اين صداها با نزديك شدن مجراهاي توليد صدا در دهان ايجاد ميشوند. بهعنوان مثال در گفتن حروف «ف»، «س»، «و» و «ز»، صداهاي سايشي ايجاد ميشوند. هوش مصنوعي در اداي صداهاي مذكور اشكال دارد و نميتواند آنها را از نويز متمايز كند. درواقع درحالحاضر نرمافزار هوش مصنوعي دركي از انسان سازندهي صدا ندارد و نميتواند تمامي رفتارهاي گفتاري او را كپي كند.
شركتهاي توليدكنندهي ابزار صداي مصنوعي هم تلاشهايي براي مقابله با سوءاستفاده از ديپ فيك صوتي توسعه دادهاند. بهعنوان مثال Resemble AI ابزاري بهنام Resemblyzer را بهصورت متنباز در گيتهاب قرار داده است كه صداهاي ساختگي را با دقت و عملكرد مناسبي شناسايي ميكند.
نياز هميشگي به هوشياري
در دنياي فناوري، حدس زدن آينده بههيچوجه آسان نيست. البته باتوجهبه گذشته ميدانيم كه قطعا فناوري ديپ فيك صوتي هم در مسير پيشرفت قرار ميگيرد. ازطرفي، فراموش نكنيد كه هر فردي شايد روزي قرباني ديب فيك صوتي شود. مجرمان سايبري لاخبار تخصصيا تنها افراد مشهور و مديران بانك را هدف قرار نميدهند. متخصصان امنيتي هشدار ميدهند كه سرقت صداي متخصصان عادي، درحال اوجگيري است.
با وجود هشدارهاي زياد، درحالحاضر خطر زيادي در دنياي واقعي از ديپ فيك ديده نميشود. ابزارهاي موجود، قدرت بالايي در شناسايي صداي مصنوعي پيدا كردهاند. بهعلاوه، در وضعيت كنوني كه شركتهاي تجاري دقت زيادي در انتخاب مشتريان الگوريتم صداي ساختگي دارند، خطر زيادي مردم را تهديد نميكند. تهديد و خطر نهايي در همكاري توسعهدهندههاي ناشناس و ايجاد ابزارهاي متنباز با رابطهاي متخصصي ساده ديده ميشود كه ابزار تغيير صدا را در دستان همهي مردم قرار ميدهد. اين ابزارها ديگر لايهي اخلاقي و امنيتي موجود در شركتهاي تجاري را ندارند و هر كسي با هر هدفي امكان استفاده از آنها را خواهد داشت.
توسعهي ابزارهايي ساده كه امكان تغيير صدا را به همهي متخصصان ميدهند، دور از انتظار نيست. درواقع بالاخره چنين اتفاقي رخ ميدهد و مردم بايد با هوشياري بيشتري از ابزارها استفاده كنند. درمقابل، شركتهاي امنيتي هم منفعل نيستند و تمام تلاش خود را براي بهبود ابزارهاي شناسايي بهكار ميگيرند.
هم انديشي ها