ترسناک، ولی واقعی؛ دی‌کاپریو با صدای کیم کارداشیان

یک استارت‌آپ لهستانی با یک برنامه «دیپ‌فیک» (Deep fake) شبیه‌سازی صدا که می‌تواند همه طیف احساسات انسان را با استفاده از هر صدایی تقلید کند، جهان فناوری را شگفت‌زده کرده است.

تاریخ انتشار: ۱۵:۰۹ - ۲۵ بهمن ۱۴۰۱

برنامه مبتنی بر هوش مصنوعی یک استارت‌آپ لهستانی با کمک فناوری «دیپ‌فیک» می‌تواند صدای هر کسی را تقلید کند.

به گزارش ایسنا، یک استارت‌آپ لهستانی با یک برنامه «دیپ‌فیک» (Deep fake) شبیه‌سازی صدا که می‌تواند همه طیف احساسات انسان را با استفاده از هر صدایی تقلید کند، جهان فناوری را شگفت‌زده کرده است.

استارت‌آپ «ایلون‌لبز» (Elevenlabs) که زاییده فکر «پیوتر دابکوفسکی» (Piotr Dąbkowski)، مهندس سابق یادگیری ماشینی «گوگل» و «ماتی استانیسفسکی» (Mati Staniszewski)، استراتژیست سابق شرکت «پالانتیر» (Palantir) است، هم به تقلید گفتار و هم به شبیه‌سازی صدا می‌پردازد و می‌تواند با تکیه بر فشرده‌سازی و درک زمینه‌ای برای ارائه گفتار انسان به صورت فوق واقعی، صدای انسان و هر لهجه‌ای را تکرار کند.

«انجمن سهام خصوصی و سرمایه خطرپذیر چک» (CVCA) به امید این که سیستم تقلید صدای «ایلِوِن‌لبز» (ElevenLabs) بتواند دوبله سینما و کتاب‌های صوتی را تصاحب کند و استارت‌آپ خود را به یک شرکت میلیارد دلاری تبدیل سازد، ماه گذشته اعلام کرد که سرپرستی یک دور پیش‌فروش دو میلیون دلاری را برای این استارت‌آپ بر عهده خواهد گرفت.

استارت‌آپ ایلون‌لبز در سپتامبر سال گذشته، با انتشار یک ویدیوی کوتاه در یوتیوب که «لئوناردو دی‌کاپریو» (Leonardo DiCaprio)، بازیگر آمریکایی را در حال سخنرانی در اجلاس آب و هوای سازمان ملل نشان می‌داد، مورد توجه قرار گرفت.

پس از چهار ثانیه نخست این ویدئو، دی‌کاپریو شروع به صحبت کردن با صدای افراد مشهوری مانند «جو روگان» (Joe Rogan)، هنرپیشه و پادکست‌ساز آمریکایی، «استیو جابز» (Steve Jobs)، بنیان‌گذار شرکت «اپل»، «رابرت داونی جونیور» (Robert Downey Jr)، بازیگر آمریکایی، «بیل گیتس» (Bill Gates)، بنیان‌گذار شرکت «مایکروسافت» و «کیم کارداشیان» (Kim Kardashian)، شخصیت تلویزیونی آمریکایی می‌کند و به خوبی به تقلید از الگوی گفتار، لحن صدا و احساسات هر یک می‌پردازد.

در هر حال، این فناوری بدون بحث و مخالفت نیست. کیفیت بالای صدا‌های شبیه‌سازی‌شده موجب شده است که بسیاری از مردم در مورد تهدید احتمالی کلیپ‌های صوتی دیپ‌فیک محتاط باشند.

اخیرا ترول‌های اینترنتی (Troll) در وبسایت «۴چن» (۴chan)، از برنامه ایلون‌لبز برای ساختن صدا‌های دروغین «اما واتسون» (Emma Watson)، بازیگر آمریکایی، جو روگان و دیگران استفاده کردند که سخنان نژادپرستانه و خشونت‌آمیز می‌گفتند.

این استارت‌آپ اکنون در حال بررسی به کار گرفتن محافظت بیشتر در مورد فناوری خود است. این موارد شامل تأیید دستی هر درخواست شبیه‌سازی صوتی یا نیاز به اطلاعات پرداخت و شناسایی کامل هویت، پیش از آغاز فرآیند شبیه‌سازی هستند.

هدف کوتاه‌مدت ایلون‌لبز این است که خدمات آن برای همه زبان‌ها کارآیی داشته باشند. این استارت‌آپ می‌خواهد که در آینده، تمام صدا‌ها نه توسط بازیگران یا صداپیشگان، بلکه توسط ربات‌های هوشمند مدیریت شوند. همچنین، الون‌لبز می‌خواهد برنامه‌های تولید گفتار را توسعه دهد که گفتار را فورا به هر زبانی تبدیل می‌کنند.