جزء من سلسلة مقالات حول |
الذكاء الاصطناعي |
---|
![]() |
تقنية التزييف الصوتي العميق (بالإنجليزية: Audio deepfake)، والتي يشار إليها أيضًا باسم استنساخ الصوت (بالإنجليزية: voice cloning) أو الصوت العميق (بالإنجليزية: deepfake audio)، هي تطبيق للذكاء الاصطناعي مصمم لتوليد كلام يحاكي أفرادًا معينين بشكل مقنع، وغالبًا ما يقوم بتوليف عبارات أو جمل لم يتحدثوا بها أبدًا.[1][2][3][4] تم تطويره في البداية بهدف تحسين جوانب مختلفة من حياة الإنسان، وله تطبيقات عملية مثل إنشاء الكتب الصوتية ومساعدة الأفراد الذين فقدوا أصواتهم بسبب الظروف الطبية.[5][6] بالإضافة إلى ذلك، فإن لها استخدامات تجارية، بما في ذلك إنشاء مساعدين رقميين مخصصين، وأنظمة تحويل النص إلى كلام ذات صوت طبيعي، وخدمات ترجمة الكلام المتقدمة.[7]
حوادث الاحتيال
أصبحت عمليات التلاعب الصوتي العميق، والتي يشار إليها باسم عمليات التلاعب بالصوت بدءًا من أوائل عشرينيات القرن الحادي والعشرين، متاحة على نطاق واسع باستخدام الأجهزة المحمولة البسيطة أو أجهزة الكمبيوتر الشخصية.[8] وقد تم استخدام هذه الأدوات أيضًا لنشر معلومات مضللة باستخدام الصوت.[3] وقد أدى هذا إلى مخاوف تتعلق بالأمن السيبراني بين عامة الناس في جميع أنحاء العالم بشأن الآثار الجانبية لاستخدام التزييفات الصوتية العميقة، بما في ذلك دورها المحتمل في نشر المعلومات المضللة والمضللة في منصات التواصل الاجتماعي القائمة على الصوت.[9] يمكن للناس استخدامها كتقنية لتزييف الصوت للوصول المنطقي ،[10] حيث يمكن استخدامها للتلاعب بالرأي العام لأغراض الدعاية أو التشهير أو الإرهاب. يتم نقل كميات هائلة من التسجيلات الصوتية يوميًا عبر الإنترنت، ويشكل اكتشاف التزييف تحديًا كبيرًا.[11] استهدف مهاجمو التزييف الصوتي الأفراد والمنظمات، بما في ذلك السياسيين والحكومات.[12]
في عام 2019، انتحل المحتالون الذين يستخدمون الذكاء الاصطناعي صوت الرئيس التنفيذي لشركة طاقة ألمانية وأصدروا توجيهات إلى الرئيس التنفيذي لشركة فرعية في المملكة المتحدة بتحويل €220٬000.[13] في أوائل عام 2020، انتحلت نفس التقنية شخصية مدير شركة كجزء من مخطط متقن أقنع مدير فرع بتحويل 35 مليون دولار.[14]
وفقًا لمسح عالمي أجرته شركة مكافي في عام 2023، أفاد شخص واحد من كل عشرة أشخاص بأنه كان مستهدفًا من قبل عملية احتيال استنساخ صوت الذكاء الاصطناعي؛ وأفاد 77% من هؤلاء المستهدفين بخسارة أموالهم بسبب عملية الاحتيال.[15][16]يمكن أن تشكل عمليات التزييف الصوتي العميق أيضًا خطرًا على أنظمة التعرف الصوتي التي تستخدمها المؤسسات المالية حاليًا.[17][18] في مارس 2023، أصدرت لجنة التجارة الفيدرالية الأمريكية تحذيرًا للمستهلكين بشأن استخدام الذكاء الاصطناعي لتزييف صوت أحد أفراد الأسرة في محنة يطلب المال.[19]
في أكتوبر 2023، أثناء بدء مؤتمر حزب العمال البريطاني في ليفربول، تم إصدار تسجيل صوتي مزيف لزعيم حزب العمال كير ستارمر يصوره زوراً وهو يسيء لفظياً إلى موظفيه وينتقد ليفربول.[20] في نفس الشهر، ادعى تسجيل صوتي مزيف للسياسي السلوفاكي ميخال شيميتشكا زوراً أنه يصوره وهو يناقش طرق تزوير الانتخابات القادمة.[21]
خلال الحملة الانتخابية للانتخابات التمهيدية الرئاسية الديمقراطية في نيو هامبشاير عام 2024 ، تلقى أكثر من 20 ألف ناخب مكالمات آلية من رئيس جو بايدن المتنكر بالذكاء الاصطناعي يحثهم على عدم التصويت.[22][23] قال المدعي العام لولاية نيو هامبشاير إن هذا ينتهك قوانين الانتخابات في الولاية، وزعم تورط شركة لايف وشركة لينجو تيليكوم.[24] في فبراير 2024، حظرت لجنة الاتصالات الفيدرالية الأمريكية استخدام الذكاء الاصطناعي لتزييف الأصوات في المكالمات الآلية.[25][26] وفي الشهر نفسه، اعترف المستشار السياسي ستيف كرامر بأنه كلف بإجراء المكالمات بمبلغ 500 دولار. وقال إنه أراد لفت الانتباه إلى الحاجة إلى قواعد تحكم استخدام الذكاء الاصطناعي في الحملات السياسية.[27] وفي مايو/أيار، قالت لجنة الاتصالات الفيدرالية إن كرامر انتهك القانون الفيدرالي من خلال تزييف رقم شخصية سياسية محلية، واقترحت غرامة قدرها 6 ملايين دولار. وجهت أربع مقاطعات في نيو هامبشاير اتهامات إلى كرامر بارتكاب جناية قمع الناخبين وانتحال شخصية مرشح، وهي جنحة.[28]
الفئات
يمكن تقسيم التزييفات الصوتية العميقة إلى ثلاث فئات مختلفة:
يعتمد على الإعادة
تعتبر عمليات التزييف العميق القائمة على إعادة التشغيل أعمالًا خبيثة تهدف إلى إعادة إنتاج تسجيل لصوت المحاور.[29]
هناك نوعان: الكشف عن المجال البعيد والكشف عن طريق القص واللصق. في الكشف عن المجال البعيد، يتم تشغيل تسجيل الميكروفون للضحية كقطعة اختبار على هاتف بدون استخدام اليدين.[30] من ناحية أخرى، يتضمن النسخ واللصق تزييف الجملة المطلوبة من نظام يعتمد على النص.[11] يمكن استخدام التحقق من المتحدث المعتمد على النص للدفاع ضد الهجمات القائمة على الإعادة.[29][31] التقنية الحالية التي تكتشف هجمات الإعادة من البداية إلى النهاية هي استخدام الشبكات العصبية التلافيفية العميقة.[32]
قائم على المواد الاصطناعية

تشير الفئة القائمة على تركيب الكلام إلى الإنتاج الاصطناعي للكلام البشري، باستخدام برامج أنظمة البرمجيات أو الأجهزة. يتضمن تركيب الكلام تحويل النص إلى كلام، والذي يهدف إلى تحويل النص إلى كلام مقبول وطبيعي في الوقت الحقيقي،[33] مما يجعل صوت الكلام متوافقًا مع النص المدخل، باستخدام قواعد الوصف اللغوي للنص.
تحديدًا، النص المنقول بصوت المتحدث المستهدف هو مُدخل نموذج التوليد. تُعالج وحدة تحليل النص النص المُدخل وتُحوّله إلى سمات لغوية. ثم تُستخرج الوحدة الصوتية مُعاملات المتحدث المستهدف من البيانات الصوتية بناءً على السمات اللغوية التي تُولّدها وحدة تحليل النص.[8] أخيرًا، يتعلم مُرمِّز الصوت إنشاء أشكال موجية صوتية بناءً على معلمات الخصائص الصوتية. يُولَّد ملف الصوت النهائي، متضمنًا محاكاة صوتية تركيبية بتنسيق موجية، مما يُنشئ صوتًا كلاميًا بأصوات العديد من المتحدثين، حتى غير المُدرَّبين.
كان الاختراق الأول في هذا الصدد هو الذي قدمته ويف نت،[34] وهي شبكة عصبية لتوليد أشكال موجية صوتية خام قادرة على محاكاة خصائص العديد من مكبرات الصوت المختلفة. لقد تم التفوق على هذه الشبكة على مر السنين من قبل أنظمة أخرى[35][36][37][38][39][40] والتي تقوم بتوليف الأصوات الاصطناعية الواقعية للغاية في متناول الجميع.[41]
يعتمد تحويل النص إلى كلام بشكل كبير على جودة مجموعة الصوت المستخدمة لتحقيق النظام، كما أن إنشاء مجموعة صوتية كاملة يعد أمرًا مكلفًا.[بحاجة لمصدر] من العيوب الأخرى عدم تمييز أنظمة تركيب الكلام للنقاط أو الأحرف الخاصة. كما أن مشاكل الغموض مستمرة، إذ قد تحمل كلمتان مكتوبتان بنفس الطريقة معانٍ مختلفة.[بحاجة لمصدر]
قائم على التقليد

التزييف الصوتي المبني على التقليد هو طريقة لتحويل الكلام الأصلي من متحدث واحد – الأصلي – بحيث يبدو وكأنه متحدث آخر – الشخص المستهدف.[42] تعتمد الخوارزمية القائمة على التقليد على أخذ إشارة منطوقة كمدخلات وتغييرها عن طريق تغيير أسلوبها أو نبرتها أو عروضها، في محاولة لتقليد الصوت المستهدف دون تغيير المعلومات اللغوية.[43] تُعرف هذه التقنية أيضًا باسم تحويل الصوت.
غالبًا ما يُخلط بين هذه الطريقة والطريقة التركيبية السابقة، لعدم وجود فصل واضح بينهما فيما يتعلق بعملية التوليد. في الواقع، تُعدّل كلتا الطريقتين الخصائص الطيفية الصوتية والأسلوبية لإشارة الصوت الكلامية، إلا أن الطريقة القائمة على التقليد عادةً ما تُبقي نصي الإدخال والإخراج دون تغيير. ويتم ذلك بتغيير طريقة نطق الجملة لتتوافق مع خصائص المتحدث المستهدف.[44]
يمكن تقليد الأصوات بعدة طرق، مثل استخدام البشر ذوي الأصوات المشابهة التي يمكنها تقليد المتحدث الأصلي. في السنوات الأخيرة، كان النهج الأكثر شيوعًا يتضمن استخدام شبكات عصبية معينة تسمى الشبكات التنافسية التوليدية (GAN) نظرًا لمرونتها بالإضافة إلى نتائجها عالية الجودة.[29][42]
بعد ذلك، يتم تحويل الإشارة الصوتية الأصلية إلى كلام في الصوت المستهدف باستخدام طريقة توليد التقليد التي تولد كلامًا جديدًا، يظهر في الصوت المزيف.
طرق الكشف
تحدد مهمة اكتشاف التزييف الصوتي العميق ما إذا كان صوت الكلام المقدم حقيقيًا أم مزيفًا.
في الآونة الأخيرة، أصبح هذا موضوعًا ساخنًا في مجتمع البحث الجنائي، في محاولة لمواكبة التطور السريع في تقنيات التزوير.
بشكل عام، يمكن تقسيم أساليب كشف التزييف العميق إلى فئتين بناءً على الجانب الذي تعتمد عليه لإجراء مهمة الكشف. تُركز الفئة الأولى على الجوانب البسيطة، باحثةً عن الآثار التي تُدخلها المُولِّدات على مستوى العينة. أما الفئة الثانية، فتُركز على الميزات عالية المستوى التي تُمثل جوانب أكثر تعقيدًا، كالمحتوى الدلالي لتسجيل الصوت الصوتي.

لقد تم تطوير العديد من نماذج التعلم الآلي باستخدام استراتيجيات مختلفة للكشف عن الصوت المزيف. في أغلب الأحيان، تتبع هذه الخوارزميات إجراءً مكونًا من ثلاث خطوات:
- يجب معالجة كل تسجيل صوتي للكلام مسبقًا وتحويله إلى ميزات صوتية مناسبة؛
- يتم إدخال الميزات المحسوبة في نموذج الكشف، الذي يقوم بالعمليات الضرورية، مثل عملية التدريب، الضرورية للتمييز بين الصوت الحقيقي والمزيف؛
- يتم إدخال الإخراج إلى الوحدة النهائية لإنتاج احتمالية التنبؤ بالفئة المزيفة أو الفئة الحقيقية. وفقًا لتسمية تحدي (ASVspoof)[45]، يتم الإشارة إلى الصوت المزيف بمصطلح (Spoof)، ويتم تسمية الصوت الحقيقي بدلاً من ذلك باسم (Bonafide).
على مر السنين، أظهر العديد من الباحثين أن أساليب التعلم الآلي أكثر دقة من أساليب التعلم العميق، بغض النظر عن الميزات المستخدمة.[8] مع ذلك، لم تُؤكَّد قابلية توسُّع أساليب التعلُّم الآلي بسبب التدريب المُفرط واستخراج الميزات يدويًا، خاصةً مع العديد من ملفات الصوت. بل عند استخدام خوارزميات التعلُّم العميق، يلزم إجراء تحويلات مُحدَّدة على ملفات الصوت لضمان قدرة الخوارزميات على التعامل معها.
هناك العديد من التطبيقات مفتوحة المصدر لطرق الكشف المختلفة،[46][47][48] وعادةً ما تقوم العديد من مجموعات البحث بنشرها على خدمة استضافة عامة مثل غيت هاب.
التحديات المفتوحة واتجاه البحث المستقبلي
يُعدّ التزييف الصوتي العميق مجالًا بحثيًا حديثًا جدًا. ولذلك، تتعدد إمكانيات التطوير والتحسين، بالإضافة إلى المخاطر المحتملة التي قد يُشكّلها اعتماد هذه التقنية على حياتنا اليومية. وفيما يلي أهمها.
توليد التزييف العميق
فيما يتعلق بالجيل، فإن الجانب الأكثر أهمية هو مصداقية الضحية، أي الجودة الإدراكية للصوت العميق.
تحدد عدة مقاييس مستوى دقة إنشاء مقاطع صوتية مزيفة، وأكثرها استخدامًا هو متوسط درجة الرأي (MOS)، وهو المتوسط الحسابي لتقييمات المستخدمين. عادةً، يتضمن الاختبار الذي يجب تقييمه تقييمًا إدراكيًا للجمل التي تم إنشاؤها بواسطة خوارزميات توليد الكلام المختلفة. أظهر هذا المؤشر أن الصوت الناتج عن الخوارزميات المدربة على مكبر صوت واحد يتمتع بـ MOS أعلى.[44][34][49][50][39]
يلعب معدل أخذ العينات أيضًا دورًا أساسيًا في اكتشاف وتوليد مقاطع صوتية مزيفة. حاليًا، تحتوي مجموعات البيانات المتاحة على معدل أخذ عينات يبلغ حوالي 16 كيلوهرتز، مما يقلل بشكل كبير من جودة الكلام. قد تؤدي زيادة معدل أخذ العينات إلى إنتاج جودة أعلى.[37]
في مارس 2020، أظهر باحث في معهد ماساتشوستس للتكنولوجيا إمكانية إنشاء مقاطع صوتية عميقة بكفاءة البيانات من خلال 15.ai، وهو تطبيق ويب قادر على إنشاء كلام عالي الجودة باستخدام 15 ثانية فقط من بيانات التدريب،[51][52] مقارنة بالأنظمة السابقة التي تطلبت عشرات الساعات.[53] نفذ النظام نموذجًا موحدًا متعدد المتحدثين يتيح التدريب المتزامن لأصوات متعددة من خلال تضمينات المتحدثين، مما يسمح للنموذج بتعلم الأنماط المشتركة عبر الأصوات المختلفة حتى عندما تفتقر الأصوات الفردية إلى أمثلة لسياقات عاطفية معينة.[54] قامت المنصة بدمج تحليل المشاعر من خلال إيموجي للتعبير العاطفي ودعم التحكم الدقيق في النطق عبر النسخ الصوتية أربابت.[55] تم تأكيد معيار كفاءة البيانات لمدة 15 ثانية لاحقًا بواسطة أوبن أيه آي في عام 2024.[56]
كشف التزييف العميق
إذا ركزنا على جزء الكشف، فإن أحد نقاط الضعف الرئيسية التي تؤثر على النماذج الحديثة هي اللغة المعتمدة.
تُركز معظم الدراسات على اكتشاف التزييف الصوتي العميق في اللغة الإنجليزية، ولا تُولي اهتمامًا كبيرًا للغات الأكثر تحدثًا مثل الصينية والإسبانية،[57] وكذلك الهندية والعربية.
ومن الضروري أيضًا مراعاة المزيد من العوامل المتعلقة باللهجات المختلفة التي تمثل طريقة النطق المرتبطة ارتباطًا وثيقًا بشخص معين أو مكان أو دولة معينة. في مجالات أخرى للصوت، مثل التعرف على المتحدث، وجد أن اللهجة تؤثر على الأداء بشكل كبير،[58] لذا فمن المتوقع أن تؤثر هذه الميزة على أداء النماذج حتى في مهمة الكشف هذه.
علاوة على ذلك، أدت المعالجة المسبقة المفرطة لبيانات الصوت إلى تكلفة حسابية عالية جدًا وغير مستدامة في كثير من الأحيان. لهذا السبب، اقترح العديد من الباحثين اتباع نهج التعلم الذاتي الإشرافي،[59] والتعامل مع البيانات غير المصنفة للعمل بشكل فعال في مهام الكشف وتحسين قابلية توسع النموذج، وفي الوقت نفسه تقليل التكلفة الحسابية.
لا يزال تدريب واختبار النماذج باستخدام بيانات صوتية حقيقية مجالًا غير متطور. في الواقع، يُمكن لاستخدام الصوت مع ضوضاء خلفية واقعية أن يزيد من قوة نماذج كشف الصوت الزائف.
بالإضافة إلى ذلك، يركز معظم الجهد على اكتشاف التزييفات الصوتية العميقة القائمة على المواد التركيبية، وتقوم دراسات قليلة بتحليل التزييفات الصوتية القائمة على التقليد بسبب صعوبتها الجوهرية في عملية التوليد.[11]
الدفاع ضد التزييف العميق
على مر السنين، كانت هناك زيادة في التقنيات التي تهدف إلى الدفاع ضد الإجراءات الخبيثة التي يمكن أن تجلبها تقنية التزييف الصوتي العميق، مثل سرقة الهوية والتلاعب بالخطابات التي يلقيها حكام البلاد.
لمنع التزييف العميق، يقترح البعض استخدام تقنية البلوك تشين وتقنيات دفتر الأستاذ الموزع الأخرى (DLT) لتحديد مصدر البيانات وتتبع المعلومات.[8][60][61][62]
وقد تم اقتراح استخراج ومقارنة الإشارات العاطفية المقابلة للعواطف المتصورة من المحتوى الرقمي أيضًا لمكافحة التزييف العميق.[63][64][65]
هناك جانبٌ حاسمٌ آخر يتعلق بتخفيف هذه المشكلة. وقد اقتُرح أنه من الأفضل الاحتفاظ ببعض أدوات الكشف الحصرية لمن يحتاجها فقط، مثل أدوات التحقق من الحقائق للصحفيين.[29] بهذه الطريقة، فإن أولئك الذين يصنعون نماذج التوليد، ربما لأغراض شريرة، لن يعرفوا على وجه التحديد الميزات التي تسهل اكتشاف التزييف العميق،[29] تثبيط المهاجمين المحتملين.
لتحسين عملية الكشف بدلاً من ذلك، يحاول الباحثون تعميم العملية،[66] البحث عن تقنيات المعالجة المسبقة التي تعمل على تحسين الأداء واختبار وظائف الخسارة المختلفة المستخدمة للتدريب.[10][67]
برامج البحث
تعمل مجموعات بحثية عديدة حول العالم على كشف عمليات التلاعب بالوسائط، مثل التزييف العميق للصوت، وكذلك التزييف العميق للصور والفيديو. عادةً ما تُدعم هذه المشاريع بتمويل عام أو خاص، وتتواصل بشكل وثيق مع الجامعات ومؤسسات البحث.
ولتحقيق هذه الغاية، تدير وكالة مشاريع الأبحاث الدفاعية المتقدمة (DARPA) برنامج الطب الشرعي الدلالي (SemaFor).[68][69] من خلال الاستفادة من بعض الأبحاث من برنامج الطب الشرعي للإعلام (MediFor)[70][71]، أيضًا من وكالة مشاريع الأبحاث الدفاعية المتقدمة، سيتعين على خوارزميات الكشف الدلالي هذه تحديد ما إذا كان قد تم إنشاء كائن الوسائط أو التلاعب به، لأتمتة تحليل مصدر الوسائط واكتشاف النية وراء تزوير المحتوى المختلف.[72][68]
برنامج بحثي آخر هو برنامج الحفاظ على ثقة وسائل الإعلام في عصر الذكاء الاصطناعي (PREMIER)[73]، الممول من قبل وزارة التعليم والجامعات والبحث الإيطالية (MIUR) وتديره خمس جامعات إيطالية. ستسعى برنامج الحفاظ على ثقة وسائل الإعلام في عصر الذكاء الاصطناعي إلى اتباع نهج هجين جديد للحصول على أجهزة كشف جنائية أكثر قابلية للتفسير وأكثر أمانًا.[74]
DEEP-VOICE[75] مجموعة بيانات متاحة للعامة، مُصممة لأغراض بحثية لتطوير أنظمة للكشف عن توليد الكلام باستخدام الشبكات العصبية من خلال عملية تُسمى تحويل الصوت القائم على الاسترجاع (RVC). أظهرت الأبحاث الأولية اختلافات إحصائية عديدة بين السمات الموجودة في الكلام البشري وتلك المُولّدة بواسطة خوارزميات الذكاء الاصطناعي.
التحديات العامة
في السنوات القليلة الماضية، تم تنظيم العديد من التحديات لدفع هذا المجال من أبحاث التزييف الصوتي إلى أبعد من ذلك.
التحدي الأكثر شهرة في العالم هو ASVspoof،[45] تحدي انتحال هوية المتحدث التلقائي والتدابير المضادة. هذا التحدي مبادرة مجتمعية نصف سنوية تهدف إلى تعزيز الاهتمام بانتحال الهوية وتطوير التدابير المضادة.[76]
التحدي الأخير الآخر هو اضطراب نقص الانتباه وفرط الحركة.[77]—اكتشاف التزييف الصوتي العميق—الذي يأخذ في الاعتبار المواقف المزيفة في سيناريو أكثر واقعية.[78]
تحدي تحويل الصوت أيضًا[79] هو تحدي نصف سنوي، تم إنشاؤه بهدف مقارنة أنظمة وأساليب تحويل الصوت المختلفة باستخدام نفس بيانات الصوت.
الاستخدام الموسع دون إذن
في 22 مايو 2025، زُعم أن منتج ريد سبيك من شركة هويا كوربوريشن استخدم عمل تسجيل قامت به الممثلة غايان بوتر لصالحهم في عام 2021 والذي فهمت في ذلك الوقت أنه سيتم استخدامه فقط لبرامج إمكانية الوصول والتعلم الإلكتروني، ولكنه متاح الآن بشكل عام بصوت Iona ويُستخدم كمذيع في قطارات سكوت ريل .[80][81][82][82][83][84][85][86]
انظر أيضًا
المراجع
- ^ Smith، Hannah؛ Mansted، Katherine (1 أبريل 2020). Weaponised deep fakes: National security and democracy. Australian Strategic Policy Institute. ج. 28. ص. 11–13. ISSN:2209-9689.
- ^ Lyu, Siwei (2020). "Deepfake Detection: Current Challenges and Next Steps". 2020 IEEE International Conference on Multimedia & Expo Workshops (ICMEW) (بالإنجليزية الأمريكية). pp. 1–6. arXiv:2003.09234. DOI:10.1109/icmew46912.2020.9105991. ISBN:978-1-7281-1485-9. S2CID:214605906. Retrieved 2022-06-29.
- ^ ا ب Diakopoulos, Nicholas; Johnson, Deborah (Jun 2020). "Anticipating and addressing the ethical implications of deepfakes in the context of elections". New Media & Society (بالإنجليزية) (published 5 Jun 2020). 23 (7): 2072–2098. DOI:10.1177/1461444820925811. ISSN:1461-4448. S2CID:226196422. Archived from the original on 2024-11-09.
- ^ Murphy، Margi (20 فبراير 2024). "Deepfake Audio Boom Exploits One Billion-Dollar Startup's AI". Bloomberg. مؤرشف من الأصل في 2024-04-28.
- ^ Chadha, Anupama; Kumar, Vaibhav; Kashyap, Sonu; Gupta, Mayank (2021), Singh, Pradeep Kumar; Wierzchoń, Sławomir T.; Tanwar, Sudeep; Ganzha, Maria (eds.), "Deepfake: An Overview", Proceedings of Second International Conference on Computing, Communications, and Cyber-Security, Lecture Notes in Networks and Systems (بالإنجليزية), Singapore: Springer Singapore, vol. 203, pp. 557–566, DOI:10.1007/978-981-16-0733-2_39, ISBN:978-981-16-0732-5, S2CID:236666289, Retrieved 2022-06-29
- ^ "AI gave Val Kilmer his voice back. But critics worry the technology could be misused". Washington Post (بالإنجليزية الأمريكية). ISSN:0190-8286. Archived from the original on 2023-08-25. Retrieved 2022-06-29.
- ^ Etienne, Vanessa (19 Aug 2021). "Val Kilmer Gets His Voice Back After Throat Cancer Battle Using AI Technology: Hear the Results". PEOPLE.com (بالإنجليزية). Archived from the original on 2025-04-02. Retrieved 2022-07-01.
- ^ ا ب ج د Almutairi, Zaynab; Elgibreen, Hebah (4 May 2022). "A Review of Modern Audio Deepfake Detection Methods: Challenges and Future Directions". Algorithms (بالإنجليزية). 15 (5): 155. DOI:10.3390/a15050155. ISSN:1999-4893.
- ^ Caramancion، Kevin Matthe (يونيو 2022). "An Exploration of Mis/Disinformation in Audio Format Disseminated in Podcasts: Case Study of Spotify". 2022 IEEE International IOT, Electronics and Mechatronics Conference (IEMTRONICS). ص. 1–6. DOI:10.1109/IEMTRONICS55184.2022.9795760. ISBN:978-1-6654-8684-2. S2CID:249903722.
- ^ ا ب Chen, Tianxiang; Kumar, Avrosh; Nagarsheth, Parav; Sivaraman, Ganesh; Khoury, Elie (1 Nov 2020). "Generalization of Audio Deepfake Detection". The Speaker and Language Recognition Workshop (Odyssey 2020) (بالإنجليزية). ISCA: 132–137. DOI:10.21437/Odyssey.2020-19. S2CID:219492826. Archived from the original on 2024-06-20.
- ^ ا ب ج Ballesteros, Dora M.; Rodriguez-Ortega, Yohanna; Renza, Diego; Arce, Gonzalo (1 Dec 2021). "Deep4SNet: deep learning for fake speech classification". Expert Systems with Applications (بالإنجليزية). 184: 115465. DOI:10.1016/j.eswa.2021.115465. ISSN:0957-4174. S2CID:237659479.
- ^ Suwajanakorn، Supasorn؛ Seitz، Steven M.؛ Kemelmacher-Shlizerman، Ira (20 يوليو 2017). "Synthesizing Obama: learning lip sync from audio". ACM Transactions on Graphics. ج. 36 ع. 4: 95:1–95:13. DOI:10.1145/3072959.3073640. ISSN:0730-0301. S2CID:207586187.
- ^ Stupp, Catherine. "Fraudsters Used AI to Mimic CEO's Voice in Unusual Cybercrime Case". WSJ (بالإنجليزية الأمريكية). Archived from the original on 2025-05-13. Retrieved 2024-05-26.
- ^ Brewster, Thomas. "Fraudsters Cloned Company Director's Voice In $35 Million Bank Heist, Police Find". Forbes (بالإنجليزية). Archived from the original on 2025-05-13. Retrieved 2022-06-29.
- ^ "Generative AI is making voice scams easier to believe". Axios. 13 يونيو 2023. مؤرشف من الأصل في 2024-05-22. اطلع عليه بتاريخ 2023-06-16.
- ^ Bunn، Amy (15 مايو 2023). "Artificial Imposters—Cybercriminals Turn to AI Voice Cloning for a New Breed of Scam". مكافي Blog. مؤرشف من الأصل في 2025-05-24. اطلع عليه بتاريخ 2023-06-16.
- ^ Cox, Joseph (23 Feb 2023). "How I Broke Into a Bank Account With an AI-Generated Voice". Vice (بالإنجليزية). Archived from the original on 2025-04-30. Retrieved 2023-06-16.
- ^ Evershed، Nick؛ Taylor، Josh (16 مارس 2023). "AI can fool voice recognition used to verify identity by Centrelink and Australian tax office". The Guardian. اطلع عليه بتاريخ 2023-06-16.
- ^ "Scammers use AI to enhance their family emergency schemes". Consumer Advice (بالإنجليزية). 17 Mar 2023. Archived from the original on 2025-05-26. Retrieved 2024-05-26.
- ^ "Deepfake audio of Sir Keir Starmer released on first day of Labour conference". مؤرشف من الأصل في 2025-05-06.
- ^ Meaker، Morgan. "Slovakia's Election Deepfakes Show AI is a Danger to Democracy". Wired. مؤرشف من الأصل في 2025-05-24.
- ^ "Political consultant behind fake Biden AI robocall faces charges in New Hampshire". مؤرشف من الأصل في 2024-05-25.
- ^ "Political consultant accused of hiring magician to spam voters with Biden deepfake calls". Law & Crime (بالإنجليزية). 15 Mar 2024. Archived from the original on 2024-05-23. Retrieved 2024-05-23.
- ^ David Wright؛ Brian Fung؛ Brian Fung (6 فبراير 2024). "Fake Biden robocall linked to Texas-based companies, New Hampshire attorney general announces". سي إن إن. مؤرشف من الأصل في 2024-09-13.
- ^ Brian Fung (8 فبراير 2024). "FCC votes to ban scam robocalls that use AI-generated voices". CNN. مؤرشف من الأصل في 2025-05-23.
- ^ "FCC Makes AI-Generated Voices in Robocalls Illegal | Federal Communications Commission". www.fcc.gov (بالإنجليزية). 8 Feb 2024. Archived from the original on 2025-05-30. Retrieved 2024-05-26.
- ^ Kramer, Marcia (26 Feb 2024). "Steve Kramer explains why he used AI to impersonate President Biden in New Hampshire - CBS New York". www.cbsnews.com (بالإنجليزية الأمريكية). Archived from the original on 2025-01-26. Retrieved 2024-05-23.
- ^ "A political consultant faces charges and fines for Biden deepfake robocalls". مؤرشف من الأصل في 2025-05-04.
- ^ ا ب ج د ه A bot will complete this citation soon. Click here to jump the queue أرخايف:2111.14203.
- ^ Pradhan، Swadhin؛ Sun، Wei؛ Baig، Ghufran؛ Qiu، Lili (9 سبتمبر 2019). "Combating Replay Attacks Against Voice Assistants". Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies. ج. 3 ع. 3: 100:1–100:26. DOI:10.1145/3351258. S2CID:202159551.
- ^ Villalba, Jesus; Lleida, Eduardo (2011). "Preventing replay attacks on speaker verification systems". 2011 Carnahan Conference on Security Technology (بالإنجليزية الأمريكية). pp. 1–8. DOI:10.1109/CCST.2011.6095943. ISBN:978-1-4577-0903-6. S2CID:17048213. Archived from the original on 2025-04-22. Retrieved 2022-06-29.
- ^ Tom, Francis; Jain, Mohit; Dey, Prasenjit (2 Sep 2018). "End-To-End Audio Replay Attack Detection Using Deep Convolutional Networks with Attention". Interspeech 2018 (بالإنجليزية). ISCA: 681–685. DOI:10.21437/Interspeech.2018-2279. S2CID:52187155. Archived from the original on 2024-11-30.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:2106.15561.
- ^ ا ب A bot will complete this citation soon. Click here to jump the queue أرخايف:1609.03499.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:1909.09577.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:1703.10135.
- ^ ا ب A bot will complete this citation soon. Click here to jump the queue أرخايف:1811.00002.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:1906.01083.
- ^ ا ب A bot will complete this citation soon. Click here to jump the queue أرخايف:1710.07654.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:1905.09263.
- ^ Ning, Yishuang; He, Sheng; Wu, Zhiyong; Xing, Chunxiao; Zhang, Liang-Jie (Jan 2019). "A Review of Deep Learning Based Speech Synthesis". Applied Sciences (بالإنجليزية). 9 (19): 4050. DOI:10.3390/app9194050. ISSN:2076-3417.
- ^ ا ب Rodríguez-Ortega, Yohanna; Ballesteros, Dora María; Renza, Diego (2020). "A Machine Learning Model to Detect Fake Voice". In Florez, Hector; Misra, Sanjay (eds.). Applied Informatics. Communications in Computer and Information Science (بالإنجليزية). Cham: Springer International Publishing. Vol. 1277. pp. 3–13. DOI:10.1007/978-3-030-61702-8_1. ISBN:978-3-030-61702-8. S2CID:226283369.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:1903.12389.
- ^ ا ب Sercan، Ö Arık؛ Jitong، Chen؛ Kainan، Peng؛ Wei، Ping؛ Yanqi، Zhou (2018). "Neural Voice Cloning with a Few Samples". Advances in Neural Information Processing Systems (NeurIPS 2018) (نُشِر في 12 أكتوبر 2018). ج. 31: 10040–10050. arXiv:1802.06006. مؤرشف من الأصل في 2024-12-05.
- ^ ا ب "| ASVspoof". www.asvspoof.org. مؤرشف من الأصل في 2025-05-23. اطلع عليه بتاريخ 2022-07-01.
- ^ resemble-ai/Resemblyzer، Resemble AI، 30 يونيو 2022، مؤرشف من الأصل في 2025-05-11، اطلع عليه بتاريخ 2022-07-01
- ^ mendaxfz (28 يونيو 2022)، Synthetic-Voice-Detection، مؤرشف من الأصل في 2025-02-23، اطلع عليه بتاريخ 2022-07-01
- ^ HUA، Guang (29 يونيو 2022)، End-to-End Synthetic Speech Detection، مؤرشف من الأصل في 2022-07-02، اطلع عليه بتاريخ 2022-07-01
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:2010.05646.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:1910.06711.
- ^ Ng، Andrew (1 أبريل 2020). "Voice Cloning for the Masses". DeepLearning.AI. مؤرشف من الأصل في 2024-12-28. اطلع عليه بتاريخ 2024-12-22.
- ^ Chandraseta، Rionaldi (21 يناير 2021). "Generate Your Favourite Characters' Voice Lines using Machine Learning". Towards Data Science. مؤرشف من الأصل في 2021-01-21. اطلع عليه بتاريخ 2024-12-18.
- ^ "Audio samples from "Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis"". 30 أغسطس 2018. مؤرشف من الأصل في 2020-11-11. اطلع عليه بتاريخ 2022-06-05.
- ^ Temitope، Yusuf (10 ديسمبر 2024). "15.ai Creator reveals journey from MIT Project to internet phenomenon". The Guardian. مؤرشف من الأصل في 2024-12-28. اطلع عليه بتاريخ 2024-12-25.
- ^ Kurosawa, Yuki (19 Jan 2021). "ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる" [Game Character Voice Reading Software "15.ai" Now Available. Get Characters from Undertale and Portal to Say Your Desired Lines]. AUTOMATON (باليابانية). Archived from the original on 2021-01-19. Retrieved 2024-12-18.
- ^ "Navigating the Challenges and Opportunities of Synthetic Voices". OpenAI. 9 مارس 2024. مؤرشف من الأصل في 2024-11-25. اطلع عليه بتاريخ 2024-12-18.
- ^ Babbel.com; GmbH, Lesson Nine. "The 10 Most Spoken Languages In The World". Babbel Magazine (بالإنجليزية). Archived from the original on 2025-05-24. Retrieved 2022-06-30.
- ^ Najafian, Maryam; Russell, Martin (Sep 2020). "Automatic accent identification as an analytical tool for accent robust automatic speech recognition". Speech Communication (بالإنجليزية). 122: 44–55. DOI:10.1016/j.specom.2020.05.003. S2CID:225778214. Archived from the original on 2025-02-23.
- ^ Liu، Xiao؛ Zhang، Fanjin؛ Hou، Zhenyu؛ Mian، Li؛ Wang، Zhaoyu؛ Zhang، Jing؛ Tang، Jie (2021). "Self-supervised Learning: Generative or Contrastive". IEEE Transactions on Knowledge and Data Engineering. ج. 35 ع. 1: 857–876. arXiv:2006.08218. DOI:10.1109/TKDE.2021.3090866. ISSN:1558-2191. S2CID:219687051. مؤرشف من الأصل في 2024-09-07.
- ^ Rashid، Md Mamunur؛ Lee، Suk-Hwan؛ Kwon، Ki-Ryong (2021). "Blockchain Technology for Combating Deepfake and Protect Video/Image Integrity". Journal of Korea Multimedia Society. ج. 24 ع. 8: 1044–1058. DOI:10.9717/kmms.2021.24.8.1044. ISSN:1229-7771. مؤرشف من الأصل في 2025-04-16.
- ^ Fraga-Lamas، Paula؛ Fernández-Caramés، Tiago M. (20 أكتوبر 2019). "Fake News, Disinformation, and Deepfakes: Leveraging Distributed Ledger Technologies and Blockchain to Combat Digital Deception and Counterfeit Reality". IT Professional. ج. 22 ع. 2: 53–59. arXiv:1904.05386. DOI:10.1109/MITP.2020.2977589.
- ^ Ki Chan، Christopher Chun؛ Kumar، Vimal؛ Delaney، Steven؛ Gochoo، Munkhjargal (سبتمبر 2020). "Combating Deepfakes: Multi-LSTM and Blockchain as Proof of Authenticity for Digital Media". 2020 IEEE / ITU International Conference on Artificial Intelligence for Good (AI4G). ص. 55–62. DOI:10.1109/AI4G50087.2020.9311067. ISBN:978-1-7281-7031-2. S2CID:231618774.
- ^ Mittal، Trisha؛ Bhattacharya، Uttaran؛ Chandra، Rohan؛ Bera، Aniket؛ Manocha، Dinesh (12 أكتوبر 2020)، "Emotions Don't Lie: An Audio-Visual Deepfake Detection Method using Affective Cues"، Proceedings of the 28th ACM International Conference on Multimedia، New York, NY, USA: Association for Computing Machinery، ص. 2823–2832، DOI:10.1145/3394171.3413570، ISBN:978-1-4503-7988-5، S2CID:220935571، اطلع عليه بتاريخ 2022-06-29
- ^ Conti، Emanuele؛ Salvi، Davide؛ Borrelli، Clara؛ Hosler، Brian؛ Bestagini، Paolo؛ Antonacci، Fabio؛ Sarti، Augusto؛ Stamm، Matthew C.؛ Tubaro، Stefano (23 مايو 2022). "Deepfake Speech Detection Through Emotion Recognition: A Semantic Approach". ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Singapore, Singapore: IEEE. ص. 8962–8966. DOI:10.1109/ICASSP43922.2022.9747186. hdl:11311/1220518. ISBN:978-1-6654-0540-9. S2CID:249436701.
- ^ Hosler، Brian؛ Salvi، Davide؛ Murray، Anthony؛ Antonacci، Fabio؛ Bestagini، Paolo؛ Tubaro، Stefano؛ Stamm، Matthew C. (يونيو 2021). "Do Deepfakes Feel Emotions? A Semantic Approach to Detecting Deepfakes Via Emotional Inconsistencies". 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Nashville, TN, USA: IEEE. ص. 1013–1022. DOI:10.1109/CVPRW53098.2021.00112. hdl:11311/1183572. ISBN:978-1-6654-4899-4. S2CID:235679849.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:2203.16263.
- ^ Zhang، You؛ Jiang، Fei؛ Duan، Zhiyao (2021). "One-Class Learning Towards Synthetic Voice Spoofing Detection". IEEE Signal Processing Letters. ج. 28: 937–941. arXiv:2010.13995. Bibcode:2021ISPL...28..937Z. DOI:10.1109/LSP.2021.3076358. ISSN:1558-2361. S2CID:235077416. مؤرشف من الأصل في 2025-04-04.
- ^ ا ب "SAM.gov". sam.gov. مؤرشف من الأصل في 2025-02-06. اطلع عليه بتاريخ 2022-06-29.
- ^ "The SemaFor Program". www.darpa.mil. مؤرشف من الأصل في 2024-12-04. اطلع عليه بتاريخ 2022-07-01.
- ^ "The DARPA MediFor Program". govtribe.com. مؤرشف من الأصل في 2023-11-04. اطلع عليه بتاريخ 2022-06-29.
- ^ "The MediFor Program". www.darpa.mil. مؤرشف من الأصل في 2024-12-15. اطلع عليه بتاريخ 2022-07-01.
- ^ "DARPA Announces Research Teams Selected to Semantic Forensics Program". www.darpa.mil. مؤرشف من الأصل في 2024-11-10. اطلع عليه بتاريخ 2022-07-01.
- ^ "PREMIER". sites.google.com (بالإنجليزية الأمريكية). Archived from the original on 2024-04-22. Retrieved 2022-07-01.
- ^ "PREMIER - Project". sites.google.com (بالإنجليزية الأمريكية). Archived from the original on 2025-04-10. Retrieved 2022-06-29.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:2308.12734.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:2109.00537.
- ^ "Audio Deepfake Detection: ICASSP 2022". IEEE Signal Processing Society (بالإنجليزية). 17 Dec 2021. Archived from the original on 2024-10-11. Retrieved 2022-07-01.
- ^ A bot will complete this citation soon. Click here to jump the queue أرخايف:2202.08433.
- ^ "Joint Workshop for the Blizzard Challenge and Voice Conversion Challenge 2020 - SynSIG". www.synsig.org. مؤرشف من الأصل في 2022-07-02. اطلع عليه بتاريخ 2022-07-01.
- ^ "'Stop using my voice' - ScotRail's new announcer is my AI clone". BBC News (بالإنجليزية البريطانية). 27 May 2025. Archived from the original on 2025-05-29. Retrieved 2025-05-28.
- ^ "'Give it time' - ScotRail defends AI announcer Iona". BBC News (بالإنجليزية البريطانية). 22 May 2025. Archived from the original on 2025-05-28. Retrieved 2025-05-28.
- ^ ا ب "Voiceover artist Gayanne Potter urging ScotRail to remove her voice from new AI announcements". Sky News (بالإنجليزية). Archived from the original on 2025-05-28. Retrieved 2025-05-28.
- ^ "Actress claims ScotRail AI use her voice 'like something out of Black Mirror'". Yahoo News (بالإنجليزية البريطانية). 28 May 2025. Archived from the original on 2025-05-28. Retrieved 2025-05-28.
- ^ "Leading voiceover artist 'violated' by ScotRail AI announcements using her voice without 'permission'". LBC (بالإنجليزية). Archived from the original on 2025-05-28. Retrieved 2025-05-28.
- ^ "MSN". www.msn.com. اطلع عليه بتاريخ 2025-05-28.
- ^ English, David Leask | Paul (27 May 2025). "Actress feels 'cheated' by ScotRail's new AI voice announcer". www.thetimes.com (بالإنجليزية). Archived from the original on 2025-05-28. Retrieved 2025-05-28.