Nghe thật, nói giả: Kỷ nguyên của deepfake

Dù mang lại nhiều ứng dụng hữu ích, AI cũng đang mở ra một kỷ nguyên, nơi ranh giới giữa thật và giả trở nên mong manh hơn bao giờ hết.

Lừa đảo không kẽ hở

Đầu năm 2025, một nhóm doanh nhân giàu có ở Italy bất ngờ nhận được cuộc gọi từ “Bộ trưởng Quốc phòng Guido Crosetto”. Người ở đầu dây với giọng nói giống hệt vị quan chức này và khẩn khoản kêu gọi họ đóng góp tiền để giải cứu các nhà báo Italy ở Trung Đông.

Tuy nhiên, ông Crosetto thật hoàn toàn không hay biết. Ông chỉ phát hiện sự việc khi một số doanh nhân liên hệ xác minh. Cảnh sát sau đó kết luận đây là vụ lừa đảo tinh vi. Những kẻ đứng sau đã dùng trí tuệ nhân tạo (AI) để giả giọng nói của bộ trưởng, đánh lừa nạn nhân chuyển tiền vào tài khoản ở nước ngoài.

Vụ việc một lần nữa cho thấy công nghệ AI, dù mang đến nhiều tiện ích, cũng đang mở ra kỷ nguyên mới cho các chiêu thức lừa đảo tinh vi, nơi ranh giới giữa thật và giả ngày càng khó phân biệt.

Công nghệ tạo giọng nói bằng AI dựa trên các thuật toán “học sâu” (deep learning). Bằng cách phân tích hàng nghìn giờ ghi âm giọng nói của con người, hệ thống học cách bắt chước cao độ, ngữ điệu, nhịp điệu và cách phát âm. Khi đã được huấn luyện đủ dữ liệu, AI có thể tái tạo giọng nói của một người cụ thể hoặc tạo ra giọng nói hoàn toàn mới, có âm sắc và cảm xúc gần như thật.

Công nghệ này kết hợp tính năng xử lý ngôn ngữ tự nhiên (NLP) và tổng hợp giọng nói. NLP giúp AI hiểu ngữ nghĩa và sắc thái cảm xúc trong lời nói trong khi bộ tổng hợp giọng nói chuyển văn bản thành âm thanh. Kết quả cho ra là một bản sao giọng nói do AI tạo ra (AI voice clone) nghe rất giống người thật, đến mức khó phân biệt bằng tai thường.

Theo bà Nadine Lavan, giảng viên Tâm lý học tại Đại học Queen Mary London (Anh), các mô hình AI có thể được huấn luyện bằng hàng nghìn giờ dữ liệu để “học” giọng nói của con người nói chung hoặc tái hiện giọng của một cá nhân cụ thể.

“Bạn chỉ cần đưa cho mô hình một ví dụ về giọng nói và yêu cầu nó sao chép. Nó có thể tạo ra một phiên bản deepfake gần như không thể nhận ra”, bà nói và cho hay, từ đó khái niệm “deepfake” ra đời.

Thuật ngữ trên ghép từ “deep learning” (học sâu) và “fake” (giả) được chuyên gia người Mỹ Ian Goodfellow đặt ra năm 2014. Nó đã trở thành biểu tượng cho một kỷ nguyên mới, nơi AI có thể tạo ra hình ảnh, video hay âm thanh có độ chân thực cao, đến mức khiến con người khó lòng phân biệt thật - giả.

Deepfake khiến con người khó phân biệt thật - giả.

Khả năng tinh vi

Một nghiên cứu của Đại học Queen Mary London, công bố trên tạp chí PLOS One ngày 24/9, đã chứng minh rằng giọng nói do AI tạo ra hiện “không thể phân biệt được” với giọng nói thật của con người.

Nhóm nghiên cứu đã tạo 40 mẫu giọng nói bằng công cụ ElevenLabs, bao gồm cả giọng “deepfake” và giọng hoàn toàn mới, đồng thời thu thập thêm 40 mẫu giọng thật. Tất cả được xử lý, làm sạch và thử nghiệm với 50 người tham gia tại Anh, trong độ tuổi từ 18 đến 65.

Kết quả cho thấy, 41% giọng nói do AI tạo ra và 58% giọng nói nhái lại bị nhầm là giọng người thật. Đáng chú ý, người tham gia còn đánh giá giọng nói do AI tạo ra đáng tin cậy hơn giọng thật, kết quả trái ngược với các nghiên cứu trước đây.

Nghiên cứu cũng cho thấy, giọng nói mang âm sắc Anh được xem là “thật” nhiều hơn so với giọng Mỹ, phản ánh khả năng tinh chỉnh cực kỳ chi tiết của công nghệ AI hiện nay.

Bà Lavan nhận định sự tiến bộ này đến từ việc các mô hình AI hiện được huấn luyện bằng dữ liệu chất lượng cao và đa dạng hơn trước rất nhiều. “Nhờ tiếp xúc với lượng thông tin khổng lồ về cách con người nói, AI có thể mô phỏng không chỉ cao độ, ngữ điệu, mà cả những yếu tố rất nhỏ – như tiếng thở, độ ngắt quãng hay lỗi phát âm”, bà nói.

Công nghệ tạo giọng nói bằng AI mở ra nhiều cơ hội mới cho ngành quảng cáo, điện ảnh và hỗ trợ người khuyết tật, nhưng đồng thời cũng tiềm ẩn rủi ro lớn nếu bị lạm dụng. Các vụ lừa đảo dùng giọng “deepfake” đang gia tăng nhanh chóng trên toàn cầu. Những phát hiện trên cho thấy ranh giới giữa giọng nói thật và giọng nói nhân tạo đang mờ dần, đặt ra thách thức lớn về niềm tin và an toàn thông tin trong thời đại deepfake phát triển mạnh mẽ.

Theo Công ty Resemble AI (Mỹ), chỉ trong nửa đầu năm nay, người dân trên thế giới đã mất hơn 547 triệu USD vì lừa đảo deepfake, tăng mạnh so với đầu năm. Khi AI chỉ cần vài giây ghi âm để tái tạo giọng nói, nguy cơ đánh cắp danh tính và gian lận tài chính ngày càng đáng lo.

Dù vậy, theo chuyên gia Nadine Lavan, công nghệ này cũng đang được khai thác cho những mục đích nhân văn như giúp những người mất khả năng nói có thể tìm lại giọng nói của chính mình, hoặc tạo ra một giọng nói mới thể hiện bản sắc cá nhân.

Như nhiều công nghệ khác, AI không tự “tốt” hay “xấu”. Điều quan trọng là cách con người sử dụng nó trong thế giới ngày càng khó phân biệt thật – giả.