Tin giả (fake news) được định nghĩa khác nhau bởi các tổ chức quốc tế và theo từng quốc gia, bao gồm cả Việt Nam. Theo Tổ chức Giáo dục, Khoa học và Văn hóa Liên Hợp Quốc (UNESCO), tin giả là thông tin sai lệch được tạo ra và phát tán mà không có ý định chính trực. Trong khi đó, Ủy ban Châu Âu (EC) định nghĩa tin giả là thông tin được kiểm chứng là sai lệch hoặc gây hiểu lầm, được tạo ra, trình bày và phát tán với mục đích lừa dối công chúng hoặc gây hại, không phụ thuộc vào phương tiện lan truyền.
Ở Việt Nam, Luật An ninh mạng 2018 đã quy định về việc xử lý thông tin sai sự thật trên môi trường mạng, gây hậu quả nghiêm trọng, ảnh hưởng đến trật tự an toàn xã hội. Nhưng thực tế cho thấy các tổ chức và quốc gia khác nhau có cách tiếp cận khác nhau đối với việc xác định và xử lý tin giả để bảo vệ công chúng khỏi thông tin sai lệch và những hậu quả tiêu cực của nó mang lại.
Để xác định được đâu là tin giả, tin thật cần phải sử dụng nhiều phương pháp cả truyền thống lẫn sử dụng các công nghệ hiện đại hiện nay. Trên thế giới nhiều cơ quan quản lý và truyền thông đã sử dụng công nghệ phát hiện tin giả với mô hình học sâu (Deep Learning) kết hợp với xử lý ngôn ngữ tự nhiên (NLP). Công nghệ này dựa trên việc sử dụng các mạng nơ-ron nhân tạo để phân tích và hiểu ngôn ngữ tự nhiên của con người, từ đó xác định tính xác thực của thông tin.
Công nghệ điển hình này là mô hình học máy BERT (Bidirectional Encoder Representations from Transformers), một cải tiến đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) do Google phát triển. BERT đã đạt được kết quả nổi bật trong việc hiểu ngữ cảnh của từ ngữ trong văn bản, mở ra cánh cửa mới cho việc phát hiện tin giả một cách hiệu quả.
BERT được huấn luyện sẵn có khả năng hiểu ngữ cảnh của từ ngữ trong một câu từ cả hai hướng: trái qua phải và phải qua trái, giúp nó nắm bắt được ngữ nghĩa đầy đủ và phức tạp của văn bản. Điều này làm cho BERT trở nên mạnh mẽ trong việc xử lý các tác vụ liên quan đến ngôn ngữ tự nhiên, bao gồm cả việc phát hiện tin giả.
BERT hoạt động hiểu quả trong phát hiện tin giả
Mô hình BERT xử lý văn bản bằng cách hiểu ngữ cảnh của từng từ trong một câu, thay vì chỉ xem xét từ độc lập. Điều này giúp mô hình phân biệt được ý nghĩa của cùng một từ khi nó xuất hiện trong các ngữ cảnh khác nhau. Nó có thể đánh giá cảm xúc và ý kiến trong văn bản, giúp xác định liệu một bài báo có đang cố tình mang tính chất cực đoan, thiên vị, hoặc gây hiểu lầm. Bằng cách so sánh thông tin trong bài báo với cơ sở dữ liệu thông tin đã được xác minh, BERT có thể xác định xem thông tin đó có phải là tin giả hay không.
Với các lợi thế đó, BERT được ứng dụng trong nhiều lĩnh vực, nó có thể được tích hợp vào các hệ thống tự động để lọc và phân loại tin tức, giảm bớt gánh nặng cho các biên tập viên và nhà kiểm duyệt nội dung. Cung cấp một lớp kiểm duyệt đầu tiên, giúp người dùng hoặc tổ chức đưa ra các quyết định nhanh chóng về việc phát tán, chia sẻ, hoặc xử lý thông tin đó.
Mô hình BERT có liên quan gì tới Google?
Mô hình BERT được phát triển bởi Google AI và là một phần của nỗ lực nghiên cứu rộng lớn của Google trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). BERT đã được Google sử dụng để cải thiện hiểu biết về các truy vấn tìm kiếm và nội dung trang web, giúp tăng cường chất lượng của kết quả tìm kiếm trên Google Search. Tuy nhiên, về mặt kỹ thuật, mô hình BERT là một mô hình ngôn ngữ được huấn luyện độc lập và không trực tiếp liên kết với cơ sở dữ liệu cụ thể nào của Google hay bất kỳ hệ thống dữ liệu nào khác. Thay vào đó, BERT được huấn luyện trên một lượng lớn văn bản từ Internet, bao gồm Wikipedia và các nguồn mở khác, để học cách hiểu ngôn ngữ tự nhiên.
Khi được áp dụng vào các sản phẩm và dịch vụ cụ thể như Google Search, BERT có thể giúp Google hiểu tốt hơn các truy vấn của người dùng và nội dung của các trang web mà nó lập chỉ mục. Điều này dẫn đến việc cải thiện độ chính xác và liên quan của kết quả tìm kiếm, nhưng không có nghĩa là BERT trực tiếp truy cập hoặc tương tác với cơ sở dữ liệu riêng của Google.
Mô hình BERT và các biến thể của nó có thể được tích hợp vào nhiều hệ thống khác nhau và sử dụng cho nhiều mục đích khác nhau, không giới hạn trong phạm vi của dữ liệu hoặc hệ thống cụ thể nào.
Xu hướng ứng dụng BERT
Đến nay, có nhiều tổ chức và một số quốc gia đã bắt đầu khám phá và ứng dụng mô hình BERT và các biến thể của nó vào việc phát hiện tin giả như Full Fact (Vương quốc Anh) là một tổ chức kiểm định thực tế hàng đầu tại Anh; Snopes (Hoa Kỳ) là một trong những trang web kiểm định thực tế lâu đời nhất, Snopes áp dụng công nghệ AI để nhanh chóng phân tích và xác minh tính xác thực của các câu chuyện và thông tin lan truyền trên internet. Các quốc gia như Singapore, Ấn độ, …. đã thử nghiệm với việc sử dụng BERT và các mô hình AI khác để phát hiện tin giả, đặc biệt là trong bối cảnh của các sự kiện lớn như cuộc bầu cử.
Một tổ chức hoặc tòa soạn báo có thể tích hợp hoặc mua một phiên bản thương mại của BERT để sử dụng trong các nhiệm vụ như phát hiện tin giả, phân tích cảm xúc, hiểu ngôn ngữ tự nhiên và nhiều hơn nữa.
Google cũng đã cung cấp một số phiên bản của BERT đã được huấn luyện trước trên một lượng lớn dữ liệu văn bản. Các tổ chức có thể bắt đầu từ các mô hình này để tinh chỉnh theo nhu cầu cụ thể. Mô hình này cũng có thể được thực hiện trên các dịch vụ đám mây như Google Cloud Platform, Amazon Web Services, hoặc Microsoft Azure, sử dụng GPU hoặc TPU để tăng tốc quá trình huấn luyện và dự đoán.
Giải pháp cho việc phát hiện và ngăn chặn tin giả
Song song với việc nghiên cứu, ứng dụng các giải pháp tiên tiến phát hiện tin giả sử dụng công nghệ AI và NLP có thể được tăng cường bằng vai trò kiểm soát và hỗ trợ của Chính phủ để ban hành các quy định đối với các nền tảng trực tuyến và truyền thông xã hội, yêu cầu phải áp dụng các giải pháp công nghệ để phát hiện và loại bỏ tin giả. Khuyến khích và tạo điều kiện cho sự hợp tác giữa các cơ quan nhà nước, tổ chức truyền thông, và công ty công nghệ để chia sẻ kỹ thuật, dữ liệu và phương pháp tốt nhất trong việc phát hiện tin giả.
Ngoài ra, có thể cung cấp tài trợ cho các dự án nghiên cứu nhằm phát triển các công nghệ mới và hiệu quả hơn trong việc phát hiện tin giả. Hỗ trợ xây dựng cơ sở dữ liệu về tin giả đã được xác minh, giúp huấn luyện và cải thiện các mô hình AI và NLP. Thường xuyên đánh giá, kiểm tra theo định kỳ về hiệu quả của các biện pháp chống tin giả và công bố kết quả công khai để tăng tính minh bạch.
Qua các biện pháp này, vai trò của Chính phủ không chỉ là kiểm soát và quản lý mà còn là việc tạo ra một môi trường thông tin lành mạnh thông qua việc hỗ trợ đổi mới công nghệ, giáo dục công chúng, và tăng cường hợp tác cả trong và ngoài nước. Mục tiêu cuối cùng là tạo dựng một xã hội thông tin mở, trong đó thông tin chính xác và đáng tin cậy được lan tỏa.