Trò chuyện trên Dark WebGPT Unleashed: Gặp gỡ DarkBERT

Chúng ta vẫn còn ở giai đoạn đầu của hiệu ứng quả cầu tuyết được giải phóng bằng cách tung ra các Mô hình Ngôn ngữ Lớn (LLM) như ChatGPT. Được kết hợp với nguồn mở của các mô hình GPT (Generative Pre-Trained Transformer) khác, số lượng ứng dụng sử dụng AI đang bùng nổ; và như chúng ta đã biết, bản thân ChatGPT có thể được sử dụng để tạo phần mềm độc hại cao cấp.

Khi thời gian trôi qua, các LLM được áp dụng sẽ chỉ tăng lên, mỗi người chuyên về lĩnh vực riêng của họ, được đào tạo về dữ liệu được tuyển chọn cẩn thận cho một mục đích cụ thể. Và một ứng dụng như vậy vừa bị loại bỏ, một ứng dụng được đào tạo dựa trên dữ liệu từ chính trang web tối. DarkBERT, theo cách gọi của những người sáng tạo Hàn Quốc, đã đến – hãy theo liên kết đó để xem báo phát hành, tài liệu này giới thiệu tổng thể về chính trang web tối.

DarkBERT dựa trên kiến ​​trúc RoBERTa, một cách tiếp cận AI được phát triển trở lại vào năm 2019. Nó đã chứng kiến ​​sự phục hưng của các loại, với việc các nhà nghiên cứu phát hiện ra rằng nó thực sự có nhiều hiệu suất hơn mức có thể được trích xuất từ ​​nó vào năm 2019. Có vẻ như mô hình này đã được đào tạo quá mức nghiêm trọng khi được phát hành, thấp hơn nhiều so với hiệu quả tối đa của nó.

Để đào tạo mô hình, các nhà nghiên cứu đã thu thập dữ liệu Dark Web thông qua tường lửa ẩn danh của mạng Tor, sau đó lọc dữ liệu thô (áp dụng các kỹ thuật như chống trùng lặp, cân bằng danh mục và xử lý trước dữ liệu) để tạo cơ sở dữ liệu Dark Web. DarkBERT là kết quả của việc cơ sở dữ liệu đó được sử dụng để cung cấp Mô hình ngôn ngữ lớn RoBERTa, một mô hình có thể phân tích một phần mới của nội dung Dark Web — được viết bằng phương ngữ riêng và các thông điệp được mã hóa kỹ lưỡng — và trích xuất thông tin hữu ích từ đó.

Nói rằng tiếng Anh là ngôn ngữ kinh doanh của Dark Web sẽ không hoàn toàn chính xác, nhưng đó là một cách pha chế đủ cụ thể để các nhà nghiên cứu tin rằng một LLM cụ thể phải được đào tạo về nó. Cuối cùng, họ đã đúng: các nhà nghiên cứu đã chỉ ra rằng DarkBERT hoạt động tốt hơn các mô hình ngôn ngữ lớn khác, điều này sẽ cho phép các nhà nghiên cứu bảo mật và cơ quan thực thi pháp luật thâm nhập sâu hơn vào các ngóc ngách của web. Rốt cuộc, đó là nơi mà hầu hết các hành động diễn ra.

Cũng như các LLM khác, điều đó không có nghĩa là DarkBERT đã kết thúc và việc đào tạo và điều chỉnh thêm có thể tiếp tục cải thiện kết quả của nó. Nó sẽ được sử dụng như thế nào, và những kiến ​​thức nào có thể thu thập được, vẫn còn phải chờ xem.

Chia sẻ cho bạn bè cùng đọc