0 Comments

Trò chuyện trên Dark WebGPT Unleashed: Gặp gỡ DarkBERT

Chúng ta vẫn còn ở giai đoạn đầu của hiệu ứng quả cầu tuyết được giải phóng bằng cách tung ra các Mô hình Ngôn ngữ Lớn (LLM) như ChatGPT. Được kết hợp với nguồn mở của các mô hình GPT (Generative Pre-Trained Transformer) khác, số lượng ứng dụng sử dụng AI đang bùng nổ; và như chúng ta đã biết, bản thân ChatGPT có thể được sử dụng để tạo phần mềm độc hại cao cấp.

Khi thời gian trôi qua, các LLM được áp dụng sẽ chỉ tăng lên, mỗi người chuyên về lĩnh vực riêng của họ, được đào tạo về dữ liệu được tuyển chọn cẩn thận cho một mục đích cụ thể. Và một ứng dụng như vậy vừa bị loại bỏ, một ứng dụng được đào tạo dựa trên dữ liệu từ chính trang web tối. DarkBERT, theo cách gọi của những người sáng tạo Hàn Quốc, đã đến – hãy theo liên kết đó để xem báo phát hành, tài liệu này giới thiệu tổng thể về chính trang web tối.

DarkBERT dựa trên kiến trúc RoBERTa, một cách tiếp cận AI được phát triển trở lại vào năm 2019. Nó đã chứng kiến sự phục hưng của các loại, với việc các nhà nghiên cứu phát hiện ra rằng nó thực sự có nhiều hiệu suất hơn mức có thể được trích xuất từ nó vào năm 2019. Có vẻ như mô hình này đã được đào tạo quá mức nghiêm trọng khi được phát hành, thấp hơn nhiều so với hiệu quả tối đa của nó.

Để đào tạo mô hình, các nhà nghiên cứu đã thu thập dữ liệu Dark Web thông qua tường lửa ẩn danh của mạng Tor, sau đó lọc dữ liệu thô (áp dụng các kỹ thuật như chống trùng lặp, cân bằng danh mục và xử lý trước dữ liệu) để tạo cơ sở dữ liệu Dark Web. DarkBERT là kết quả của việc cơ sở dữ liệu đó được sử dụng để cung cấp Mô hình ngôn ngữ lớn RoBERTa, một mô hình có thể phân tích một phần mới của nội dung Dark Web — được viết bằng phương ngữ riêng và các thông điệp được mã hóa kỹ lưỡng — và trích xuất thông tin hữu ích từ đó.

Nói rằng tiếng Anh là ngôn ngữ kinh doanh của Dark Web sẽ không hoàn toàn chính xác, nhưng đó là một cách pha chế đủ cụ thể để các nhà nghiên cứu tin rằng một LLM cụ thể phải được đào tạo về nó. Cuối cùng, họ đã đúng: các nhà nghiên cứu đã chỉ ra rằng DarkBERT hoạt động tốt hơn các mô hình ngôn ngữ lớn khác, điều này sẽ cho phép các nhà nghiên cứu bảo mật và cơ quan thực thi pháp luật thâm nhập sâu hơn vào các ngóc ngách của web. Rốt cuộc, đó là nơi mà hầu hết các hành động diễn ra.

Cũng như các LLM khác, điều đó không có nghĩa là DarkBERT đã kết thúc và việc đào tạo và điều chỉnh thêm có thể tiếp tục cải thiện kết quả của nó. Nó sẽ được sử dụng như thế nào, và những kiến thức nào có thể thu thập được, vẫn còn phải chờ xem.

Tin nhanh

Bí quyết giúp tốc độ Internet di động Việt Nam nhảy vọt

Meta Superintelligence Labs cắt giảm 600 nhân sự, Alexandr Wang lên tiếng

Tương lai của mạng xã hội

Chuyên gia Việt Nam và thế giới bàn về phát triển nguồn nhân lực số

Bí quyết giúp tốc độ Internet di động Việt Nam nhảy vọt

Meta Superintelligence Labs cắt giảm 600 nhân sự, Alexandr Wang lên tiếng

Tương lai của mạng xã hội

Chuyên gia Việt Nam và thế giới bàn về phát triển nguồn nhân lực số

Trò chuyện trên Dark WebGPT Unleashed: Gặp gỡ DarkBERT

Có thể bạn chưa biết

Bí quyết giúp tốc độ Internet di động Việt Nam nhảy vọt

Meta Superintelligence Labs cắt giảm 600 nhân sự, Alexandr Wang lên tiếng

Tương lai của mạng xã hội

Chuyên gia Việt Nam và thế giới bàn về phát triển nguồn nhân lực số

Nghiên cứu từ Đại học Columbia

Lấy ý kiến về việc ưu tiên phát triển sản phẩm công nghệ chiến lược

Modder Intrepid xây dựng bản demo Frame Warp từ các tệp nhị phân Nvidia Reflex 2 – công nghệ vẫn bị xếp xó một cách bí ẩn mặc dù độ trễ đã giảm đáng kể

TP-Link ra mắt bộ định tuyến chơi game Archer GE400 Wi-Fi 7 giá rẻ — Bộ định tuyến băng tần kép đạt mức giá phải chăng hơn, bao gồm cổng 2,5 GbE và hệ thống đèn RGB

20 years of Noctua: How one brand became a leader in the PC cooling business

Trung Quốc tìm kiếm khả năng tự lực về chất bán dẫn và AI trong kế hoạch 5 năm mới đầy tham vọng – Bắc Kinh cũng muốn tăng chi tiêu trong nước và giảm sự phụ thuộc vào xuất khẩu

Trung Quốc phát hành tiêu chuẩn ‘UBIOS’ để thay thế UEFI — Việc thay thế phần sụn BIOS do Huawei hỗ trợ sẽ tính phí cho các mục tiêu điện toán nội địa của Trung Quốc

Secretlab Magnus Evo Hands-on — phiên bản rút gọn của bàn đứng cao cấp, phổ biến

Cooler Master yêu cầu khách hàng tháo đầu nối 12v2x6 để lắp Asus RTX 5070 Ti — dịch vụ khách hàng đưa ra lời khuyên đáng ngờ mà thậm chí có thể không khắc phục được sự cố

ROG Xbox Ally chạy trên Linux tốt hơn so với Windows đi kèm — thử nghiệm mới cho thấy FPS cao hơn tới 32%, với tốc độ khung hình ổn định hơn và thời gian khôi phục chế độ ngủ nhanh hơn

Asus ROG Crosshair X870E Extreme Motherboard review: Flagship value, with minimal sacrifices