Mario Klein thuộc Viện Khoa học Ánh sáng Max Planck và các đồng nghiệp của ông đã huấn luyện một mô hình trí tuệ nhân tạo để phân tích 143.000 bài báo được xuất bản trên máy chủ arXiv từ năm 1994 đến 2021. Tất cả các bài báo này đều liên quan đến các lĩnh vực về trí tuệ nhân tạo.


Nhóm nghiên cứu đã sử dụng công cụ xử lý ngôn ngữ tự nhiên (NLP) để tạo ra danh sách gần 65.000 khái niệm chính bằng cách trích xuất từ khóa và cụm từ từ tiêu đề cũng như phần tóm tắt của các bài báo. Các khái niệm này trở thành các nút trong một mạng ngữ nghĩa, giúp mô hình AI khám phá các mối liên kết giữa các ý tưởng và bài báo.


Dữ liệu này cho phép mô hình AI hiểu cách lĩnh vực nghiên cứu AI đã thay đổi theo thời gian, cũng như cách các nhà nghiên cứu kết nối và khám phá các lĩnh vực mới. Sau đó, 10 phương pháp máy học khác đã sử dụng mạng ngữ nghĩa này để tìm ra những khái niệm nào chưa được nghiên cứu trong giai đoạn 5 năm.


Bằng cách kiểm tra với dữ liệu lịch sử, mô hình AI có thể dự đoán với độ chính xác hơn 99,5% rằng những khái niệm chưa được nghiên cứu này sẽ xuất hiện trong ít nhất 3 bài báo trong vòng 5 năm tới. Nhóm nghiên cứu gợi ý rằng phương pháp này có thể được sử dụng để dự đoán các chủ đề nóng trong tương lai hoặc hỗ trợ phát triển AI với khả năng hiểu biết gần gũi hơn với con người.


Gabrielle Pereira, thuộc Trường Kinh tế Luân Đôn (LSE) tại Vương quốc Anh, nhận xét: "Chúng tôi cho rằng bài báo này phản ánh phần lớn cách tư duy hiện tại trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo".