Khoa học với World Cup: Dữ liệu lớn đang biến đổi bóng đá
Giải đấu là dịp để nhà nghiên cứu thể hiện những đóng góp của họ trong việc trợ giúp ban huấn luyện phát triển các cầu thủ và chiến thuật thi đấu.
Vẻ mặt cau có của Cristiano Ronaldo đã xuất hiện trên nhiều trang tin thể thao toàn cầu khi siêu sao người Bồ Đào Nha bị rút ra sân khi trận đấu giữa Manchester United và Newcastle vẫn còn 18 phút. Hầu hết các cầu thủ đều như anh, ít khi đồng tình với quyết định như thế của huấn luyện viên.
World Cup 2022 là cơ hội cho các cuộc tranh luận về thời gian ra sân. Sau khi hồi còi mãn cuộc vang lên vài phút, ban tổ chức sẽ gửi cho mỗi cầu thủ bảng phân tích chi tiết về màn trình diễn của họ. Các tiền đạo sẽ biết tần suất họ di chuyển tìm bóng và bỏ lỡ cơ hội, cũng như các hậu vệ sẽ nắm được năng lực cản phá và quấy rối đội hình đối phương của mình.
Phân tích dữ liệu giờ đây đóng vai trò định hướng mọi thứ, từ chuyển nhượng cầu thủ đến cường độ tập luyện, chọn mục tiêu và đề xuất hướng sút bóng tốt nhất từ bất kỳ vị trí nào trong sân.
Trong khi đó, các cầu thủ phải đối mặt với kiểu giám sát dữ liệu như với các phi hành gia. Áo khoác và dây đeo có các cảm biến chuyển động theo dõi vị trí bằng GPS và đếm số lần sút bóng mỗi chân. Máy quay ở nhiều góc độ ghi lại mọi thứ, từ những pha đánh đầu đến thời gian cầm bóng. Và để hiểu được các thông tin này, hầu hết các đội bóng đanh tiếng đều thuê các chuyên gia phân tích dữ liệu, bao gồm các nhà toán học, nhà vật lý, và nhà khoa học dữ liệu xuất thân từ các công ty và phòng thí nghiệm hàng đầu, như Microsoft, thậm chí cả phòng thí nghiệm vật lý hạt châu Âu CERN.
Những hiểu biết sâu sắc từ các nhà phân tích đang thay đổi cách thức diễn ra của các trận đấu: cấc tiền đạo ít sút xa hơn, các cầu thủ chạy cánh chuyền cho đồng đội thay vì tạt bóng , còn các huấn luyện viên ám ảnh với việc giành quyền kiểm soát ở phần sân đối thủ. Tất cả các thay đổi chiến thuật đều có các bằng chứng chắc chắn để hỗ trợ cho trực giác của huấn luyện viên.
Nhà khoa học thể thao Daniel Memmert từ Đại học Thể thao Cologne, Đức, cho biết: Dữ liệu lớn đã mở ra một kỷ nguyên mới cho bóng đá. “Nó đã thay đổi triết lý và hành vi của các đội, cách họ phân tích đối thủ, cách họ phát triển các tài năng và tìm kiếm cầu thủ.”
Tầm ảnh hưởng bao trùm
Một trường hợp nổi tiếng về cách dữ liệu thay đổi thể thao đến từ môn bóng chày. Michael Lewis, trong cuốn sách Moneyball được xuất bản năm 2003, đã trình bày chi tiết cách nhà quản lý Billy Beane của đội Oakland Athletics dựa vào số liệu thống kê về cầu thủ để đưa đội bóng chày của mình lên ngôi vô địch chỉ với ngân sách eo hẹp trong mùa giải 2002. Beane đã chiêu mộ các cầu thủ trên cơ sở dữ liệu chi tiết về hiệu suất thi đấu, bao gồm các chỉ số không được coi trọng trước đây, chẳng hạn như tần suất cầu thủ đánh bóng (batter) chiếm được chốt gôn.
Beane đã đi trước những đồng nghiệp môn bóng đá khi ấy vẫn còn xào nấu các chiêu thức cũ. Bóng chày là trò chơi chỉ có một đội trong một thời điểm cố gắng ghi điểm, nên tương đối dễ thông kê và thực tế là các số liệu đã được nghiên cứu quy mô lớn trong nhiều thập kỷ. Ngược lại, diễn biến của bóng đá đan xen liên tục, kéo dài, với điểm số tương đối thấp, và khá khó khăn để ghi lại thông tin ai làm gì và ảnh hưởng đến kết cục trận đấu thế nào. Trong nhiều thập kỷ, các nhà thống kê chỉ tập trung vào các bàn thắng và tìm cách mô hình hóa chúng để đưa ra dự đoán.
Những biến thể của phương pháp cũ đến nay vẫn còn được áp dụng để dự đoán tỷ số của các trận đấu. Một mô hình giả định số bàn thắng và bàn thua dựa trên phân phối trung bình, được phát triển bởi các nhà dịch tễ của đại học Oxford dự đoán chính xác rằng Italia đánh bại Anh trong trận chung kết Euro 2020. Nó cũng dự đoán chính xác 6 đội thắng trong 8 trận tứ kết.
Matthew Penn, nghiên cứu sinh tại Oxford, người đã phát triển mô hình này, cho biết các dự đoán theo thống kê thật ra chính xác hơn nhiều người nghĩ. Với tổng số bàn thắng mà mỗi đội đã ghi được và độ khó tương đối của đối thủ, bạn có thể tính toán được sức mạnh tấn công và phòng thủ của họ. Khi đã giải được bộ phương trình lớn này, việc dự đoán từng trận đấu thực sự khá dễ dàng. Mô hình của Penn dự đoán Bỉ có cơ hội cao nhất để nâng chiếc cúp vàng năm nay.
Đội nào sẽ vô địch World Cup 2022?
“Mô hình phân phối Poisson kép” đánh giá năng lực tấn công và phòng thủ của từng cầu thủ cho thấy tuyển Bỉ là đội có cơ hội vô địch cao nhất, trong khi Brazil mới là đội đứng đầu bảng xếp hạng FIFA.
Hướng đến sự hoàn hảo
Điều thú vị hơn đối với các huấn luyện viên là các dữ liệu về các sự kiện trên sân và cách các cầu thủ ảnh hưởng đến họ.
Các nhà phân tích từ lâu đã ghi lại thông tin loại này. Nổi bật nhất là trường hợp một cựu kế toán của Không lực Hoàng gia Anh tên là Charles Reep đã dành phần lớn thập niên 1950 để xem các trận đấu ở Anh và đưa ra các nhận xét cơ bản về các yếu tố như vị trí ném bóng và trình tự chuyền bóng. Reep thậm chí còn sử dụng dữ liệu của mình để phân tích màn trình diễn của đội và đề xuất chiến lược và chiến thuật. Tại câu lạc bộ Wolverhampton Wanderers, ông đã giúp đội thể hiện lối chơi tấn công biên sắc sảo cùng những đường căng ngang rất khó chịu. Đội bóng đã thắng ba chức vô địch trong 5 năm.
Từ hơn một thập kỷ trước, công nghệ đã tiến bộ đủ tốt để hầu hết câu lạc bộ danh tiếng và nhiều đội tuyển quốc gia nhận thấy cần phải thuê các chuyên gia phân tích dữ liệu. Bản thân Penn, bên cạnh công việc nghiên cứu sinh tiến sĩ, còn là nhà phân tích dữ liệu bán thời gian cho câu lạc bộ bán chuyên Oxford City đang chơi tại National League South, giải hạng 6 của Anh.
Nhiều nhà phân tích cho rằng thành công gần đây của đội bóng thủ đô Brentford tại giải Ngoại hạng Anh là nhờ thuật toán nội bộ đánh giá các cầu thủ của các giải đấu khác nhau nhằm chiêu mộ những ngôi sao bị đánh giá thấp. Nhóm dữ liệu của đội Liverpool bao gồm các nhà vật lý từng làm việc tại CERN và đại học Cambridge, đã xây dựng mô hình đánh giá hành động nào của cầu thủ làm tăng cơ hội ghi bàn. Năm ngoái, các nhà khoa học thể thao tại đại học Lisbon đã cùng với gã khổng lồ xứ Catalonia – Barcelona FC – công bố một phân tích các cơ hội ghi bàn kéo dài bao lâu trong từng kiểu chuyền bóng.
Công việc cụ thể của Penn tại Oxford City là đưa ra các báo cáo trước trận đấu: đưa ra các chỉ số của đối thủ, biểu đồ lối chơi và cách kiểm soát bóng của họ, kèm các đề xuất chiến thuật. Trong trận đấu gần đây, trước một đối thủ đang ở phong độ cao với chuỗi trận bất bại, Penn đã phân tích được điểm yếu của họ là hậu vệ trái có khả năng chơi bóng bằng đầu kém và đề xuất bố trí tiền đạo lệch sang cánh phải. Oxford City đã giành chiến thắng.
Một con mắt chiến thuật giàu kinh nghiệm cũng có khả năng nhìn ra điều này, nhưng dữ liệu “ít bị thiên kiến hơn”, Penn cho biết.
Các câu lạc bộ không phải tự thu thập dữ liệu thô để phân tích chiến thuật mà có thể mua từ các công tư thương mại đã mã hóa thông tin từ kho video, có thể chứa đến 3000 sự kiện trong một trận đấu, bao gồm các pha dẫn bóng, chuyền và cản phá. Trước kia, các dữ liệu được nhập thủ công, nhưng giờ đây, công việc được phụ trách bởi chương trình thị giác máy tính, một dạng trí thông minh nhân tạo (AI). Các dữ liệu này sẽ dẫn đến một thống kê tóm lược, như tỷ lệ hoàn thành đường chuyền của từng cầu thủ.
Sinh viên Joanna Marks của khoa toán, đại học Warwick, cũng là đồng nghiệp của Penn tại Oxford City, đã phát triển một mô hình phân tích dữ liệu tho để đánh giá năng lực chuyền bóng của tất cả các cầu thủ trong đội. Đây là chi tiết thường không sẵn có trong dữ liệu thô được cung cấp bởi các công ty.
Bạn cần tính đến kiểu chuyền bóng nào mà cầu thủ cố gắng thực hiện chứ không đơn thuần về tỷ lệ chuyền bóng thành công, vì một số đường chuyền có độ khó cao hơn nhiều. “Mô hình này giúp Oxford City biết trước và chú ý đến một số khu vực cụ thể trên sân, nơi đối thủ chuyền bóng rất tốt”.
Ravi Ramineni từng là nhà phân tích dữ liệu tại Microsoft trước khi chuyển đến làm cho câu lạc bộ Seattle Sounders đang thi đấu tại giải bóng đá nhà nghề Mỹ (MLS). Một trong những nhiệm vụ đầu tiên của anh là sử dụng dữ liệu định vị vệ tinh về quãng đường di chuyển của các cầu thủ để tối ưu hóa việc tập luyện, sao cho không dưới sức cũng không quá sức, và ngăn ngừa chấn thương.
“Chúng tôi đã trải qua một số mùa giải thành công với phương pháp mới. Nhưng rất khó để định lượng hiệu quả thực sự nếu chấn thương không xảy ra”.
Hiện vẫn chưa có thử nghiệm đối chứng để đánh giá hiệu quả của phân tích dữ liệu. Nhưng Ramineni cho biết các huấn luyện viên tại Seattle rất cởi mở áp dụng các phân tích trong quá trình tập luyện và đánh giá các cầu thủ. Anh có thể tiếp cận với ban huấn luyện cũng như trao đổi trực tiếp với các cầu thủ.
Ngoài tầm máy quay
Các nhà phân tích hiện đang ngày càng chú ý đến các hành vi của cầu thủ khi không tham gia pha bóng, Ramineni cho biết.
Điều này khó khăn và tốn kém hơn, với nhiều máy quay chuyên dụng vừa ghi hình pha bóng, đồng thời cũng theo dõi các cầu thủ khác và gắn thẻ vị trí của họ 25 lần mỗi giây. Dữ liệu loại này thường được các công ty ký hợp đồng cung cấp độc quyền cho các giải đấu quốc gia, nên người ngoài cuộc rất khó tiếp cận. Ramineni hiện không thể kiếm được dữ liệu dạng này từ các giải đấu tại châu Âu và Nam Mỹ.
Trong những năm gần đây, AI được dùng để dự đoán chuyển động của các cầu thủ trong và ngoài khung hình, nghĩa là chỉ cần dựa vào chương trình phát sóng trận đấu thông thường để phân tích toàn diện về các cầu thủ trong lẫn ngoài pha bóng.
Một mô hình như thế đã được công ty DeepMind của Google tại London cùng nhóm dữ liệu của đội Liverpool phát triển. Ian Graham, giám đốc nghiên cứu của Liverpool, người đã rời bỏ việc nghiên cứu hậu tiến sĩ về polymer tại đại học Cambridge để phân tích bóng đá cho câu lạc bộ, cho biết mô hình tiên đoán mới giúp bạn đặt ra các câu hỏi về chiến thuật và các giả định trái ngược.
Đối với một sự việc cụ thể trong trận đấu, mô hình có thể mô phỏng hàng nghìn giả định kịch bản thay thế, nhờ vậy có thể đưa ra đánh giá một động thái tấn công có hiệu quả thế nào trong khoảnh khắc tương ứng.
Các câu lạc bộ có xu hướng giữ bí mật dữ liệu và năng lực phân tích của họ. Công bố kết quả nghiên cứu là điều khó chịu với Liverpool, họ sở hữu một trong những bộ phận phân tích quy mô và phát triển nhất, nhưng đó là điều kiện để hợp tác với DeepMind.
Graham, cũng như các nhà phân tích dữ liệu khác, né tránh nhận công lao về mình. “Bóng đá vẫn là một trò chơi khó dự đoán vì các đội vẫn cứ thua dù họ ở kèo trên hoặc có thể thắng khi họ ở kèo dưới”, anh cho biết.
Karl Tuyls, nhà khoa học máy tính tại DeepMind, nói rằng mô hình tiên đoán ngoài tầm máy quay là bước đầu tiên hướng đến một trợ lý huấn luyện viên ảo, sử dụng dữ liệu thời gian thực để hướng dẫn việc ra quyết định trong bóng đá và các môn thể thao khác, chẳng hạn như AI đánh giá hiệu suất trong hiệp một và đề xuất thay đổi đội hình trong hiệp hai.
Các tiếp cận này cũng hữu ích với đời sống ngoài sân cỏ, như lập mô hình đường đi cho xe tự lái và người đi bộ trên đường phố đông đúc, Tuyls cho biết thêm.
Sarah Rudd, nhà khoa học dữ liệu từng làm cho Microsoft, nghỉ việc tại Arsenal FC sau gần một thập kỷ để chuyển sang giải đua Công thức Một. Cô làm việc với kho dữ liệu viễn trắc từ xe đua giúp đội điều chỉnh và cải thiện hiệu suất.
“Chúng ta luôn hướng đến mức độ dữ liệu khồng lồ như trong giải Công thức Một”. Cô cho biết còn rất nhiều chỉ số của bóng đá chưa được đo lường hoặc chưa rút ra được hiểu biết ẩn sâu từ đó.
Bước phát triển tiếp theo là dữ liệu về điều hướng của cầu thủ, thậm chí sự thay đổi trọng tâm cơ thể trong chuyển động. Dữ liệu chưa được chi tiết như kỳ vọng, vì chưa thể nắm bắt được từng bước chạy lập bập hoặc lệch trọng tâm khiến một hậu vệ mất thăng bằng hoặc thủ môn bị khựng lại.
Phân tích AI của Liverpool còn đưa ra đánh giá nhầm lẫn do sự hiểu biết thông tin không đầy đủ. “Mô hình có thể đánh giá xấu về một cầu thủ vì anh ta đã không bắt đầu chạy trong khi đáng ra anh ta nên như thế, mà không tính tới tình huống bị vấp ngã hoặc phải nằm sân do chấn thương”.
Khi bóng đá ngập trong dữ liệu, những con số thay đổi trận đấu như thế nào?
“Thị trường chuyển nhượng cầu thủ có lẽ là nơi ứng dụng hiệu quả nhất”. Trong các tình huống cố định, như một quả phạt trực tiếp sau khi trận đấu tạm dừng, AI cũng chứng tỏ vai trò của mình.
Một bài học rõ ràng rút ra được từ phân tích dữ liệu là các cầu thủ không nên sút khi họ ở xa khung thành. Tại bất kỳ giải đấu nào trên thế giới, khoảng cách sút đã thu ngắn lại nhiều so với 10 năm trước, đơn giản vì dữ liệu nói với bạn rằng: “Tại sao bạn lại sút từ xa như thế, khi chỉ có 2% cơ hội thành bàn?”
Nhiều đội hiện nay không khuyến khích các cầu thủ cố gắng tạt bóng vào vòng cấm địa, vì thống kê cho thấy hầu hết đều vô nghĩa.
Khối lượng dữ liệu sẽ ngày càng tăng, và vai trò của dữ liệu sẽ in đậm lên tất cả các môn thể thao. Xu hướng đó là không thể đảo ngược.
Theo Tia Sáng