• 主页 > 知识问答
  • 梅西22世界杯夺冠后,如何用大数据模型理性分析球员成就?推荐AiAutoPrediction足球系列软件

    足球数据分析软件推荐:

    AIAUTOPREDICTION足球系列软件如下:

    人工智能自动预测

    足球预测 |行走大小球|行走在大地上|角球|数据分析

    AISCore预测器

    乐彩云

    足球历史球员夺冠次数_夺冠次数最多的足球球员_夺冠足球次数球员历史排行榜

    本文约一万字。主要讨论定量模型本身。如果想直接过结论的话,可以直接跳到文末的拓展阅读,里面有选手排名等量化选拔分析。

    背景

    说到使用EXCEL排王排行榜,网上有很多,但大多数的排名方法都是一些简单的冠军和全球机构梦之队的梦之队的比较。其实这个比较还是有太多个人感受的,因为这个比较没有一个量化的方法鉴定也是冠军数量和球员荣誉之间的关系。因为如果单论总冠军的话,丹尼·阿尔维斯就是球王。而那些所谓的官方评选的世纪梦之队或者TOP50/100球员无法动态更新每年的新奖杯和球员表现,我认为这些所谓的历史最佳评选没有标准,充满感情。而且目光短浅。

    因此,我的量化模型必须一视同仁,每个球员的总得分可以追溯到每个赛季每项成就的“量化得分”。所谓的量化分数不会根据不同时期的玩家而定。每一个量化得分都是每个球员在他的赛季或者他的场上与他的场上其他球员的“横向比较”。以及结果。比如,马拉多纳在86/90世界杯上的量化成绩,不会与梅西或者齐达后来的世界杯进行比较,而必须是同赛季的球员,比如普拉泰尼和马图斯,表现才有可比性。

    另外,这个量化模型的数据粒度会细致到每个球员/赛季/俱乐部/国家队/赛事。这样,除了球员的历史成绩之外,我们还可以总结和回顾某个赛事、俱乐部、国家队的历史走势。例如,下面的曲线是计算出的意甲/巴塞罗那/巴西国家队的量化历史趋势。我们还可以定量地观察各个球队和赛事的兴衰。我也会在文末的拓展阅读链接中更新这些有趣的分析结果。

    可见,意甲的巅峰是在1990年代初,巴塞罗那在1990年成就了梦之队。巴西国家队在整个1960年代和1990年代的统治地位

    免责声明:在介绍我的评分方法之前,我想先明确最重要的一点:这个评分并不是看哪个选手最强。需要强调的是,这个分数的目的是量化足球领域的个人成就,也可以理解量化的伟大或影响力。没有办法计算谁是最强的玩家。除了我,我不可能看一万小时的足球视频。我认为以个人能力来评分是对选手本身的不尊重。对我来说,无论是波格莫夫,无论是艺术足球还是高效的克洛泽,模范球员马尔蒂尼,浪漫的小罗,都只是我排名中球员的成就。打法、相貌、运气、争议、场外因素都与量化无关。

    最后,我也得声明一下我作为球迷的个人立场:-90后,看球第一年是2002年世界杯,然后跟随孙继海和李玮锋迅速留在英超并跌倒爱上Wegged Arsenal 的艺术足球。深入米兰。我粉丝的球员只有亨利(转会前)和卡卡。我毕竟不喜欢巴萨,毕竟常年都是阿森纳和米兰,而且总是受到裁判的照顾。由于阿森纳和米兰在2010年之后一年都不如,我就开始佛系看球,直到今天。

    定量公式

    作为一个理科生,我觉得这个模型可能先用公式。下面的公式表达了每个球员在每个赛季的所有成绩得分的计算方法。

    下面解释每项成就的分数和系数计算

    从这个公式我们可以看出,量化分数是以每个赛季的奖杯、荣誉、个人表现为基础的。每个奖杯和个人表现都是根据当时赛事的“难度系数”进行调整的。但个人荣誉(如金球奖)则不受难度系数的影响。这是为了保持横向对比的连续性原则,每年对待整个足球历史上最好的球员。另外,因为国内联赛的含金量也是保持横向对比的一致性。后面我会解释“难度系数”和“影响力”的具体计算方法。简单来说,“难度系数”受到队友同赛季成绩分数和对手分数的影响。队友总分越高,难度越低,对手总分越高,难度越大。联赛的“影响力”取决于当时国内联赛的整体成绩分数在世界上排名如何。排名越高,影响因子越高。

    模型优缺点

    足球历史球员夺冠次数_夺冠次数最多的足球球员_夺冠足球次数球员历史排行榜

    有了这个公式,对数字敏感的朋友应该对这个模型有了一个大概的了解。该模型的主要优点是客观性、生态性、可定制性。

    毫无疑问,通过恢复每个球员每个赛季的得分,我可以完全透明地了解每个球员得分的原因。并且模型遵循横向对比的原则,对待每个季节,完整地延续了某个时代的主观感受和偏见。

    生态性意味着这个模型中每个玩家的成就并不是在真空中单独获得的。由于“联赛影响系数”和“赛事难度系数”的影响,每位选手都会受到队友和对手得分的影响。我的模型已经从几千个玩家变成了几千个玩家,这些系数的变化使得分数差别很大。同样,这个生态每年都可以根据一个新的现实世界的表现不断更新。我们可以看到姆巴佩和哈兰德从2022年到2023年迅速崛起。

    定制意味着虽然这个模型公式和架构已经定义好了,但每个成就的分数可以随时改变。如果有人认为欧冠奖杯应该和世界杯奖杯的量化分数相同,那么这个模型可以在短时间内重新计算每个球员的成就值。所以,欢迎大家讨论自己心中合理的量化分数,而不是盲目的追随我脑子里的分数(后面会列出所有的分数项目和分数)。

    当然,这种模式并非没有缺点。首先,正如我在声明一开始所说的,这种模式并不能被视为玩家能力的体现。我认为并不是所有的能力都可以通过奖杯或者奖项来体现。比如很多人都熟悉洛特西,他们一生都在南安普顿。虽然被很多老球迷认定为英国足坛最有才华的前腰之一。但他的团队个人成就很小,在我的模型中得分很低。我只能尽量把能找到的点都包含进去。我希望这能够尽可能体现每个球员的能力。

    同样,每个球员的战术意义也是无法量化的。虽然难度系数在一定程度上反映了一些球员所处的环境,比如迪迪就对桑巴足球有全面的进攻。对于连锁防御来说,哈比布无法量化他们对蒂基塔卡的重要性。类似的无能也具有场外的政治和社会意义。比如马来西亚战争后马拉多纳对阵阿根廷,弗利茨瓦尔特还在德国过着废墟生活。我认为这些不可救药的重要性甚至可以带来远远超过金球奖的意义,但遗憾的是我无法量化它。

    最后一个缺点与我之前提到的“横向对比/一条约”相反。因为量化是基于各个赛季的横向比较,所以很多球员得分高的原因是同时伟大的球员太少,而个人荣誉的得分不受难度因素的影响。比如鲁米尼格和凯文康在缺乏伟大球员竞争的同时,他们的两次金球奖让他们的历史排名有了很大的提升。不过不高。虽然我明白这个缺点,但我仍然坚持“横向对比”的原则。如果允许模型有个人荣誉的难度系数,那么梅洛时代的所有玩家的分数都会大幅提升。我认为这次通货膨胀带来的问题比已知的缺点还要严重。

    定量规则

    了解了模型的整体架构之后,我们来看看模型公式中各个变量的算法。

    一、成果量化项目清单

    该评分模型的基础是量化每项成就。因此,这里我列出了所有我可以量化的项目以及相应的分数和来源。这个清单很长,要慢慢读。有几点值得注意:

    1.你要再次强调整个模型的原理:成就分支是基于横向比较而不是纵向比较。也就是说,每一分都必须以该选手在同一时间和其他选手在同一年以及其他选手的成绩为基础。所以:

    也就是说,如果找不到一个成就证明,证明某个球员是哪个赛季/平台的成就,无论之后的主流媒体如何评选,无论主流媒体如何评选,都无法给该球员加分。

    2、金球奖作为个人得分最高的奖项,从1957年才开始评选,1995年首次授予非欧洲球员,对于这个缺陷,我无法弥补1957年之前的缺失。对1957年之前的球员也有点不公平。不过,1957-94年的非欧洲球员金球奖由法国足球官方重新评选2016年,这在一定程度上弥补了缺陷。

    3.目前流行的最佳阵容和最佳球员的评选一般是在20世纪90年代以后出现的。之前的数字其实是很难的。我也在网上找到了。最后,我决定采用欧洲和南美各种旧报纸和杂志的精选或提名拼接。即便如此,仍然有很多缺失的岁月。对此,我只能以网上一些足球历史博主评选的最佳球员和阵容作为参考。这里的重点是,我参考的博主必须是针对特定季节选择的,并给出理由。我从不提及一般的历史最佳选择,因为这会打破前面提到的横向比较原则。因为我的网络来源太多,所以无法仔细列出所有来源。如果你对某年的选择有问题,我可以私下沟通交流来源。

    4.关于每一项的得分,相信很多人和我有不同的看法。这是正常且合理的。只要大家友好讨论,我欢迎量化点的改变。我也经常调试不同权重的计算结果。以下分数只是最合理的。

    B. 难度系数计算逻辑及案例

    难度系数是整个模型算法中最复杂、最困难的部分。这里我只能尽量解释一下模型的逻辑和结果。更多详情欢迎私信。

    前面提到,难度系数是由对手和队友的相对成就值决定的,即模型会计算每个赛季每个球员的队友以及该赛季同一赛事(杯赛、比赛、比赛、对手球员在联赛、国家队杯中的成绩)。例如,如果队友是金球奖或金靴奖得主,难度就应该降低。如果对手球队是金球奖获得者,则系数会增加。

    这里需要注意的是,队友和对手的模型成绩只会追溯过去三个赛季当前和过去三个赛季的个人成绩。例如,2002年巴西世界杯夺冠阵容是卡卡,下一任2007年金球奖,因此模型在计算对3R和巴拉克的难度系数时,不会考虑07年金球奖的成就。卡卡是2002年MVP和南美最佳阵容的成就得分。同理,06年夺得欧冠冠军的皮埃罗也不会把他当作1995年至98年的前五座金球、世界最佳阵容的成就和欧冠金靴的成就。难度系数。

    另外,该模型对于队友和对手的成就值只会计算个人成就(即个人荣誉和个人表现),而不考虑团体成就分数。 2018年世界杯亚军克罗地亚中场球员克罗琴科奇就是一个很好的例子。他是皇马的主力替补,刚刚夺得欧冠三连冠。但由于他在2015~2018年没有任何个人荣誉或表现成绩,科斯塔三座欧冠奖杯的荣誉并没有影响莫德里奇2018年世界杯的难度系数。

    还有一点需要注意的是对手的计算范围。国内联赛的对手球员模型非常容易识别,不需要详细阐述。然而,杯赛球员的筛选却非常棘手。一个困难是模型数据库中没有不记录所有杯赛的球员/球队列表。第二个难点是,模型无法在杯赛赛制中判断,每支球队的对手是谁。虽然我可以将这些列表和时间表添加到模型中,但是这些数据会极大地影响模型计算的难度和速度,所以我没有增加这个功能。该模型目前是本次杯赛取得成就(如半决赛、金靴、最佳阵容等)的所有球员的肖像。虽然不能算全部选手和准确的淘汰对手,但我个人认为这个画像也可以比较准确地判断当时这项赛事的整体竞争力。

    夺冠次数最多的足球球员_足球历史球员夺冠次数_夺冠足球次数球员历史排行榜

    最终,虽然模型已经改进到今天的数千名玩家,但不可能改进所有玩家的每一个队友和对手。很多时候,模型中的球员或者模型中的国家队队友的数量是0或者1。 本质上我的设计要求模型计算自己的10个队友和33个对手的分数。在队友或对手数量不足的情况下,模型会自动填充自填不足的人数。这个补充的价值是国内联赛最佳阵容价值的一半。当两个阈值降低时,模型将取最大11名队友和33名对手的总分。这样,即使模型人数不够,计算难度系数也不会太高或太低。

    通过计算每个队友和对手的成就值,模型将通过数字和索引运算来比较 11 名队友和 33 名对手的成就值。具体的运算公式我就不说了,不想用数学来晕大家。你需要知道的是,我之所以不使用线性关系来计算难度系数,是因为当我认为对手的难度远远超过队友达到一定程度时,我认为难度并不大。很不一样。这具有边际效应。下面第一张图解释了难度系数和对手VS队友之间的直观关系。

    这个难度系数计算公式和曲线是我一个人脑补出来的。至于为什么图中的曲线是这样的,是因为这条曲线可以让每个赛事的历史难度系数的中位数尽可能接近1。这个难度系数公式可以避免玩家成就在一次中完成。系统性高估/低估某个事件。下面的分布图可以清晰地展示历史上每个赛事中每位选手成绩的难度系数:

    虚线为平均值,厚度代表样品的厚度

    我们可以看到,根据数千名玩家的模型计算结果,每个项目的平均难度系数略高于1,但大多数玩家的成就难度系数在1左右。当然,难度系数的计算为一个复杂的过程。欢迎大家提出建议或提问。

    C. 联赛系数逻辑及案例

    公式中提到,杯赛成就值的计算仅受难度系数的影响。除了难度因素外,联赛的成就值还通过“联赛影响力”系数进行调整。其实我一开始并没有在模型中加入这个系数,只是简单地将意向/西方/英国/德国/制药/巴基斯坦/阿拉伯联盟归结为一级联赛。计算了其他联赛的分数。但当你对足球历史的了解越来越丰富时,你会发现这些联赛并不总是处于世界领先的位置。乌拉圭、匈牙利、荷兰、捷克、苏格兰和前苏联曾经是世界上最伟大的联赛之一。相反,德法联赛却长期没有球星。因此,每个联赛的成绩分数必然会随着时间的推移而变化。

    但有两种方法可以量化这种变化:

    1、通过当时联盟所有球员成绩的平均或总成绩(类似难度系数的计算方法,仅是球员当时近4个赛季的成绩)对影响系数进行线性计算这个联赛,也就是作为一个联赛的球员,平均成就值提升了10%。本次联赛的系数也提升了10%。

    2、另一种算法是根据球员在赛季中的平均得分或总得分,对所有联赛中排名最高的联赛进行排名,然后依次推送。

    下面的曲线图显示,意甲和西甲如果用两种方式量化的话,都会得分。如图所示,1980、90年代小型世界杯意甲的球员平均成就值非常高。如果按照计划计算联赛系数,这不仅会增加普拉泰尼、马拉多纳、范巴斯滕的得分,也会让曼奇和西格纳里大幅提升。同样的,西甲也在10到20之间达到了巅峰,虽然没有90年代的意甲那么高,但这个系数也会让梅罗和格列兹曼、内马尔、苏亚等人的得分上升。但这种计算方法有一个明显的问题,会严重低估联赛业务不明显时期的球员。比如,1960年代的西甲和意甲虽然也是当时世界上最好的联赛之一,但绝对的球星含量远不如后来的意甲小世界杯和西奥贝时代。因此,如果联赛系数与联赛球星含量成线性关系,那么迪斯特法诺、亨托、法卡蒂、里维劳等人在意甲和西甲的成就将因此与新世纪的内马尔、格里兹、格列兹、曼、马尔蒂尼、托蒂等都低很多。我个人认为这是不公平的。

    因此,模型仍然会遵循“横向对比”的原则,采用第二种方式,即采用固定因子来使用各联赛各赛季的排名。如上图和西甲的数据所示,意甲是20世纪30年代和1980年代的世界第一联赛。按照这种方法,意甲联赛系数与20世纪30年代、80~00年代的系数相同。毫无疑问,虽然1980年代和1990年代的意甲联赛肯定比1930年代更具竞争力,但遵循“横向比较”的原则,世界第一联赛的因素无论在什么年代都是不变的。因此,米亚萨和巴乔在意甲的成绩是用相同的系数调整的。

    因此,我设计的联赛系数是一个简单的线性递减结构:每个球员得分最高的联赛系数(相同难度系数计算逻辑的相同难度系数计算逻辑,取每个球员过去4年的累计个人成就) ,第二名0.95分,第三名0.9分,以此类推,每一位递减0.05分,直至第20名0.1分。

    玩家成就计算案例

    至此,这个模型的框架和计算逻辑就已经完成了。但相信很多人可能还云里雾里。没关系,我想如果有玩家的实际例子可能会明白很多。我举一个98世界杯金靴达武斯克的例子。这个例子可以完整的解释这个模型是如何计算各种成就、难度因子、联赛系数并形成最终玩家得分的。

    结束并扩展阅读

    写到这里,整个模型就完成了。 “百万数据”这个标题,别以为是引流。目前,这个模型(2024.2)总共包含了自1896年以来的近2000名球员。平均每个球员每个赛季会产生近50条数据。积分(各种个人、球队、比赛、系数、成就信息),每个球员的平均职业生涯长度约为10年。因此,这个模型到目前为止确实有大约一百万个数据点。当然,我在阅读古代足球文献的同时,也读到了新的球员和成就。

    最后,衷心希望这个模型不仅能够增加网络上讨论的理性视角,也希望大家能够通过这个模型做一些分析,增加对足球历史的了解。下面是我根据这个模型所做的一些题目的深入分析。关注我。您将收获来自百年足球历史的数据见解的文章和答案。

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.ecbpdesign.com/html/tiyuwenda/9532.html

    加载中~

    相关推荐

    加载中~