以及博物馆是否免
Posted: Sat Feb 22, 2025 10:07 am
使用 FourSquare 数据使我们能够比偶然更好地预测博物馆的总体规模 - 相比之下,根据博物馆在训练样本中所占的份额随机将博物馆分配到三个类别的预测平均正确率为 38%。
如果我们扩展该模型来评估所有拥有 FourSquare 数据但没有访问量的认证博物馆(997 家博物馆)的博物馆访问量分布,我们会发现 201 家博物馆(20%)预测属于小型博物馆,609 家博物馆(61%)属于中型博物馆,187 家博物馆(19%)属于大型博物馆。
为了测试 FourSquare 数据为我们提供额外信息的程度,我们仅使用 FourSquare 数据估算模型,并将其与排除 FourSquare 数据时的模型进行比较。仅使用 FourSquare 数据,最佳模型即 k-最近邻 (k=5) 可实现 65.43% 的准确率,而线性 SVM 的准确率则为 60.49%。最后,仅使用非 FourSquare 数据,我们获得的最大准确率是 59.25%。完整结果如下所示。
不同类型的模型在有和没有 FourSquare 数据的情况下的表现如何
使用和不使用 FourSquare 数据的表现
这仍然是一个相当简单的模型,我们并没有使用太多博物馆本身的数据。我们承认,通过查看三个规模类别,我们使任务变得更容易,但只有四条信息用于对博物馆的规模进行分类,考虑到博物馆的多样性,这相当有限。这些模型是根据我们目前拥有的数据估算的,如果使用影响参观人数的其他因素的更丰富信息,例如位置和交通连接、开放时间费入场,仍有改进空间。另一个可能有助于提高准确性的因素是,如果我们有更多没有这些信息的站点的访问数据,则可以增加可用于训练模型的数据。
博物馆行业使用新数字数据源还处于早期阶段,还有很多东西需要学习。但我们的分析表明,它们具有巨大的潜力。基于社交媒体或新传感技术的新数据源开始为博物馆提供了解其活动的新机会。博物馆参与这一议程的动力也可能越来越大。与其他行业一样,数据正变得越来越普遍。以前只是轶事的东西现在可以开始衡量,从长远来看,利用这一点的组织将占得先机。博物馆行业不太可能成为例外。然而,在短期内,将面临能力挑战,而且鉴于该领域的不成熟,个别博物馆参与其中也存在风险。政府可以有效地帮助该行业在这个领域发展。
---
[1] 这并不是说不存在方法。例如,用横梁测量腿部,然后将数字除以 2(即一个人 = 2 条腿)是一种简单的方法,不收取入场费的博物馆可以使用这种方法来收集人们进出博物馆建筑的次数信息。未来,RFID标签或蓝牙信标的使用也可能变得更加普遍。
[2] 去年公布的FourSquare 全球用户数量为每月 5000 万活跃用户,典型用户的人口结构偏向西方国家、城市人口和受过良好教育的年轻人。尽管在分析过程中需要牢记这种偏见,但这些数据已用于揭示多个项目的流动模式。
[3] 如果博物馆证明其符合认证标准的大部分 建筑师数据 内容,并且正在积极解决认证小组要求的任何行动,则博物馆可以获得临时(与完全)认证资格。
[4] 该数据是通过查询 FourSquare 应用程序编程接口 (API) 来获得与博物馆名称和地址相对应的签到数据的。
[5] 虽然“中型”博物馆的范围与小型博物馆相比看起来较小,但其范围大约为 10E5-10E4=90000,而小型博物馆的范围大约为 10E4-10E2=9900。
[6] 从技术上讲,它是一个以径向基函数为核的 SVM。
[7] 对于每种机器学习算法,我们都需要选择一组特定的参数。例如,对于“k 个最近邻居”(也称为 k-NN),我们需要指定“k”,即我们将多少个点视为邻居。根据这些参数,算法的性能可能会提高或下降。那么,我们如何选择最优参数呢?为此,我们使用机器学习中常用的另一种技术:交叉验证。我们不是选择一组参数,而是在 k 的可能值中搜索(并使用不同的距离度量);但不是在原始训练数据集上训练每一个,而是在初始训练数据中创建许多“合成数据集”:一个实际训练集和一个验证训练集(例如,通过随机划分训练数据集,使用 75% 的数据作为训练数据集,剩余的 25% 作为验证数据,并重复此操作,我们可以生成大量训练集来估计模型 - 这类似于统计学中的 Bootstrapping)。通过在这些合成数据集上迭代不同的参数选择,对所有这些数据分区的模型性能取平均值并选择性能最佳的参数集,我们可以概括模型的结果并尽量减少它们过度依赖初始数据集的风险。
如果我们扩展该模型来评估所有拥有 FourSquare 数据但没有访问量的认证博物馆(997 家博物馆)的博物馆访问量分布,我们会发现 201 家博物馆(20%)预测属于小型博物馆,609 家博物馆(61%)属于中型博物馆,187 家博物馆(19%)属于大型博物馆。
为了测试 FourSquare 数据为我们提供额外信息的程度,我们仅使用 FourSquare 数据估算模型,并将其与排除 FourSquare 数据时的模型进行比较。仅使用 FourSquare 数据,最佳模型即 k-最近邻 (k=5) 可实现 65.43% 的准确率,而线性 SVM 的准确率则为 60.49%。最后,仅使用非 FourSquare 数据,我们获得的最大准确率是 59.25%。完整结果如下所示。
不同类型的模型在有和没有 FourSquare 数据的情况下的表现如何
使用和不使用 FourSquare 数据的表现
这仍然是一个相当简单的模型,我们并没有使用太多博物馆本身的数据。我们承认,通过查看三个规模类别,我们使任务变得更容易,但只有四条信息用于对博物馆的规模进行分类,考虑到博物馆的多样性,这相当有限。这些模型是根据我们目前拥有的数据估算的,如果使用影响参观人数的其他因素的更丰富信息,例如位置和交通连接、开放时间费入场,仍有改进空间。另一个可能有助于提高准确性的因素是,如果我们有更多没有这些信息的站点的访问数据,则可以增加可用于训练模型的数据。
博物馆行业使用新数字数据源还处于早期阶段,还有很多东西需要学习。但我们的分析表明,它们具有巨大的潜力。基于社交媒体或新传感技术的新数据源开始为博物馆提供了解其活动的新机会。博物馆参与这一议程的动力也可能越来越大。与其他行业一样,数据正变得越来越普遍。以前只是轶事的东西现在可以开始衡量,从长远来看,利用这一点的组织将占得先机。博物馆行业不太可能成为例外。然而,在短期内,将面临能力挑战,而且鉴于该领域的不成熟,个别博物馆参与其中也存在风险。政府可以有效地帮助该行业在这个领域发展。
---
[1] 这并不是说不存在方法。例如,用横梁测量腿部,然后将数字除以 2(即一个人 = 2 条腿)是一种简单的方法,不收取入场费的博物馆可以使用这种方法来收集人们进出博物馆建筑的次数信息。未来,RFID标签或蓝牙信标的使用也可能变得更加普遍。
[2] 去年公布的FourSquare 全球用户数量为每月 5000 万活跃用户,典型用户的人口结构偏向西方国家、城市人口和受过良好教育的年轻人。尽管在分析过程中需要牢记这种偏见,但这些数据已用于揭示多个项目的流动模式。
[3] 如果博物馆证明其符合认证标准的大部分 建筑师数据 内容,并且正在积极解决认证小组要求的任何行动,则博物馆可以获得临时(与完全)认证资格。
[4] 该数据是通过查询 FourSquare 应用程序编程接口 (API) 来获得与博物馆名称和地址相对应的签到数据的。
[5] 虽然“中型”博物馆的范围与小型博物馆相比看起来较小,但其范围大约为 10E5-10E4=90000,而小型博物馆的范围大约为 10E4-10E2=9900。
[6] 从技术上讲,它是一个以径向基函数为核的 SVM。
[7] 对于每种机器学习算法,我们都需要选择一组特定的参数。例如,对于“k 个最近邻居”(也称为 k-NN),我们需要指定“k”,即我们将多少个点视为邻居。根据这些参数,算法的性能可能会提高或下降。那么,我们如何选择最优参数呢?为此,我们使用机器学习中常用的另一种技术:交叉验证。我们不是选择一组参数,而是在 k 的可能值中搜索(并使用不同的距离度量);但不是在原始训练数据集上训练每一个,而是在初始训练数据中创建许多“合成数据集”:一个实际训练集和一个验证训练集(例如,通过随机划分训练数据集,使用 75% 的数据作为训练数据集,剩余的 25% 作为验证数据,并重复此操作,我们可以生成大量训练集来估计模型 - 这类似于统计学中的 Bootstrapping)。通过在这些合成数据集上迭代不同的参数选择,对所有这些数据分区的模型性能取平均值并选择性能最佳的参数集,我们可以概括模型的结果并尽量减少它们过度依赖初始数据集的风险。