<url_05eac1ce> 创新点包括:
<url_05eac1ce> ScreenAI模型在多个阶段进行了训练,使用了多种数据源。
在预训练阶段,模型使用了以下数据源:
在微调阶段,模型使用了以下数据集:
这些数据集的组合用于训练ScreenAI模型,以使其能够处理各种场景,并增强其在用户界面和信息图表理解方面的性能。
<url_05eac1ce> 在5.3 Ablation Studies部分,研究了两个因素:
pix2struct patching的影响:比较了使用pix2struct patching的670M参数模型和使用固定网格patching的模型。在预训练后,两个模型都在Table 3中提到的所有任务上进行了微调。根据图像的纵横比将每个数据集拆分为子集,并在这些子集上计算相应的指标。为了比较固定网格patching和可变的pix2struct patching,计算了聚合分数,首先将每个任务子集使用固定网格patching的分数除以使用pix2struct的模型在完整任务上的分数,然后计算所有任务的几何平均值。结果显示,对于纵横比>1.0的图像(横向模式图像),pix2struct patching策略明显优于固定网格patching。对于纵向模式图像,趋势相反,但固定网格patching仅略微更好。由于希望ScreenAI模型能够用于不同纵横比的图像,因此选择了pix2struct patching。
LLM生成的数据对预训练的影响:比较了使用所有Section 4.1中提到的数据集进行预训练的670M参数ScreenAI模型,以及使用不包括任何LLM生成的预训练数据的数据集混合物进行预训练的模型。在预训练后,两个模型都在Table 3中提到的所有任务上进行了微调,并计算了聚合分数。结果显示,将LLM生成的数据添加到数据集混合物中,使聚合分数提高了4.6个百分点。
综上所述,研究结果表明pix2struct patching在处理不同纵横比的图像时更有效,并且使用LLM生成的数据进行预训练可以提高模型的性能。
<url_2c5f8461> 中提供了三个数据集:ScreenQA、ScreenQA Short和ComplexQA。以下是这三个数据集的总结表格:
数据集 | 描述 | 问题数 | 屏幕截图数 | 数据生成方式 | 数据内容 |
---|---|---|---|---|---|
ScreenQA | 原始数据集,包含86K个问题和答案,对应35K个来自Rico数据集的屏幕截图。 | 86,000 | 35,000 | 由人工评注者生成 | 每个问题-答案对包含一个完整的答案和相关的UI元素列表,每个元素都有文本描述、边界框坐标和在视图层次结构树中的深度优先遍历索引(如果适用)。 |
ScreenQA Short | ScreenQA数据集的修改版,包含相同的问题和屏幕截图,但答案数据是由模型根据原始的人工评注数据自动生成的短答案列表。 | 86,000 | 35,000 | 由模型自动生成 | 每个问题-答案对包含一个短答案列表。 |
ComplexQA | ScreenQA Short数据集的扩展/替代,包含主要关注计数、算术和比较操作的问题和答案,这些操作需要来自屏幕多个部分的信息。 | 11,781 | - | 由模型自动生成,经过人工评注者验证 | 每个问题-答案对包含一个短答案列表(当前版本只有一个答案)。 |
请注意,对于ScreenQA和ScreenQA Short数据集,每个屏幕截图可以有多个问题和答案,但所有问题和答案都属于相同的拆分(训练、验证或测试)。ComplexQA数据集没有提供屏幕截图的数量。