阶跃AI

阶跃AI，一起探索AI生活方式

2024年05月03日·内容由AI生成，请仔细甄别

<url_05eac1ce> 创新点包括：

细说用什么数据训练的？

<url_05eac1ce> ScreenAI模型在多个阶段进行了训练，使用了多种数据源。

在预训练阶段，模型使用了以下数据源：

Screen Annotation: 使用大规模的屏幕截图数据集，通过自我监督学习方法或使用其他模型生成的标签进行训练。这些数据集包括来自桌面、移动和平板电脑等各种设备的用户界面元素的详细标注。
Screen Question-Answering: 使用自动生成的大规模问答对数据集进行训练。这些数据集包括与用户界面和计算机生成的图像（如信息图表）相关的各种问题。
Screen Navigation: 使用自动生成的导航指令数据集进行训练。这些数据集包括用户意图的解释和用户界面中适当元素的识别。
Screen Summarization: 使用自动生成的屏幕内容摘要数据集进行训练。这些数据集评估模型在简明扼要地描述屏幕内容方面的能力。
Chart-to-table Translation: 使用图表到表格转换数据集进行训练，以增强模型在图表理解和表示方面的能力。
其他数据源: 包括Tarzan、VQA CC3M、WebLI和Chart-to-table translation等数据集，这些数据集在PaLI模型的开发中起到了重要作用，并确保了ScreenAI模型在语言和视觉处理方面的鲁棒性。

在微调阶段，模型使用了以下数据集：

Screen Annotation: 使用专门的基准数据集进行评估，该数据集包含4.2K个屏幕截图和由人工标注的用户界面元素。
ScreenQA Short: 使用ScreenQA数据集的修改版本进行训练，其中包含简短的答案选项。
Complex ScreenQA: 使用包含更复杂问题的新数据集进行训练，包括计数、算术、比较和无法回答的问题。
其他微调任务和基准: 包括Widget Captioning、WebSRC、MoTIF-Automation、Screen2Words、ChartQA、DocVQA、Multipage DocVQA、InfographicVQA和OCR-VQA-200K等任务和基准。

这些数据集的组合用于训练ScreenAI模型，以使其能够处理各种场景，并增强其在用户界面和信息图表理解方面的性能。

5.3 Ablation Studies 研究了哪几个因素？有什么结论

<url_05eac1ce> 在5.3 Ablation Studies部分，研究了两个因素：

pix2struct patching的影响：比较了使用pix2struct patching的670M参数模型和使用固定网格patching的模型。在预训练后，两个模型都在Table 3中提到的所有任务上进行了微调。根据图像的纵横比将每个数据集拆分为子集，并在这些子集上计算相应的指标。为了比较固定网格patching和可变的pix2struct patching，计算了聚合分数，首先将每个任务子集使用固定网格patching的分数除以使用pix2struct的模型在完整任务上的分数，然后计算所有任务的几何平均值。结果显示，对于纵横比>1.0的图像（横向模式图像），pix2struct patching策略明显优于固定网格patching。对于纵向模式图像，趋势相反，但固定网格patching仅略微更好。由于希望ScreenAI模型能够用于不同纵横比的图像，因此选择了pix2struct patching。
LLM生成的数据对预训练的影响：比较了使用所有Section 4.1中提到的数据集进行预训练的670M参数ScreenAI模型，以及使用不包括任何LLM生成的预训练数据的数据集混合物进行预训练的模型。在预训练后，两个模型都在Table 3中提到的所有任务上进行了微调，并计算了聚合分数。结果显示，将LLM生成的数据添加到数据集混合物中，使聚合分数提高了4.6个百分点。

综上所述，研究结果表明pix2struct patching在处理不同纵横比的图像时更有效，并且使用LLM生成的数据进行预训练可以提高模型的性能。

<url_2c5f8461> 中提供了三个数据集：ScreenQA、ScreenQA Short和ComplexQA。以下是这三个数据集的总结表格：

数据集	描述	问题数	屏幕截图数	数据生成方式	数据内容
ScreenQA	原始数据集，包含86K个问题和答案，对应35K个来自Rico数据集的屏幕截图。	86,000	35,000	由人工评注者生成	每个问题-答案对包含一个完整的答案和相关的UI元素列表，每个元素都有文本描述、边界框坐标和在视图层次结构树中的深度优先遍历索引（如果适用）。
ScreenQA Short	ScreenQA数据集的修改版，包含相同的问题和屏幕截图，但答案数据是由模型根据原始的人工评注数据自动生成的短答案列表。	86,000	35,000	由模型自动生成	每个问题-答案对包含一个短答案列表。
ComplexQA	ScreenQA Short数据集的扩展/替代，包含主要关注计数、算术和比较操作的问题和答案，这些操作需要来自屏幕多个部分的信息。	11,781	-	由模型自动生成，经过人工评注者验证	每个问题-答案对包含一个短答案列表（当前版本只有一个答案）。

请注意，对于ScreenQA和ScreenQA Short数据集，每个屏幕截图可以有多个问题和答案，但所有问题和答案都属于相同的拆分（训练、验证或测试）。ComplexQA数据集没有提供屏幕截图的数量。