大语言模型(LLMs)的发展让数据分析变得更加简单,尤其是对那些编程技能有限的人来说,通过对话界面就能完成复杂的数据分析。这些工具让人们更方便地进行数据处理,但也带来了新问题,特别是在确保分析结果的可靠性和准确性方面,这对做出明智决策非常重要。
目前,使用 LLMs 进行数据分析的方法通常是生成原始代码,然后交给用户执行。像 ChatGPT Plus、Gemini Advanced 和 CodeActAgent 这样的工具允许用户用自然语言输入需求,并接收基于代码的响应。然而,这些工具主要是提供代码,对底层逻辑或数据操作的支持不足。这意味着用户,特别是那些编程不太熟练的用户,需要自行验证代码并纠正错误,这增加了分析中可能存在未被发现问题的风险。
来自香港科技大学、加州大学圣地亚哥分校和明尼苏达大学的研究人员推出了一个名为 WaitGPT 的新工具。这款工具改变了 LLM 生成代码在数据分析中的呈现和交互方式。与其仅仅显示原始代码,WaitGPT 将代码转换为实时演变的可视化表示。这样一来,用户可以更清楚地了解数据分析的每一步,并在分析过程中进行验证和调整。
WaitGPT 通过将数据分析代码分解为单个数据操作,并在动态流程图中以节点形式展示。每个节点代表一个特定的数据操作,比如过滤、排序或合并数据,并根据执行顺序连接起来。该工具逐行执行代码,更新可视化图表以反映数据的当前状态和操作进展。这样,用户可以实时检查和修改分析的特定部分,而不必等到整个代码执行完毕后再进行调整。WaitGPT 还提供视觉提示,例如数据集中行或列数量的变化,帮助用户快速识别潜在问题。
通过对 12 名参与者的综合用户研究,评估了 WaitGPT 的有效性。结果显示,该工具提高了用户检测分析错误的能力。例如,83% 的参与者使用 WaitGPT 识别并纠正了数据分析中的问题,而使用传统方法的只有 50%。此外,发现错误所需的时间减少了多达 50%。WaitGPT 提供的可视化表示也让理解整个数据分析过程变得更加容易。

