智能表单填写agent项目分享
项目背景
我发现无论是工作也好,还是我们找实习找工作也好,都要面临大量的表单填写的场景。很多都是重复填写,内容基本一致,虽然已经有RPA技术和一些自动填写的扩展,但是这些扩展基本依赖于手动配置,无法识别到字段信息。现在大模型技术已经成熟,能不能通过大模型来实现表单填写全自动化处理?本人注意到大家网申表单填写就是个十分常见的场景,本项目的场景,就用这个场景作为例子。
实现思路
LLM带来的变化
我们项目组以一个十分小的细分表单领域为研究对象,简历表单填写,探索利用agent智能填表的可能性。首先这个项目难点在于网页html结构的复杂性,不同的网站,网页设计千差万别,如果纯依赖手工配置,那么工作量将十分庞大,这时候LLM就发挥作用了,利用LLM就不用手动配置,并且保存在后端就可以。
纯agent带来的挑战
现有的网页agent无非视觉和纯文本两种,但是这样就带来一个挑战,token消耗量非常大,如果纯粹使用agent的话,又慢,又浪费资源,这时候对记忆化要求非常高,如果使用框架的记忆化机制,无法针对这个项目做专门适配,我选择了编程记忆方式。即把常用操作编程化,比如点击操作,记录元素的xpath路径或者直接在刚开始创建id等,这样下次点击直接利用这个信息即可,第一次使用llm,第二次就可以编程处理。
项目进展
本项目已经上线,五天就有130个用户了,如果大家有任何技术问题或者想要交流技术的都欢迎来咨询。这个项目花费了两个月时间,中间遇到不少挑战,但是都被一一克服,在chrome商店和edge商店即可体验,搜索简历自动填写助手,第一个就是本项目,欢迎大家提出宝贵意见。