半夜睡不着想了一个多模态任务,同时输入一段声音(非自然语言,比如鸟叫)和一张图片,将图片中的相应位置的鸟标注出来。
现在有这种数据集吗,图片和声音是能够互相验证的吧。
提这个问题是想到自动驾驶貌似都忽略了自然声音这一信息。
评价标准就用声音传感器的数量和标注准确率来衡量。
现在有这种数据集吗,图片和声音是能够互相验证的吧。
提这个问题是想到自动驾驶貌似都忽略了自然声音这一信息。
评价标准就用声音传感器的数量和标注准确率来衡量。
全部评论
非常好想法,这个项目我王多鱼投了
相关推荐
点赞 评论 收藏
分享
01-13 17:51
河南科技学院 Java 程序员花海:最好不要在简历写电商 电商覆盖域太多了 订单 购物车 交易 招商 营销 氛围 履约 售后 用户增长 营销等等一系列都是电商,你写一个这么大的项目是让面试官随便挑一个擅长的来问吗?
点赞 评论 收藏
分享
查看4道真题和解析