半夜睡不着想了一个多模态任务,同时输入一段声音(非自然语言,比如鸟叫)和一张图片,将图片中的相应位置的鸟标注出来。

现在有这种数据集吗,图片和声音是能够互相验证的吧。

提这个问题是想到自动驾驶貌似都忽略了自然声音这一信息。
评价标准就用声音传感器的数量和标注准确率来衡量。
全部评论
非常好想法,这个项目我王多鱼投了
点赞 回复 分享
发布于 04-17 03:38 广东

相关推荐

某公司一颗钉子:看看下面这几个视频,包含音视频学习路线、就业建议、音视频项目等 音视频学习路线:https://www.bilibili.com/video/BV138DoY7E74/ 音视频就业建议:https://www.bilibili.com/video/BV1VhmbYwEz7/ 播放器项目:https://www.bilibili.com/video/BV1NdLEzQExH/ QT播放器项目:https://www.bilibili.com/video/BV1geAZe2Ek3/ 推拉流项目:https://www.bilibili.com/video/BV1ZVNVeuEk1/ 流媒体服务器项目:https://www.bilibili.com/video/BV1v64y1K7s5/
点赞 评论 收藏
分享
评论
2
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务