【社招】淘天集团-多模态内容理解-直播AI

职位描述
1、负责直播场景下的多模态理解算法研发,包括主播意图理解、商品识别及场景解析等核心技术
2、负责直播内容的多模态特征提取与分析,涵盖视频、音频、文本等多维度信息的融合理解
3、开发直播商品检测与识别算法,包括商品展示定位、同款商品匹配、商品属性提取等
4、构建直播场景知识图谱,实现主播、商品、用户行为等多维数据的知识沉淀与应用
5、研究并应用大模型技术,提升直播内容理解的准确性与实时性

职位要求
1、硕士及以上学历,计算机视觉、自然语言处理、多模态理解等相关专业背景
2、扎实的计算机视觉和多模态理解基础,熟悉主流深度学习框架(PyTorch/TensorFlow)
3、熟练掌握Python/C++等编程语言,具备良好的算法实现和优化能力
4、具备多模态大模型经验,有直播/短视频领域算法落地经验者优先
5、对直播电商领域有深入理解,能够快速理解业务需求并转化为技术方案者优先
6、有顶会顶刊论文发表者优先,有高影响力开源项目者优先

工作地点
北京、杭州

简历可发送至 boxuan.hyb@taobao.com
全部评论

相关推荐

1. 核心影响因素- 任务类型:- 简单任务(如文本分类):可能需数百到数千条标注数据。- 复杂任务(如对话生成、阅读理解):通常需数万条甚至更多数据,尤其需多样性和高质量样本。- 模型规模:- 大参数量模型(如GPT-3、PaLM)可能需更多数据防止过拟合,但通过策略(如参数冻结)可降低需求。- 较小模型(如BERT-base)可能在较少数据下表现良好。核心是数据质量:- 高质量、标注精准、多样化的数据可显著减少需求量。- 低质量数据可能导致模型性能瓶颈,需额外清洗或增补。领域差异:- 若预训练数据与目标领域差异大(如通用→医疗),需更多领域数据调整模型分布。- 训练策略:- 正则化技术(早停、Dropout、数据增强)可缓解小数据过拟合。- 迁移学习技巧(如Adapter、LoRA)可减少可训练参数量,降低数据需求。经验可参考范围- 常规任务(分类/标注):- 小模型(如BERT):1k-10k样本。- 大模型(如GPT-3.5):可能需10k-50k样本(结合领域适配策略)。- 生成任务(对话/摘要):- 通常需5k-100k+样本,依赖生成质量要求。- 领域适配:- 若领域差异大,需额外增加20%-50%数据量。产品经理的权衡维度- 业务目标:- 若需快速验证MVP,可接受小数据+低精度(如数百样本),后续迭代优化。- 若追求高精度(如医疗、金融场景),需预留足够标注预算。- 资源限制:- 标注成本:若数据获取昂贵,需优先优化数据质量或采用主动学习。- 算力与时间:大数据量需更高训练成本,需权衡ROI。- 替代方案:- Prompt Engineering:用少量样本设计提示词,可能无需微调。- Few-shot Learning:结合模型原生能力减少数据依赖。                 
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务