华为AI算法 华为AI算法笔试 华为秋招 0917

笔试时间:2025年9月17日

往年笔试合集:

2023春招秋招笔试合集

2024春招秋招笔试合集

第一题:大模型分词

您正在为一种罕见的语言构建一个专用的大语言模型。由于训练样本缺失,传统BPE等标准的分词器效果不佳,使得大模型推理生成的句子不理想。

幸运的是,一位语言学家为罕见语言的已知词根和词缀(统称为"词元"或"Token")都标注了一个置信度分数,这个分数代表了该词元作为一个"独立单位"的合理性。同时,语言学家还总结出了一个转移分数表,表示当前词元选择对下一个词元"置信度"的影响。

您的任务是设计并实现一个"最优分词器",它能将输入的罕见语言句子(一个不含空格的英文小写字符串)切分成一系列词元,并使得所有词元的置信度分数之和达到最大。

输入描述

  • 第1行为输入的、不含空格的罕见字符串 text,假设只含英文小写字符
  • 第2行为已知置信度词汇表的个数 n
  • 随后 n 行为已标注词元及其置信度分数 P,以空格分隔
  • 第 n+3 行为转移分数的个数 m
  • 随后 m 行为转移分数数据,包括起始词、下一个词、转移分数加分 X,以空格分隔

输入限制:

  • 0 < len(text) ≤ 100
  • -100 ≤ 转移分数表中的影响分数 X ≤ 100
  • -100 ≤ 词汇表置信度分数 P ≤ 100
  • 0 < 词汇表大小 n ≤ 100

输出描述

返回最高的分词得分,若根据已知词汇表无法拆分则返回0。

样例输入

applepie

2

pen 3

apple 10

2

pen apple 5

pie apple 2

样例输出

0

样例说明: text句子中含有不在已知词汇表中出现的词,无法进行拆分。

参考题解

解题思路:

这是一个动态规划分词问题,需要将输入字符串切分为一系列已知词元,使得所有词元的置信度分数之和加上转移分数之和达到最大。

  1. 状态定义:使用dp[i]表示处理到第i个字符时的最优解状态。由于需要考虑转移分数,dp[i]需要记录以不同词元结尾时的最大得分。
  2. 状态转移:对于每个位置i,遍历所有可能的起始位置j(0≤j<i),检查子串text[j:i]是否在已知词元表中。
  3. 边界条件:dp[0]初始化为空字符串''得分为0。
  4. 最终结果:dp[len(text)]中所有可能状态的最大值。

Python:

import sys

def optimal_tokenizer():
    text = sys.stdin.readline().strip()
    n = int(sys.stdin.readline())
    
    confidences = {}
    for _ in range(n):
        token, score_str = sys.stdin.readline().split()
        confidences[token] = int(score_str)
    
    m = int(sys.stdin.readli

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

2025 春招笔试合集 文章被收录于专栏

2025打怪升级记录,大厂笔试合集 C++, Java, Python等多种语言做法集合指南

全部评论

相关推荐

头像
10-28 15:08
已编辑
北京理工大学 算法工程师
一面:&nbsp;上机复盘。问了k-means的算法流程。0927的笔试。问的很宏观,面试官应该不太懂多模态这一块所有一直问的是很宏观的东西对多模态的个人认识,未来的趋势当时给我唬住了,回来一想是因为他不懂细节所以不问问的比较多的是怎么优化模型性能,看得出来面的面试官都是偏模型优化这一块的手写合并区间leetcode.56面完通知过了,等二面。2h&nbsp;later二面:很casual的对话,面试官看着比较富态,相比一面没那么大压力,问的也是推理优化反问的时候说他们是做多卡通信,昇腾硬件这一块的。问了为什么是网安的,却来做ai,我说考研网安分低,但是自己一直在搞算法问了我意向base地点手写两数之和leetcode.1面完通知过了,等三面。30min&nbsp;later三面:提了一下篮球,问我打什么位置,提到了文班亚马提了一嘴支委的工作问腾讯为啥没转正,说了自己的反思,获得了面试官的认可问多模态的看法,未来的发展方向,个人的理解,说了omni和unified的区别问我sora2的创新点,不懂aigc问强化学习和sft的区别,说了我的看法问了一个&nbsp;python&nbsp;装饰器的作用计算机系统中&nbsp;cache&nbsp;的作用问了我意向base地点反问:对多模态的看法有什么建议,建议我看看模型优化这一块骑车回公司的路上,hr&nbsp;通知我过了,入池。总结整体面下来感觉没有什么压力,hw的校招生除了人才计划,剩下的应该都是差不多的,也不会卡人,就看愿不愿意去了。整体感觉面试官的精神状态都还可以,不想互联网大厂那么咄咄逼人,那么看重匹配度。面试的地方有茶歇,饿了可以吃,中文还有午餐券,但是晚上就没有了,我下午1.30到的,面完6.10等候的大厅有好多人,看得出来有些人是精心打扮过的,还有的穿了正装,hw在大家心目中分量还是很重的。等下周谈薪和base地
查看12道真题和解析
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务