华为AI算法 华为AI算法笔试 华为秋招 0917

笔试时间:2025年9月17日

往年笔试合集:

2023春招秋招笔试合集

2024春招秋招笔试合集

第一题:大模型分词

您正在为一种罕见的语言构建一个专用的大语言模型。由于训练样本缺失,传统BPE等标准的分词器效果不佳,使得大模型推理生成的句子不理想。

幸运的是,一位语言学家为罕见语言的已知词根和词缀(统称为"词元"或"Token")都标注了一个置信度分数,这个分数代表了该词元作为一个"独立单位"的合理性。同时,语言学家还总结出了一个转移分数表,表示当前词元选择对下一个词元"置信度"的影响。

您的任务是设计并实现一个"最优分词器",它能将输入的罕见语言句子(一个不含空格的英文小写字符串)切分成一系列词元,并使得所有词元的置信度分数之和达到最大。

输入描述

  • 第1行为输入的、不含空格的罕见字符串 text,假设只含英文小写字符
  • 第2行为已知置信度词汇表的个数 n
  • 随后 n 行为已标注词元及其置信度分数 P,以空格分隔
  • 第 n+3 行为转移分数的个数 m
  • 随后 m 行为转移分数数据,包括起始词、下一个词、转移分数加分 X,以空格分隔

输入限制:

  • 0 < len(text) ≤ 100
  • -100 ≤ 转移分数表中的影响分数 X ≤ 100
  • -100 ≤ 词汇表置信度分数 P ≤ 100
  • 0 < 词汇表大小 n ≤ 100

输出描述

返回最高的分词得分,若根据已知词汇表无法拆分则返回0。

样例输入

applepie

2

pen 3

apple 10

2

pen apple 5

pie apple 2

样例输出

0

样例说明: text句子中含有不在已知词汇表中出现的词,无法进行拆分。

参考题解

解题思路:

这是一个动态规划分词问题,需要将输入字符串切分为一系列已知词元,使得所有词元的置信度分数之和加上转移分数之和达到最大。

  1. 状态定义:使用dp[i]表示处理到第i个字符时的最优解状态。由于需要考虑转移分数,dp[i]需要记录以不同词元结尾时的最大得分。
  2. 状态转移:对于每个位置i,遍历所有可能的起始位置j(0≤j<i),检查子串text[j:i]是否在已知词元表中。
  3. 边界条件:dp[0]初始化为空字符串''得分为0。
  4. 最终结果:dp[len(text)]中所有可能状态的最大值。

Python:

import sys

def optimal_tokenizer():
    text = sys.stdin.readline().strip()
    n = int(sys.stdin.readline())
    
    confidences = {}
    for _ in range(n):
        token, score_str = sys.stdin.readline().split()
        confidences[token] = int(score_str)
    
    m = int(sys.stdin.readli

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

2025 春招笔试合集 文章被收录于专栏

2025打怪升级记录,大厂笔试合集 C++, Java, Python等多种语言做法集合指南

全部评论

相关推荐

xdm&nbsp;早上喝奶茶差点喷出来。事情是这样的,我们班有个哥们儿,简称&nbsp;L,去年秋招拿了字节sp,专业方向是后端。我们当时都震惊:这哥们儿平时课上从来不发言,期末小组作业基本是划水的那种,刷题平台&nbsp;commit记录我点进去看过,绿格子稀稀拉拉。但他面试一路绿灯。一面二面三面&nbsp;hr&nbsp;面,全过,给的还是sp。当时班级群里恭喜他的、问他经验的、约饭的,热闹了一周。他说自己"运气好,准备充分"。我们都信了,直到三月初他入职。入职第二周开始,班里另一个进字节的同学W(在隔壁组的)开始跟我他的不对劲。一开始是写代码慢,后来写不出来,再后来是组里&nbsp;mentor&nbsp;让他fix&nbsp;一个简单&nbsp;bug&nbsp;都搞了一下午没动静。最离谱的是上周。W&nbsp;说他们大部门搞了个新人分享会,让新人讲一下自己负责模块的设计思路。L&nbsp;上去讲了&nbsp;20分钟,全程念稿子,问答环节别人随便问一个"那你这里为什么用&nbsp;Redis&nbsp;不用&nbsp;Memcached",他直接卡&nbsp;30秒说"这个我回去再确认一下"。会后他&nbsp;mentor&nbsp;直接找&nbsp;leader&nbsp;谈,leader&nbsp;找&nbsp;hr&nbsp;谈,hr调出了他面试录像,全程对比口型和回答节奏,发现他二三面有大量时长在偷偷看屏幕外(推测开了双机位&nbsp;AI&nbsp;答题)。(这段是&nbsp;W后来转述给我的,他自己也是听他组里同事八卦来的)昨天下班前,W&nbsp;告诉我L&nbsp;被辞退了,让他自己走,不走就走仲裁但会发函到学校。L&nbsp;现在已经回学校了,朋友圈仅三天可见。我说真的,我不是个心眼小的人,但是我看到这个消息的时候真的有种"嗯,挺好"的感觉。去年秋招我投字节后端,简历挂。我准备了八个月,背&nbsp;八股&nbsp;+&nbsp;刷&nbsp;500&nbsp;题&nbsp;+项目改了三版,连面试机会都没拿到。班里这哥们儿凭着一个外挂上岸,最后还是被甩出来了。不是说作弊就一定会被发现,但是当面试拿到的&nbsp;offer远远超出真实能力的时候,迟早会有这一天。试用期三个月不是给你过家家的,是真的要写代码、要在会议上回答问题、要扛需求的。我现在反而有点同情他。同情他相信"上岸就是终点"。发出来不是为了嘲笑谁,就是想说给那些正在被身边作弊上岸的同学搞得很&nbsp;emo&nbsp;的&nbsp;uu&nbsp;们听——别急,回旋镖很长,但它一定会回来。你继续刷你的题,写你的项目,背你的八股。该是你的迟早是你的,不是你的早晚还得还回去。xdm&nbsp;共勉。
牛客12588360...:我不想评论面试方式,作弊是绝对不对的,但是你八股加刷题也不过是个做题小子,他穿帮纯粹是他菜,你也没有高明到哪里去
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务