AI-Agent 面试题汇总 - 自然语言处理篇 (知识图谱)

1. 医疗数据来自哪里,原始格式是什么

常见来源:电子病历、指南文档、药品说明书、问答语料、结构化表。原始格式可能是txt/doc/pdf/json/csv/数据库表,需做脱敏与字段规范化。

2. 使用什么标注工具,如何分配标注任务

常用doccano、label studio。任务分配一般按疾病域或实体类型切分,双人标注+仲裁提升一致性,使用IAA(如Kappa)评估质量。

3. 使用什么标注规则,详细解释

规则通常包含:实体边界规则、歧义词处理、缩写规范、嵌套实体策略、关系触发词定义、冲突优先级。需要沉淀《标注指南》并版本化管理。

4. 如何实现数据预处理,中间步骤有哪些

流程:去噪清洗 → 分句分词 → 术语标准化 → 去重 → 标注对齐 → 训练/验证切分。知识图谱还需做实体标准化(同义词归并)与关系schema校验。

import re

def clean_text(s):
    s = re.sub(r"\s+", " ", s)
    s = re.sub(r"[^\u4e00-\u9fa5A-Za-z0-9,。;:、()%\- ]", "", s)
    return s.strip()

5. 对比了哪些 NER 方法,最后选择哪套,为什么

可对比:规则词典、CRF、BiLSTM-CRF、BERT-CRF。通常在中文医疗场景,BERT-CRF兼顾上下文表达与标签约束,实体级F1更稳定,因此常作为最终方案。

6. 关系抽取有哪些方法,比较原理

方法包括:1)规则模板(高精度低召回);2)监

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论
Neo4j用的啥版本
点赞 回复 分享
发布于 03-10 23:40 河北
感谢分享
点赞 回复 分享
发布于 03-10 21:37 黑龙江

相关推荐

发一下问题给大家参考,攒攒人品!有面试过同岗的朋友欢迎评论区交流1.实习拷打2.项目拷打3.处理查询文档里的异构数据(如图片)时,具体的处理流程是什么?解析成纯文字后如何进一步加工?这样只返回文字给用户,图片信息不会丢失吗?4.你们是通过人工打标建立图片和文本的对应关系吗?文档量很大的情况下,打标工作能完成吗?5.如何保证大部分图片异构数据解析后回答的正确性?若回答错误,怎么识别问题?后续要验证回答准确性,你有什么方案?6.用于评测的另一个大模型,如何构造问题、分析文字并进行对比?这个大模型的正确率以及模型自我一致性怎么确定?7.你们的模型基于哪些异构图像做增强?模型会不会产生幻觉,生成文档外的内容?8.若用户的问题不在文档里,你们会怎么处理?是调用其他模型吗?大模型回答不了时,会提示用户补充问题吗?用户补充后仍无法解决该怎么办?模型如何判断何时需要让用户补充提问?9.你们有框架编排这些流程吗?用的是什么框架?10.怎么理解检索召回率?这些指标具体包含哪些评价项?什么是忠实度?召回率的分子分母是怎么定义的?11.你之前那段实习的具体工作内容是什么?针对设备故障叙述报告这类复杂文本,模型如何理解?是做了相关检测吗?大模型是怎么实现术语解释的?12.请讲一下LoRA技术,除了减少参数量,它还有什么优点?你做的LoRA相关工作,后续有落地应用吗?13.你写代码主要用Python吗?会不会用Java?了解Java的多线程、双亲委派模型以及消息中间件吗?有没有做过Java相关项目?
点赞 评论 收藏
分享
评论
4
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务