AI-Agent 面试题汇总 - 自然语言处理篇 (知识图谱)
1. 医疗数据来自哪里,原始格式是什么
常见来源:电子病历、指南文档、药品说明书、问答语料、结构化表。原始格式可能是txt/doc/pdf/json/csv/数据库表,需做脱敏与字段规范化。
2. 使用什么标注工具,如何分配标注任务
常用doccano、label studio。任务分配一般按疾病域或实体类型切分,双人标注+仲裁提升一致性,使用IAA(如Kappa)评估质量。
3. 使用什么标注规则,详细解释
规则通常包含:实体边界规则、歧义词处理、缩写规范、嵌套实体策略、关系触发词定义、冲突优先级。需要沉淀《标注指南》并版本化管理。
4. 如何实现数据预处理,中间步骤有哪些
流程:去噪清洗 → 分句分词 → 术语标准化 → 去重 → 标注对齐 → 训练/验证切分。知识图谱还需做实体标准化(同义词归并)与关系schema校验。
import re
def clean_text(s):
s = re.sub(r"\s+", " ", s)
s = re.sub(r"[^\u4e00-\u9fa5A-Za-z0-9,。;:、()%\- ]", "", s)
return s.strip()
5. 对比了哪些 NER 方法,最后选择哪套,为什么
可对比:规则词典、CRF、BiLSTM-CRF、BERT-CRF。通常在中文医疗场景,BERT-CRF兼顾上下文表达与标签约束,实体级F1更稳定,因此常作为最终方案。
6. 关系抽取有哪些方法,比较原理
方法包括:1)规则模板(高精度低召回);2)监
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
AI-Agent面试实战专栏 文章被收录于专栏
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.