AI-Agent 面试题汇总 - 自然语言处理篇 (知识图谱)

1. 医疗数据来自哪里,原始格式是什么

常见来源:电子病历、指南文档、药品说明书、问答语料、结构化表。原始格式可能是txt/doc/pdf/json/csv/数据库表,需做脱敏与字段规范化。

2. 使用什么标注工具,如何分配标注任务

常用doccano、label studio。任务分配一般按疾病域或实体类型切分,双人标注+仲裁提升一致性,使用IAA(如Kappa)评估质量。

3. 使用什么标注规则,详细解释

规则通常包含:实体边界规则、歧义词处理、缩写规范、嵌套实体策略、关系触发词定义、冲突优先级。需要沉淀《标注指南》并版本化管理。

4. 如何实现数据预处理,中间步骤有哪些

流程:去噪清洗 → 分句分词 → 术语标准化 → 去重 → 标注对齐 → 训练/验证切分。知识图谱还需做实体标准化(同义词归并)与关系schema校验。

import re

def clean_text(s):
    s = re.sub(r"\s+", " ", s)
    s = re.sub(r"[^\u4e00-\u9fa5A-Za-z0-9,。;:、()%\- ]", "", s)
    return s.strip()

5. 对比了哪些 NER 方法,最后选择哪套,为什么

可对比:规则词典、CRF、BiLSTM-CRF、BERT-CRF。通常在中文医疗场景,BERT-CRF兼顾上下文表达与标签约束,实体级F1更稳定,因此常作为最终方案。

6. 关系抽取有哪些方法,比较原理

方法包括:1)规则模板(高精度低召回);2)监督分类(基于实体对+上下文);3)序列标注式联合抽取;4)生成式抽取。选择取决于数据规模、关系复杂度与上线成本。

7. 如何推导 CRF 损失函数

CRF损失是条件对数似然的负值:(-\log P(y|x)),其中分子为真实路径分数,分母为所有路径分数的log-sum-exp(配分函数)。训练时最大化真实路径概率,解码用Viterbi。

8. CRF 路径分数怎么计算

路径分数 = 各位置发射分数之和 + 相邻标签转移分数之和。这也是Viterbi动态规划的核心评分函数。

9. 关系抽取中的棘手问题

典型难点:

  • SEO(单实体重叠)
  • EPO(实体对重叠)
  • 远距离依赖
  • 弱触发词与跨句关系
  • 样本不均衡与负样本构造

10. pipeline 和 joint 的不同

Pipeline:先NER后RE,多模型串联,易实现但误差传递明显。Joint:统一模型联合学习实体与关系,可减少误差传递但训练更复杂、数据要求更高。

11. 基于规则方法用在哪些场景,核心是什么,用了哪些工具

适合术语稳定、可解释要求高、冷启动数据少的场景。核心是“词典+模板+正则+句法线索”。常用工具:正则表达式、jieba.posseg、HanLP、规则引擎。

12. 基于 pipeline 的关系抽取,如何组织数据,经过哪些过程

数据组织常为:实体1 + 实体2 + 句子 + 关系标签。流程:NER抽实体 → 构造实体对样本 → 关系分类训练/预测 → 结果融合与冲突消解。

13. 如何部署上线,用了哪些工具

常见组合:Flask/FastAPI + Neo4j + Redis + Docker。流程:抽取服务化、图谱写入、查询接口、缓存加速、监控与告警。

from py2neo import Graph
graph = Graph("bolt://localhost:7687", auth=("neo4j", "password"))
graph.run("CREATE (:Disease {name:$name})", name="流感")

14. 如何定义知识图谱的本体和实例

本体(Schema)是概念层:实体类型、关系类型、属性约束;实例(Instance)是数据层:具体实体与事实三元组。定义时要保证可扩展性、一致性、业务可查询性。

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论
Neo4j用的啥版本
点赞 回复 分享
发布于 昨天 23:40 河北
感谢分享
点赞 回复 分享
发布于 昨天 21:37 黑龙江

相关推荐

03-04 07:14
门头沟学院 C++
后测速成辅导一两个月...:老板:都给工作机会了还想要工资,哪来这么多好事
点赞 评论 收藏
分享
03-01 21:45
中北大学 Python
孤蓝长空:请你说一下为什么你用websocket而不是http,请你说一下什么是rpc,为什么用rpc,你的rpc的传输协议是JSON,xml还是什么 请你描述一下你的鉴权流程(完整的) 我问的是第二个项目,随便问的哈哈哈
开工第一帖
点赞 评论 收藏
分享
评论
4
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务