AI-Agent 面试题汇总 - 机器学习篇
1. 机器学习中特征的理解
特征(Feature)是样本可量化的属性,是模型输入。特征质量通常决定模型效果上限。常见有数值、类别、文本、时间、统计聚合、交叉特征等。
2. 机器学习中有哪些特征工程方法?
常见方法:缺失值处理、异常值处理、编码、标准化/归一化、特征构造、特征选择、降维。
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LogisticRegression
num_cols = ["age", "salary"]
cat_cols = ["city", "edu"]
preprocess = ColumnTransformer([
("num", Pipeline([
("imputer", SimpleImputer(strategy="median")),
("scaler", StandardScaler())
]), num_cols),
("cat", Pipeline([
("imputer", SimpleImputer(strategy="most_frequent")),
("onehot", OneHotEncoder(handle_unknown="ignore"))
]), cat_cols)
])
clf = Pipeline([
("prep", preprocess),
("model", LogisticRegression(max_iter=200))
])
3. 机器学习中的正负样本
二分类中目标类一般记为正样本(1),非目标类为负样本(0)。当类别不平衡时,常用重采样、类别权重、阈值调优、PR-AUC等方式处理。
4. 线性分类器与非线性分类器的区别及优劣
线性分类器决策边界是超平面,训练快、可解释性好;非线性分类器表达能力强,可拟合复杂边界,但更易过拟合、调参成本更高。
5. 如何解决过拟合问题
可通过增加数据、正则化、降低模型复杂度、交叉验证、早停、集成学习等方式缓解过拟合。
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(
n_estimators=300,
max_depth=8,
min_samples_leaf=5,
random_state=42
)
scores = cross_val_score(model, X, y, cv=5, scoring="f1")
print(scores.mean())
6. L1 和 L2 正则的区别,如何选择 L1 和 L2 正则
L1 倾向产生稀疏解(可做特征选择);L2 倾向让参数整体变小(更稳定)。高维稀疏场景可优先尝试 L1,通用场景常先试 L2。
from sklearn.linear_model import LogisticRegression l1_model = LogisticRegression(penalty="l1", solver="liblinear", C=1.0) l2_model = LogisticRegression(penalty="l2", solver="liblinear", C=1.0)
7. 有监督学习和无监督学习的区别
有监督学习有标签(分类/回归);无监督学习无标签(聚类/降维/异常检测)。
8. 有
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
AI-Agent面试实战专栏 文章被收录于专栏
本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.
查看5道真题和解析