CNN进行中文文本分类的流程
使用CNN进行中文文本分类的流程包括文本预处理、构建模型、训练和评估。以下是详细步骤和代码示例:
1. 数据准备
1.1 中文分词
使用分词工具(如Jieba)将中文文本分割为词语。
import jieba text = "我喜欢深度学习" words = jieba.lcut(text) # 分词 print(words) # 输出: ['我', '喜欢', '深度学习']
1.2 构建词汇表
使用Tokenizer
将分词后的文本转换为索引序列,并构建词汇表。
from keras.preprocessing.text import Tokenizer from keras.preprocessing.sequence import pad_sequences # 示例数据 texts = ["我喜欢深度学习", "CNN非常适合文本分类", "自然语言处理很有趣"] labels = [0, 1, 0] # 分类标签 # 分词 texts = [" ".join(jieba.lcut(text)) for text in texts] # 构建词汇表 tokenizer = Tokenizer() tokenizer.fit_on_texts(texts) word_index = tokenizer.word_index print("词汇表:", word_index) # 将文本转换为索引序列 sequences = tokenizer.texts_to_sequences(texts) data = pad_sequences(sequences, maxlen=10) # 填充/截断为固定长度 print("文本矩阵:", data)
2. 构建CNN模型
2.1 定义模型
使用Keras构建CNN模型,包括嵌入层、卷积层、池化层和全连接层。
from keras.models import Sequential from keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense # 超参数 vocab_size = len(word_index) + 1 # 词汇表大小 embedding_dim = 100 # 词向量维度 max_length = 10 # 文本固定长度 num_classes = 2 # 分类类别数 # 构建模型 model = Sequential() model.add(Embedding(vocab_size, embedding_dim, input_length=max_length)) # 嵌入层 model.add(Conv1D(128, 3, activation='relu')) # 卷积层 model.add(GlobalMaxPooling1D()) # 全局最大池化层 model.add(Dense(64, activation='relu')) # 全连接层 model.add(Dense(num_classes, activation='softmax')) # 输出层 # 编译模型 model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) model.summary()
2.2 使用预训练词向量(可选)
如果有预训练的中文词向量(如Word2Vec、GloVe),可以加载并初始化嵌入层。
import numpy as np # 加载预训练词向量 embedding_index = {} with open('pretrained_vectors.txt', encoding='utf-8') as f: for line in f: values = line.split() word = values[0] coefs = np.asarray(values[1:], dtype='float32') embedding_index[word] = coefs # 构建嵌入矩阵 embedding_matrix = np.zeros((vocab_size, embedding_dim)) for word, i in word_index.items(): embedding_vector = embedding_index.get(word) if embedding_vector is not None: embedding_matrix[i] = embedding_vector # 使用预训练词向量初始化嵌入层 model.layers[0].set_weights([embedding_matrix]) model.layers[0].trainable = False # 冻结词向量层
3. 训练模型
将数据输入模型进行训练。
# 训练模型 model.fit(data, np.array(labels), epochs=10, batch_size=2)
4. 评估模型
使用测试集评估模型性能。
# 测试数据 test_texts = ["深度学习很有趣", "CNN很好用"] test_labels = [0, 1] # 分词并转换为索引序列 test_texts = [" ".join(jieba.lcut(text)) for text in test_texts] test_sequences = tokenizer.texts_to_sequences(test_texts) test_data = pad_sequences(test_sequences, maxlen=max_length) # 预测 predictions = model.predict(test_data) print("预测结果:", predictions)
5. 完整代码
import jieba import numpy as np from keras.preprocessing.text import Tokenizer from keras.preprocessing.sequence import pad_sequences from keras.models import Sequential from keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense # 数据准备 texts = ["我喜欢深度学习", "CNN非常适合文本分类", "自然语言处理很有趣"] labels = [0, 1, 0] # 分类标签 texts = [" ".join(jieba.lcut(text)) for text in texts] # 构建词汇表 tokenizer = Tokenizer() tokenizer.fit_on_texts(texts) word_index = tokenizer.word_index sequences = tokenizer.texts_to_sequences(texts) data = pad_sequences(sequences, maxlen=10) # 构建模型 vocab_size = len(word_index) + 1 embedding_dim = 100 max_length = 10 num_classes = 2 model = Sequential() model.add(Embedding(vocab_size, embedding_dim, input_length=max_length)) model.add(Conv1D(128, 3, activation='relu')) model.add(GlobalMaxPooling1D()) model.add(Dense(64, activation='relu')) model.add(Dense(num_classes, activation='softmax')) model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) model.summary() # 训练模型 model.fit(data, np.array(labels), epochs=10, batch_size=2) # 测试模型 test_texts = ["深度学习很有趣", "CNN很好用"] test_labels = [0, 1] test_texts = [" ".join(jieba.lcut(text)) for text in test_texts] test_sequences = tokenizer.texts_to_sequences(test_texts) test_data = pad_sequences(test_sequences, maxlen=max_length) predictions = model.predict(test_data) print("预测结果:", predictions)
总结
使用CNN进行中文文本分类的流程包括:
- 对中文文本进行分词。
- 构建词汇表并将文本转换为索引序列。
- 构建CNN模型(嵌入层、卷积层、池化层、全连接层)。
- 训练模型并评估性能。
通过以上步骤,可以高效地实现中文文本分类任务。