CNN进行中文文本分类的流程

使用CNN进行中文文本分类的流程包括文本预处理、构建模型、训练和评估。以下是详细步骤和代码示例:

1. 数据准备

1.1 中文分词

使用分词工具(如Jieba)将中文文本分割为词语。

import jieba

text = "我喜欢深度学习"
words = jieba.lcut(text)  # 分词
print(words)  # 输出: ['我', '喜欢', '深度学习']

1.2 构建词汇表

使用Tokenizer将分词后的文本转换为索引序列,并构建词汇表。

from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences

# 示例数据
texts = ["我喜欢深度学习", "CNN非常适合文本分类", "自然语言处理很有趣"]
labels = [0, 1, 0]  # 分类标签

# 分词
texts = [" ".join(jieba.lcut(text)) for text in texts]

# 构建词汇表
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
word_index = tokenizer.word_index
print("词汇表:", word_index)

# 将文本转换为索引序列
sequences = tokenizer.texts_to_sequences(texts)
data = pad_sequences(sequences, maxlen=10)  # 填充/截断为固定长度
print("文本矩阵:", data)

2. 构建CNN模型

2.1 定义模型

使用Keras构建CNN模型,包括嵌入层、卷积层、池化层和全连接层。

from keras.models import Sequential
from keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense

# 超参数
vocab_size = len(word_index) + 1  # 词汇表大小
embedding_dim = 100  # 词向量维度
max_length = 10  # 文本固定长度
num_classes = 2  # 分类类别数

# 构建模型
model = Sequential()
model.add(Embedding(vocab_size, embedding_dim, input_length=max_length))  # 嵌入层
model.add(Conv1D(128, 3, activation='relu'))  # 卷积层
model.add(GlobalMaxPooling1D())  # 全局最大池化层
model.add(Dense(64, activation='relu'))  # 全连接层
model.add(Dense(num_classes, activation='softmax'))  # 输出层

# 编译模型
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.summary()

2.2 使用预训练词向量(可选)

如果有预训练的中文词向量(如Word2Vec、GloVe),可以加载并初始化嵌入层。

import numpy as np

# 加载预训练词向量
embedding_index = {}
with open('pretrained_vectors.txt', encoding='utf-8') as f:
    for line in f:
        values = line.split()
        word = values[0]
        coefs = np.asarray(values[1:], dtype='float32')
        embedding_index[word] = coefs

# 构建嵌入矩阵
embedding_matrix = np.zeros((vocab_size, embedding_dim))
for word, i in word_index.items():
    embedding_vector = embedding_index.get(word)
    if embedding_vector is not None:
        embedding_matrix[i] = embedding_vector

# 使用预训练词向量初始化嵌入层
model.layers[0].set_weights([embedding_matrix])
model.layers[0].trainable = False  # 冻结词向量层

3. 训练模型

将数据输入模型进行训练。

# 训练模型
model.fit(data, np.array(labels), epochs=10, batch_size=2)

4. 评估模型

使用测试集评估模型性能。

# 测试数据
test_texts = ["深度学习很有趣", "CNN很好用"]
test_labels = [0, 1]

# 分词并转换为索引序列
test_texts = [" ".join(jieba.lcut(text)) for text in test_texts]
test_sequences = tokenizer.texts_to_sequences(test_texts)
test_data = pad_sequences(test_sequences, maxlen=max_length)

# 预测
predictions = model.predict(test_data)
print("预测结果:", predictions)

5. 完整代码

import jieba
import numpy as np
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense

# 数据准备
texts = ["我喜欢深度学习", "CNN非常适合文本分类", "自然语言处理很有趣"]
labels = [0, 1, 0]  # 分类标签
texts = [" ".join(jieba.lcut(text)) for text in texts]

# 构建词汇表
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
word_index = tokenizer.word_index
sequences = tokenizer.texts_to_sequences(texts)
data = pad_sequences(sequences, maxlen=10)

# 构建模型
vocab_size = len(word_index) + 1
embedding_dim = 100
max_length = 10
num_classes = 2

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim, input_length=max_length))
model.add(Conv1D(128, 3, activation='relu'))
model.add(GlobalMaxPooling1D())
model.add(Dense(64, activation='relu'))
model.add(Dense(num_classes, activation='softmax'))
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.summary()

# 训练模型
model.fit(data, np.array(labels), epochs=10, batch_size=2)

# 测试模型
test_texts = ["深度学习很有趣", "CNN很好用"]
test_labels = [0, 1]
test_texts = [" ".join(jieba.lcut(text)) for text in test_texts]
test_sequences = tokenizer.texts_to_sequences(test_texts)
test_data = pad_sequences(test_sequences, maxlen=max_length)
predictions = model.predict(test_data)
print("预测结果:", predictions)

总结

使用CNN进行中文文本分类的流程包括:

  1. 对中文文本进行分词。
  2. 构建词汇表并将文本转换为索引序列。
  3. 构建CNN模型(嵌入层、卷积层、池化层、全连接层)。
  4. 训练模型并评估性能。

通过以上步骤,可以高效地实现中文文本分类任务。

全部评论

相关推荐

04-12 21:52
南开大学 Java
鼠鼠有点摆,去年边学着没敢投简历,没实习。从1月到现在总共面了五次,四次字节的日常(HR打电话约面试才敢去的),然后一次腾讯的暑期,都是一面挂,其他则是没给面。暑期的岗,4.2才开始海投,前面想着等字节第四次一面后再投,结果挂,而且感觉投晚了。字节投了11个,9个简历挂,剩下2个没动静。阿里全都简历挂,剩下的在"投递简历"。腾讯给了一次面。然后其他大中厂、手机厂什么的都是做完测评or笔试就没下文,打开几个看也是终止流程,感觉剩下的也应该是简历挂了。感觉是简历的原因?项目部分,几次面试,感觉面试官主要就拷问过秒杀这一个点。自己说的时候会尝试把sse那条说成亮点,但除了腾讯面试官问过一下这整个点在业务方面对用户有什么用之类的问题外,其他最多只是问一下sse八股...感觉也许不是很让面试官感兴趣。这个短链接也是无人问津,就被问过一回雪花算法的设计。也许我该拿点评改改,然后再在网上找一个什么项目,凑两个,而不是用自己现在这两个项目?或者是点评改改放前面,然后原本第一个项目,把秒杀抽掉,剩下的想办法从网上火的RAG项目里移植点亮点,或者直接就用网上的RAG项目?感觉我主要还是偏向后端开发,但是感觉如果除开点评,再拿一个项目,想不到有什么自己能掌控且跟点评不重的。然后鼠鼠之前主要的问题是担心面试让打开项目演示,然后就一直花时间在用AI整第一个项目,第二个项目都没时间整,第四次面试之前还因为太害怕被认为不熟悉项目,跟AI一起把简历的说辞做了大幅度弱化,然后暑期都是拿弱化后的简历投的,感觉是不是看上去太没有吸引力就直接给简历挂了。(图1是弱化后的,图2是弱化前的,但之前3月初投了几家好像也是简历挂。)而且因为3月花了很多时间整在跟AI整代码,导致八股和算法都没怎么看,算法之前有跟灵神题单刷一些,还算入门,但是八股只看了一些基本的,可能面试的时候只答得上来60-70%,而且表述有些混乱,都是想到哪说到哪;前面几回面试基本上都有大板块的基础八股没答出来,比如RedisZ Set数据结构,MQ延时消息、可靠性保证,JVM内存分配的过程、GC roots,JUC锁,设计模式。现在有点不知道该怎么办。求大佬们给点简历修改建议或者面试准备建议,不胜感激!
何时能不做牛马:简历每个点之间的间距可以缩一下。几乎没遇到过要演示项目的情况,即使万一遇上了你也可以说部署在其他电脑上本地没代码。nku不应该简历挂吧?抓紧背背八股练练表达,不要放弃,五六月份找到也不晚(不然还得提前入职
应届生简历当中,HR最关...
点赞 评论 收藏
分享
不知道怎么取名字_:现在找工作是真的太不容易了
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务