2022-10-21 09:56 邯郸学院新媒体运营发布于河北

关注

深度学习——如何用LSTM进行文本分类

简介

主要内容包括

如何将文本处理为Tensorflow LSTM的输入

如何定义LSTM

用训练好的LSTM进行文本分类

代码

导入相关库

#coding=utf-8

import tensorflow as tf

from tensorflow.contrib import learn

import numpy as np

from tensorflow.python.ops.rnn import static_rnn

from tensorflow.python.ops.rnn_cell_impl import BasicLSTMCell

数据

# 数据

positive_texts = [

"我今天很高兴",

"我很开心",

"他很高兴",

"他很开心"

]

negative_texts = [

"我不高兴",

"我不开心",

"他今天不高兴",

"他不开心"

]

label_name_dict = {

0: "正面情感",

1: "负面情感"

}

配置信息

embedding_size = 50

num_classes = 2

将文本和label数值化

# 将文本和label数值化

all_texts = positive_texts + negative_textslabels = [0] * len(positive_texts) + [1] * len(negative_texts)

max_document_length = 4

vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)

datas = np.array(list(vocab_processor.fit_transform(all_texts)))

vocab_size = len(vocab_processor.vocabulary_)

定义placeholder(容器)，存放输入输出

# 容器，存放输入输出

datas_placeholder = tf.placeholder(tf.int32, [None, max_document_length])

labels_placeholder = tf.placeholder(tf.int32, [None])

词向量处理

# 词向量表

embeddings = tf.get_variable("embeddings", [vocab_size, embedding_size], initializer=tf.truncated_normal_initializer)

# 将词索引号转换为词向量[None, max_document_length] => [None, max_document_length, embedding_size]

embedded = tf.nn.embedding_lookup(embeddings, datas_placeholder)

将数据处理为LSTM的输入格式

# 转换为LSTM的输入格式，要求是数组，数组的每个元素代表某个时间戳一个Batch的数据

rnn_input = tf.unstack(embedded, max_document_length, axis=1)

定义LSTM

# 定义LSTM

lstm_cell = BasicLSTMCell(20, forget_bias=1.0)

rnn_outputs, rnn_states = static_rnn(lstm_cell, rnn_input, dtype=tf.float32)

#利用LSTM最后的输出进行预测

logits = tf.layers.dense(rnn_outputs[-1], num_classes)

predicted_labels = tf.argmax(logits, axis=1)

定义损失和优化器

# 定义损失和优化器

losses= tf.nn.softmax_cross_entropy_with_logits(

labels=tf.one_hot(labels_placeholder, num_classes),

logits=logits

)

mean_loss = tf.reduce_mean(losses)

optimizer = tf.train.AdamOptimizer(learning_rate=1e-2).minimize(mean_loss)

执行

with tf.Session() as sess:

# 初始化变量

sess.run(tf.global_variables_initializer())

训练# 定义要填充的数据

feed_dict = {

datas_placeholder: datas,

labels_placeholder: labels

}

print("开始训练")

for step in range(100):

_, mean_loss_val = sess.run([optimizer, mean_loss], feed_dict=feed_dict)

if step % 10 == 0:

print("step = {}\tmean loss = {}".format(step, mean_loss_val))

预测

print("训练结束，进行预测")

predicted_labels_val = sess.run(predicted_labels, feed_dict=feed_dict)

for i, text in enumerate(all_texts):

label = predicted_labels_val[i]

label_name = label_name_dict[label]

print("{} => {}".format(text, label_name))

分享安排：

目标：

1.掌握大数据建模分析与使用方法。

2.掌握大数据平台技术架构。

3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。

4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。

5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。

6.掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用，以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。

7.掌握常见的机器学习算法。

具体内容：

一、大数据概述：1.大数据及特点分析；2.大数据关健技术；3.大数据计算模式；4.大数据应用实例

二、大数据处理架构Hadoop：1.Hadoop项目结构；2.Hadoop安装与使用；3.Hadoop集群的部署与使用；4.Hadoop 代表性组件

三、分布式文件系统HDFS ：1.HDFS体系结构；2.HDFS存储；3.HDFS数据读写过程

四、分布式数据库HBase ：1.HBase访问接口；2.HBase数据类型；3.HBase实现原理；4.HBase运行机制；5.HBase应用

五、MapReduce ：1.MapReduce体系结构；2.MapReduce工作流程；3.资源管理调度框架YARN ；4.MapReduce应用

六、Spark ：1.Spark生态与运行架构；2.Spark SQL；3.Spark部署与应用方式

七、IPython Notebook运行Python Spark程序：1.Anaconda；2.IPython Notebook使用Spark；3.使用IPython Notebook在Hadoop YARN模式运行

八、Python Spark集成开发环境：1.Python Spark集成开发环境部署配置；2.Spark数据分析库MLlib的开发部署

九、Python Spark决策树二分类与多分类：1.决策树原理；2.大数据问题；3.决策树二分类；4.决策树多分类

十、Python Spark支持向量机：1.支持向量机SVM 原理与算法；2.Python Spark SVM程序设计

十一、Python Spark 贝叶斯模型：1.朴素贝叶斯模型原理；2.Python Spark贝叶斯模型程序设计

十二、Python Spark逻辑回归：1.逻辑回归原理；2.Python Spark逻辑回归程序设计

十三、Python Spark回归分析：1.大数据分析；2.数据集介绍；3.Python Spark回归程序设计

十四、Spark ML Pipeline 机器学习流程分类：1.机器学习流程组件：StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 机器学习流程分类程序设计

十五、Python Spark 创建推荐引擎：1.推荐算法；2.推荐引擎大数据分析使用场景；3.推荐引擎设计

十六、项目实践：1.日志分析系统与日志挖掘项目实践；2.推荐系统项目实践

关注我并发布评论，来获取更多有效资料吧！！！

全部评论

推荐最新楼层

牛客1058号

南京理工大学电气工程师

推荐系统项目实践

点赞回复分享

发布于 2022-10-21 15:53 河南

昨天 18:21

曼伦商贸_供应链管理(准入职员工)

三棵树内推，三棵树内推码

三棵树ai测评行为能力1.请做一段自我介绍，说说你的教育背景，实习经验等，用时不超过5分钟。2.在你的学习和项目经历中，你似乎经常面临时间紧迫、任务繁重的挑战，能否分享一个具体的例子，描述一下在面对这些压力时，你如何管理和应对及最终达成目标的。3.你参与的这个项目最终的成果如何，你的成果得到了哪些方面的认可和表彰。4.回忆一下在你的学习或实习经历中，有一次你主动追求极致，把事情做到最好的例子，你当时究竟做了什么，为什么选择这么做，怎么证明这件事已经做到了最好。5.请回忆一个在团队工作里，你和团队成员没能达成一致意见的情况，当时你具体是怎么做的，说了什么去影响对方，最后结果是怎样的呢？6.从你的...

点赞评论收藏

昨天 18:33

飞鱼科技_美术设计部_角色原画(准入职员工)

飞鱼科技内推，飞鱼科技内推码

一面 35min经典自我介绍。长达25min的项目问题。（我PDF简历上贴了演示链接，但是面试官说打不开？？？）一个向量绕一个点怎么旋转？（这里我说我不会图形学，所以跳过了）那你了解点积和叉积吗，简单说说看看？应用场景？了解协程吗？协程是异步还是同步？项目里面有用到协程吗？你项目里面用到了接口吗？一个逻辑题：斗地主中的“飞机”怎么判断？你怎么设计数据结构来解决这个问题？那假设现在是有“癞子”的情况呢？（然后我BalaBala讲了一堆，看面试官最后的说法，大概说对了）。反问环节。请问贵公司对于鱼苗夏令营是一个怎么样的安排，参加夏令营的同学们会学习到什么知识？听说贵公司不止在研保卫萝卜，请问还有哪...

点赞评论收藏

2025-11-18 17:58

南昌大学辅导教师

家人们，这种简历是不是注定找不到工作😭，银行四大行全挂了，城市商业银行过了两个，但是一面全挂了，现在想找实习也找不到，真不知道能做啥工作了，能给给意见嘛

金融银行求职进展汇总

点赞评论收藏

2025-12-24 15:25

已编辑

门头沟学院前端工程师

记录鼠鼠第一次面大厂（已挂附面经版）

是腾讯的csig腾讯云，前天晚上九点突然打电话约面，激动的通宵学了一晚上，第二天状态很差改了今天（以后再也不通宵学习了）感觉自己浪费了面试官一个半小时单纯手写＋场景，无八股无项目无算法，打击真的很大，全是在面试官提醒的情况下完成的，自己技术方面真的还是有待提高，实力匹配不上大厂和已经面试的两个公司完全不一样，很注重编码能力和解决问题的能力，然而我这两个方面都很薄弱，面试官人很好很耐心的等我写完题目，遇到瓶颈也会提醒我，写不出题也会很耐心的跟我讲解好感动，到最后面试结束还安慰我打算把下周最后一场面试面完之后就不面啦，如果能去实习还是很开心，但是最重要的还是好好努力提高技术以下是面经第一题// 实现一个解析 url 参数的函数function parseUrl(urlStr) {// TODO}parseUrl('*********************************************');// 返回 {a: 1, b: 2, c: 3}追问：在链接里见过什么部分？用 hash 路由的话放在哪第二题// 考虑有一个异步任务要执行，返回 Promise，这个任务可能会失败，请实现 retry 方法，返回新方法，可以在失败后自动重试指定的次数。/*** 异步任务重试* @param task 要执行的异步任务* @param times 需要重试的次数，默认为 3 次*/function retry(task, times = 3) {// TODO: 请实现}// ---------------测试示例 ----------------// 原方法const request = async (data) => {// 模拟失败if (Math.random() < 0.7) {throw new Error('request failed');}const res = await fetch('https://jsonplaceholder.typicode.com/posts', {method: 'POST',body: JSON.stringify(data),});return res.json();}// 新的方法const requestWithRetry = retry(request);// 使用async function run() {const res = await requestWithRetry({ body: 'content' });console.log(res);}run();第三题就是给 retry 函数添加类型注释，用到泛型第四题：在组件库中将 Alert 用 api 的形式实现（应该就是 message 这个组件）怎么渲染到一个浮层里而不是原地渲染出来

不知道怎么取名字_：技术这个东西，太杂了，而且要下功夫的

查看5道真题和解析

点赞评论收藏

2025-12-30 23:37

中南大学 Java

选择后端开发还是大模型应用开发？根本不用二选一！

我觉得这是一个伪命题，因为这根本就不是一个A或B的问题。互联网各个部门都喜欢搞ai,也确实有很多结合具体业务开发智能体的需求（主要是大老板喜欢），但是据我观察现实情况有个很现实的结论：现阶段大部分智能体开发，核心执行者都是后端工程师。我本人的工作也包含了部分智能体开发，所以有点发言权。究其原因，一来后端工程师最懂业务逻辑和系统底层架构，能精准捕捉业务痛点，知道哪里适合用 AI 赋能、怎么落地才贴合实际需求；二来智能体开发的核心是 “业务落地” 而非 “大模型底层研发”，技术门槛更多集中在业务拆解、工具整合与流程闭环，而非高不可攀的算法研发，后端工程师上手起来反而更有优势。ai是风口，agent...

等闲_：业务开发就是prompt+数据，Ai就是中间件，中台或者鸡架会做一些Agentic infra和智能体记忆之类的，再底层一点就是AI infra，MLops，模型微调，推理优化之类的了，所以对于普通后端就是纯业务，没啥技术含量，除非去技术架构组或者底层一点的组，要不AI就是个API，别神话AI应用开发