首页 > 试题广场 >

数字识别

[数据挖掘题]数字识别
训练文件,每一行用逗号分割765个字段,前764个字段表示一幅28*28逐行记录的的图片,数字0-255表示从白色到黑色,最后一个值为识别的数字,训练数据为60000个,测试文件,总10000行,测试文件每一行为764个字段,表示28*28像素要测试识别的图片,根据测试文件请生成一个识别的结果文件a.txt,该文件每一行为识别的数字,总10000行

数据获取

普通下载 高速下载 测试文件

结果文件上传

上传文件格式请参考压缩包内的sample_a.txt。
上传数据结果文件,格式仅限txt文件
CNN即可
发表于 2017-08-14 21:06:51 回复(0)
手写识别数字,用卷积神经网络是最经典的
发表于 2017-04-14 15:30:21 回复(0)
其实我想说这个测试数据格式有问题,上传时应该先检查一下的
发表于 2015-08-07 16:58:55 回复(1)
import csv with open("mnist_test.csv","r+") as f:
    text = f.read()
    result = text.split(',') with open("new.csv","w",newline='') as datacsv:
    csvwriter = csv.writer(datacsv,dialect=("excel"))
    num = 1      ans = []      for i in result[:7840000]:
        ans.append(i)          if num % 784 == 0:
            csvwriter.writerow(ans)
            ans = []
        num+=1



运行上述代码,即可将测试数据处理成标准格式
发表于 2019-03-11 17:43:54 回复(1)
下载不了,谁能分享一份 
发表于 2022-12-16 18:43:28 回复(0)
我下不了数据

发表于 2020-03-25 23:42:43 回复(0)
额,任意算法包?这应该不是公司的试题吧
发表于 2017-08-26 14:15:40 回复(0)
数据没法下载?
发表于 2016-11-20 21:59:23 回复(0)
答题页面不能上传,答案解析里面可以上传结果(不知道什么鬼)... 上传文件格式是 UNIX格式,编码是UTF-8无BOM格式..专门用notepad++改了一下..
发表于 2016-09-15 10:58:32 回复(0)
测试集格式问题很大~大家怎么解决的?

发表于 2016-03-20 22:14:34 回复(2)
有点坑,没有换行,无法导入到R。不过这种多分类问题应该并不难,有监督学习的算法应该都可以
发表于 2016-03-19 14:09:34 回复(0)
Pis头像 Pis

from sklearn import tree
f = open("train")
x = []
tmp = []
y = [] for line in f:
    line = line.strip('\n')
    line = line.split(',')
    y.append(int(line[-1])) for i in range(764):
        tmp.append(int(line[i]))
    x.append(tmp)
    tmp = []
clf = tree.DecisionTreeClassifier()
model = clf.fit(x,y) print model

count = 0 x_test = [[]]
y_test = []
file = open("test")
tmp = [] for line in file:
    line = line.strip('\n')
    line = line.split(',')
    label = int(line[-1])
    y_test.append(label) for i in range(764):
        tmp.append(int(line[i]))
    x_test.append(tmp)
    res = clf.predict([tmp]) print res #print label,res  if(res == label):
        count += 1.0  tmp = []
发表于 2016-01-17 17:56:39 回复(0)
<pre class="prettyprint"># R language library(e1071) # read the data data = read.table(file = "C:/Users/yujianmin/Downloads/mnist/mnist_train.txt") x = data[ , 1:dim(data)[2]-1] x = scale(x) y = data[ , dim(data)[2]] test = read.table(file = <span>"C:/Users/yujianmin/Downloads/mnist/mnist_test.txt")<span></span></span><span></span><span></span></pre> <pre class="prettyprint"># build a model and predict # here use svm model &lt;- svm(x, y, probability = TRUE) pred &lt;- predict(model, test) <span></span></pre> <br />
发表于 2015-09-15 17:00:40 回复(0)
<pre class="prettyprint lang-py"> </pre>
发表于 2015-08-25 21:28:47 回复(0)
悟头像
这个感觉就是最常见的那个MNIST手写数字数据集,识别标号为0-9,就是普通的多类分类方法,采用knn、SVM、贝叶斯都可以解决
发表于 2015-08-22 21:28:56 回复(3)
<pre class="prettyprint">okio</pre> <br />
发表于 2015-08-20 20:54:38 回复(0)
其实我看到这个题目就在想,有了训练集合,和测试集合,那意思就是使用常用的模式识别方法训练并预测分类,但是看了半天,也想不出这个题目有隐含的哪种方法,常用的如kNN,SVM都可以解决。但是,SVM是分类器,里面给出的数字的标号是个啥?也没有具体含义,如果标号固定数目,可以看成多分类器。如果随意的连续标号,不要SVM了。
反正这里给出一般的思路吧。如果当成分类的话:
1.抽取特征--类别,就是按行处理训练集
2.训练分类器---(这里面的代码确实好多)
3.预测分类----->输出到一个txt
最后这个题目好无聊啊。
发表于 2015-08-20 09:59:41 回复(1)







发表于 2015-08-06 13:08:24 回复(0)
方法一:效率允许的话,可以考虑KNN。
1. 准备数据阶段—— 要把图像转化为向量,这样分类器就可以识别了,编写Img2vector的函数
2. 然后选择出一部分的训练数据训练分类器的参数k,得到最基础的分类器。(归一化和距离函数都可以调整)
3. 进行测试,看效果的反馈

方法二:SVM+SMO
发表于 2015-03-10 20:07:52 回复(1)
不会啊
发表于 2015-01-15 09:38:12 回复(0)

问题信息

难度:
22条回答 10506浏览

热门推荐

通过挑战的用户