首页 > 试题广场 >

数字识别

[数据挖掘题]数字识别

训练文件,每一行用逗号分割765个字段，前764个字段表示一幅28*28逐行记录的的图片，数字0-255表示从白色到黑色，最后一个值为识别的数字，训练数据为60000个，测试文件，总10000行，测试文件每一行为764个字段，表示28*28像素要测试识别的图片，根据测试文件请生成一个识别的结果文件a.txt,该文件每一行为识别的数字，总10000行

数据获取

普通下载高速下载测试文件

结果文件上传

上传文件格式请参考压缩包内的sample_a.txt。

上传数据结果文件,格式仅限txt文件

feisky

CNN即可

发表于 2017-08-14 21:06:51 回复(0)

穿着碎花裙的猫

手写识别数字，用卷积神经网络是最经典的

发表于 2017-04-14 15:30:21 回复(0)

JackBurd

其实我想说这个测试数据格式有问题，上传时应该先检查一下的

发表于 2015-08-07 16:58:55 回复(1)

hahes

import csv with open("mnist_test.csv","r+") as f:
    text = f.read()
    result = text.split(',') with open("new.csv","w",newline='') as datacsv:
    csvwriter = csv.writer(datacsv,dialect=("excel"))
    num = 1      ans = []      for i in result[:7840000]:
        ans.append(i)          if num % 784 == 0:
            csvwriter.writerow(ans)
            ans = []
        num+=1

运行上述代码，即可将测试数据处理成标准格式

发表于 2019-03-11 17:43:54 回复(1)

帅气的废话选手不要香菜

下载不了，谁能分享一份

发表于 2022-12-16 18:43:28 回复(0)

影201905011145235

我下不了数据

发表于 2020-03-25 23:42:43 回复(0)

牛客8045848号

额，任意算法包？这应该不是公司的试题吧

发表于 2017-08-26 14:15:40 回复(0)

phoenixx

数据没法下载？

发表于 2016-11-20 21:59:23 回复(0)

lqxiao

答题页面不能上传，答案解析里面可以上传结果（不知道什么鬼）... 上传文件格式是 UNIX格式，编码是UTF-8无BOM格式..专门用notepad++改了一下..

发表于 2016-09-15 10:58:32 回复(0)

reallocing

测试集格式问题很大～大家怎么解决的？

发表于 2016-03-20 22:14:34 回复(2)

踢丘比特一脚

有点坑，没有换行，无法导入到R。不过这种多分类问题应该并不难，有监督学习的算法应该都可以

发表于 2016-03-19 14:09:34 回复(0)

Pis

from sklearn import tree
f = open("train")
x = []
tmp = []
y = [] for line in f:
    line = line.strip('\n')
    line = line.split(',')
    y.append(int(line[-1])) for i in range(764):
        tmp.append(int(line[i]))
    x.append(tmp)
    tmp = []
clf = tree.DecisionTreeClassifier()
model = clf.fit(x,y) print model

count = 0 x_test = [[]]
y_test = []
file = open("test")
tmp = [] for line in file:
    line = line.strip('\n')
    line = line.split(',')
    label = int(line[-1])
    y_test.append(label) for i in range(764):
        tmp.append(int(line[i]))
    x_test.append(tmp)
    res = clf.predict([tmp]) print res #print label,res  if(res == label):
        count += 1.0  tmp = []

发表于 2016-01-17 17:56:39 回复(0)

于建民

<pre class="prettyprint"># R language library(e1071) # read the data data = read.table(file = "C:/Users/yujianmin/Downloads/mnist/mnist_train.txt") x = data[ , 1:dim(data)[2]-1] x = scale(x) y = data[ , dim(data)[2]] test = read.table(file = "C:/Users/yujianmin/Downloads/mnist/mnist_test.txt")</pre> <pre class="prettyprint"># build a model and predict # here use svm model <- svm(x, y, probability = TRUE) pred <- predict(model, test) </pre>

发表于 2015-09-15 17:00:40 回复(0)

hectorxp

发表于 2015-08-25 21:28:47 回复(0)

悟

这个感觉就是最常见的那个MNIST手写数字数据集，识别标号为0-9，就是普通的多类分类方法，采用knn、SVM、贝叶斯都可以解决

发表于 2015-08-22 21:28:56 回复(3)

оo鈷惑釨

发表于 2015-08-20 20:54:38 回复(0)

zzkgo

其实我看到这个题目就在想，有了训练集合，和测试集合，那意思就是使用常用的模式识别方法训练并预测分类，但是看了半天，也想不出这个题目有隐含的哪种方法，常用的如kNN，SVM都可以解决。但是，SVM是分类器，里面给出的数字的标号是个啥？也没有具体含义，如果标号固定数目，可以看成多分类器。如果随意的连续标号，不要SVM了。

反正这里给出一般的思路吧。如果当成分类的话：

1.抽取特征--类别，就是按行处理训练集

2.训练分类器---(这里面的代码确实好多)

3.预测分类----->输出到一个txt

最后这个题目好无聊啊。

发表于 2015-08-20 09:59:41 回复(1)