[问题] CNN模型只会预测同一个分类结果 chuneee PTT批踢踢实业坊

[问题] CNN模型只会预测同一个分类结果

楼主: chuneee (chuneee) 2020-03-26 20:30:19

更新:补充资料集&code
我的资料集是使用 Free Music Archive
参照的方法是像此网址 https://bit.ly/3aoIbUh
只是我想尝试只用CNN进行分类预测
原始资料如以下，每笔资料的数值都介于 -80~0
[[-33.74863434 -27.84932709 -22.6257019 ... -21.47132492 -19.61938477
-14.22393227]
[-16.31633759 -29.69265747 -25.40621376 ... -28.50727081 -11.46302605
-4.04836655]
[ -9.1305275 -10.00378227 -28.46733665 ... -23.54629517 -20.91897202
-1.38314819]
...
[-63.33175659 -66.34197998 -68.40023804 ... -73.8707428 -68.64536285
-67.72910309]
[-67.61167908 -67.59188843 -66.96526337 ... -70.63095856 -74.70448303
-72.90202332]
[-71.49047852 -74.54782104 -69.39613342 ... -80. -80.
-80. ]]
我所进行的处理是全部取绝对值并标准化到0~1
如下
[[0.42185793]
[0.34811659]
[0.28282127]
...
[0.26839156]
[0.24524231]
[0.17779915]]
[[0.20395422]
[0.37115822]
[0.31757767]
...
[0.35634089]
[0.14328783]
[0.05060458]]
[[0.11413159]
[0.12504728]
[0.35584171]
...
[0.29432869]
[0.26148715]
[0.01728935]]
...
[[0.79164696]
[0.82927475]
[0.85500298]
...
[0.92338428]
[0.85806704]
[0.84661379]]
[[0.84514599]
[0.84489861]
[0.83706579]
...
[0.88288698]
[0.93380604]
[0.91127529]]
[[0.89363098]
[0.93184776]
[0.86745167]
...
[1. ]
[1. ]
[1. ]]
以下是训练部分完整程式
result=np.load('specarc_128640_8442.npz')
spl=result['spec']
tid=result['trackgenre']
#Onthot Encoding
from sklearn.preprocessing import LabelEncoder
enc = LabelEncoder()
temp=tid
enc.fit(temp)
temp=enc.transform(temp)
print(temp)
from sklearn.preprocessing import OneHotEncoder
ohe=OneHotEncoder()
encoded=ohe.fit(temp.reshape(-1,1))
temp=encoded.transform(temp.reshape(-1,1)).toarray()
print(temp)
print('length:',len(temp))
#给定特征值&标签
labels = temp
Features = spl
x_train = Features[:8000]
y_train = labels[:8000]
x_test = Features[8000:]
y_test = labels[8000:]
x_train=np.abs(x_train)
x_test=np.abs(x_test)
x_train = x_train.reshape(8000,128,646,1)/80
x_test = x_test.reshape(442,128,646,1)/80
print(x_train.shape)
print(x_train[0].shape)
print(x_train[0])
model = Sequential()
model.add(Conv2D(16, kernel_size=(5,5),
activation='relu',kernel_initializer='random_uniform',
input_shape=(128,646,1)))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(BatchNormalization())
model.add(Conv2D(8, kernel_size=(5,5), activation='relu',
kernel_initializer='random_uniform', input_shape=(64,321,1)))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(BatchNormalization())
model.add(Flatten())
model.add(Dense(16, activation = 'relu'))
model.add(Dropout(0.5))
model.add(Dense(9, activation = 'softmax'))
opt=optimizers.Adam(learning_rate=0.001, beta_1=0.9, beta_2=0.999,
amsgrad=False)
model.compile(loss='categorical_crossentropy', optimizer=opt,
metrics=['accuracy'])
print(model.summary())
=====================================================================
(以下原文)
大家好~
我目前在尝试用CNN来做图片的分类，不过遇到了一个问题
就是训练出来的模型，只会output同一个结果，因此准确度极低
我的资料集总共有9类，每类包含一千张图片，每张图片大小是128*646
我的程式码和训练结果如图
https://i.imgur.com/j5t84k1.png
(图里左下角是实际标签跟预测的值)
可以看到不管input是什么，模型output的值都一模一样
但同一个模型在跑MNIST这个资料集的分类时，是有九成五的效果
不晓得是哪里出了问题...
我总共尝试过更改:
初始化方法、最佳化方法、损失函数、或是跑更多个epoch但结果都一样
不过当我:
把kernel数量设为1 或是把激发函数设为tanh的时候，预测的值就会不同了
(但准确度只能达到两三成而已)
1.我觉得很疑惑的地方是为什么kernel数为1时模型看起来比较有在学习
2.我的图片中的值的范围在0~80，都是正数，为何用tanh会避免单一预测结果
(不过可以观察到tanh的预测结果仍是偏向某个类别)
爬过很多stackoverflow的问题都没有找到可以解决的方法...
在这里向大家请教~希望有人可以解惑
另外先谢谢大家的回答!

作者: watashino (我同学数学很烂) 2020-03-26 21:59:00

你model太小了吧，mnist图大小也才28x28x1你光是图片的一个边都比他大了另外你说图片的值都在0到80之间，建议还是做一下normalization吧就算只是除80意思一下也会好很多还有就是你的模型长得大概跟你想得不太一样，基本的东西先看熟吧欸对还有，model连train起来都有问题了不要dropout

作者: zax5566x2 (Shad0w) 2020-03-26 22:04:00

你input图片蛮大的,可以调大filter试试看吧我说的是filter数量

作者: watashino (我同学数学很烂) 2020-03-27 01:34:00

建议先去翻翻书吧或看看李弘毅

作者: karco (karco) 2020-03-27 02:37:00

我觉得需要标准化，filter数量也可以调大一点，可以去了解filter移动的原理，因为你图片的长宽不同，所以可以去自己调一下size然后加深一点的效果应该会好一点

作者: Starcraft2 (来自星海的你) 2020-03-27 04:05:00

http://speech.ee.ntu.edu.tw/~tlkagk/courses.html推李弘毅可以跟3月刚开始的ML课程还有看他之前youtube channel上的影片集林轩田的课也推荐不过比较从数学跟统计的角度切入

作者: empireisme (empireisme) 2020-03-27 11:02:00

不如请妳把程式码和dataset贴上来这样大家要改也比较好改

作者: watashino (我同学数学很烂) 2020-03-27 14:36:00

我再强调一次你应该不知道自己每一层的output shape是什么你conv接linear那边从10000多维直接降到16维我不确定是不是导致了这个原因，可以修的地方很多所以才建议你先翻书或者是找一个好一点的model跟着做做看

作者: Ryspon (Ry) 2020-03-28 03:27:00

把第二个 Conv2D 的 input shape 拿掉试试看

继续阅读

[问题] 如何import 同层但不同资料夹的模组？xsubarux [问题] Heroku runtime上传问题shredder [问题] websocket传送binary datam87dd05 [讨论] 深度学习物件辨识在Tensorflow-GPU的Protobuf问题chuinzong 数值分析相关问题bangbigbang [问题] phantomJS爬虫网址问题vincent14 [问题] 网站中的蓝框框e79829 [问题] VScode要如何变更进入python版本的路径？farren7410 [问题] 请问python写的dash程式nicha115 求救树莓派控制伺服马达抖动问题jan5515