У меня есть проект Android с установленными OpenCV4.0.1 и TFLite. И я хочу сделать вывод с помощью предварительно обученного MobileNetV2 cv::Mat, который я извлек и обрезал из CameraBridgeViewBase (стиль Android). Но это как-то сложно.
Я следовал примеру это.
Это делает вывод о переменной ByteBuffer с именем «imgData» (строка 71, класс: org.tensorflow.lite.examples.classification.tflite.Classifier)
Похоже, что данные imgData были заполнены методом «convertBitmapToByteBuffer» из того же класса (строка 185), добавляя пиксель за пикселем из растрового изображения, которое выглядит обрезанным чуть раньше.
private int[] intValues = new int[224 * 224];
Mat _croppedFace = new Mat() // Cropped image from CvCameraViewFrame.rgba() method.
float[][] outputVal = new float[1][1]; // Output value from my MobileNetV2 // trained model (i've changed the output on training, tested on python)
// Following: https://stackoverflow.com/questions/13134682/convert-mat-to-bitmap-opencv-for-android
Bitmap bitmap = Bitmap.createBitmap(_croppedFace.cols(), _croppedFace.rows(), Bitmap.Config.ARGB_8888);
Utils.matToBitmap(_croppedFace, bitmap);
convertBitmapToByteBuffer(bitmap); // This call should be used as the example one.
// runInference();
_tflite.run(imgData, outputVal);
Но похоже, что input_shape моего NN неверен, но я следую примеру MobileNet, потому что мой NN — это MobileNetV2.
Я решил ошибку, но я уверен, что это не лучший способ сделать это.
Keras MobilenetV2 input_shape: (nBatches, 224, 224, nChannels). Я просто хочу предсказать одно изображение, поэтому nBaches == 1, и я работаю в режиме RGB, поэтому nChannels == 3
// Nasty nasty, but works. nBatches == 2? -- _cropped.shape() == (244, 244), 3 channels.
float [][][][] _inputValue = new float[2][_cropped.cols()][_cropped.rows()][3];
// Fill the _inputValue
for(int i = 0; i < _croppedFace.cols(); ++i)
for (int j = 0; j < _croppedFace.rows(); ++j)
for(int z = 0; z < 3; ++z)
_inputValue [0][i][j][z] = (float) _croppedFace.get(i, j)[z] / 255; // DL works better with 0:1 values.
/*
Output val, has this shape, but I don't really know why.
I'm sure that one's of that 2's is for nClasses (I'm working with 2 classes)
But I don't really know why it's using the other one.
*/
float[][] outputVal = new float[2][2];
// Tensorflow lite interpreter
_tflite.run(_inputValue , outputVal);
На питоне такая же форма: Предсказание Python: [[XXXXXX, YYYYY]] <- Конечно, для последнего слоя, который я сделал, это всего лишь прототип NN.
Надеюсь, что кто-то получил помощь, а также что кто-то может улучшить ответ, потому что он не очень оптимизирован.