ホーム>source

Ubuntuにtesseractバージョン4.0をインストールしました。 Tesseract CLIを使用して、単純なOCRテキスト生成のようなtesseractのすべてのアクションを実行できます。 LSTMをトレーニングしたい。 これを読んで論文 BuildからTesseractをインストールした後、ターミナルで次のコマンドを直接実行しようとしました。

mkdir -p ~/tesstutorial/engoutput
training/lstmtraining --debug_interval 100 \
  --traineddata ~/tesstutorial/engtrain/eng/eng.traineddata \
  --net_spec '[1,36,0,1 Ct3,3,16 Mp3,3 Lfys48 Lfx96 Lrx96 Lfx256 O1c111]' \
  --model_output ~/tesstutorial/engoutput/base --learning_rate 20e-4 \
  --train_listfile ~/tesstutorial/engtrain/eng.training_files.txt \
  --eval_listfile ~/tesstutorial/engeval/eng.training_files.txt \
  --max_iterations 5000 &>~/tesstutorial/engoutput/basetrain.log

Althoguhはengouputディレクトリを作成しました。

現在のパスはtesseractのSRCディレクトリを指していました。 次のエラーを取得します。

bash: training/lstmtraining: No such file or directory

として実行

あなたの答え
  • 解決した方法 # 1

    次のコードで修正 最初にトレーニングデータを作成する

    cd ~/tesseract-ocr/src
          training/tesstrain.sh   \
           --fonts_dir /usr/share/fonts/ \
          --lang eng   \
          --linedata_only \
          --noextract_font_properties \
          --exposures "0"    \
          --langdata_dir /home/shan/langdata_lstm \
          --output_dir /home/shan/tesstutorial/engtrain  \
          --tessdata_dir /home/shan/tesseract-ocr/tessdata \
          --fontlist "Arial"
      sudo chmod -R 777 /home/shan/tesstutorial/engtrain
    
    

    次に、LSTMモデル

    sudo chmod -R 777 /home/shan/tesstutorial/
    cd ~/tesseract-ocr/src/
    training/lstmtraining --stop_training \
      --continue_from ~/tesstutorial/engoutput/base_checkpoint \
      --traineddata ~/tesstutorial/engtrain/eng/eng.traineddata \
      --model_output ~/tesstutorial/engoutput/eng.traineddata
    
    sudo chmod -R 777 ~/tesstutorial
    cd ~/tesseract-ocr/src/
    training/lstmtraining --debug_interval 100   \
    --traineddata ~/tesstutorial/engtrain/eng/eng.traineddata   \
    --net_spec '[1,36,0,1 Ct3,3,16 Mp3,3 Lfys48 Lfx96 Lrx96 Lfx256 O1c111]'   \
    --model_output ~/tesstutorial/engoutput/base --learning_rate 20e-4   \
    --train_listfile ~/tesstutorial/engtrain/eng.training_files.txt   \
    --max_iterations 5000 &>~/tesstutorial/engoutput/basetrain.log
    
    

関連記事

  • 前へ java - JPAクエリ:サブクエリをグループ化条件に結合する
  • 次へ Javaキーストアを使用せずにWebFluxを使用してAzure Kubernetes ServiceでSSL証明書を構成する方法はありますか?