Bách khoa toàn thư về an toàn cháy nổ

Làm cách nào để chuyển đổi tài liệu được quét sang định dạng Microsoft Word? Cách chỉnh sửa tài liệu scan trong word. Cách lưu tài liệu được quét ở định dạng word

Không phải lúc nào cũng có thể trích xuất văn bản từ tệp PDF bằng phương pháp sao chép thông thường. Thông thường các trang của tài liệu như vậy được quét nội dung của họ tùy chọn giấy. Để chuyển đổi các tệp như vậy thành dữ liệu văn bản hoàn toàn có thể chỉnh sửa, các chương trình đặc biệt có chức năng Nhận dạng ký tự quang học (OCR) được sử dụng.

Những giải pháp như vậy rất khó thực hiện và do đó tốn rất nhiều tiền. Nếu bạn thường xuyên cần nhận dạng văn bản từ PDF, bạn nên mua chương trình thích hợp. Đối với những trường hợp hiếm hoi, sẽ hợp lý hơn nếu sử dụng một trong những dịch vụ trực tuyến có sẵn với các chức năng tương tự.

Tất nhiên, bộ tính năng của các dịch vụ OCR trực tuyến bị hạn chế hơn so với các giải pháp máy tính để bàn chính thức. Nhưng bạn có thể làm việc với các tài nguyên như vậy hoàn toàn miễn phí hoặc với một khoản phí danh nghĩa. Điều chính là các ứng dụng web tương ứng thực hiện tốt nhiệm vụ chính của chúng, cụ thể là nhận dạng văn bản.

Phương pháp 1: ABBYY FineReader trực tuyến

Công ty phát triển dịch vụ là một trong những công ty hàng đầu trong lĩnh vực nhận dạng tài liệu quang học. cho Windows và Mac là một giải pháp mạnh mẽ để chuyển đổi PDF thành văn bản và tiếp tục làm việc với nó.

Tất nhiên, tương tự web của chương trình kém hơn về chức năng. Tuy nhiên, dịch vụ có thể nhận dạng văn bản từ bản quét và ảnh bằng hơn 190 ngôn ngữ. Hỗ trợ chuyển đổi tệp PDF thành tài liệu, v.v.


Dịch vụ này được phân biệt bởi các thuật toán nhận dạng văn bản có lẽ là chính xác nhất cho hình ảnh và tệp PDF. Nhưng thật không may, việc sử dụng miễn phí của nó bị giới hạn ở năm trang được xử lý mỗi tháng. Để làm việc với các tài liệu lớn hơn, bạn sẽ phải mua đăng ký hàng năm.

Tuy nhiên, nếu hiếm khi cần đến chức năng OCR, thì ABBYY FineReader Online là một tùy chọn tuyệt vời để trích xuất văn bản từ các tệp PDF nhỏ.

Phương pháp 2: OCR trực tuyến miễn phí

Một dịch vụ đơn giản và thuận tiện để số hóa văn bản. Không cần đăng ký, tài nguyên cho phép bạn nhận dạng 15 trang PDF đầy đủ mỗi giờ. OCR trực tuyến miễn phí hoàn toàn hoạt động với các tài liệu bằng 46 ngôn ngữ và không cần ủy quyền hỗ trợ ba định dạng xuất văn bản - DOCX, XLSX và TXT.

Khi đăng ký, người dùng có cơ hội xử lý các tài liệu nhiều trang, tuy nhiên, số lượng miễn phí của các trang tương tự này bị giới hạn ở 50 đơn vị.



Nếu bạn cần trích xuất văn bản từ một tài liệu PDF nhỏ, bạn có thể sử dụng công cụ trên một cách an toàn. Để làm việc với các tệp lớn, bạn sẽ phải mua các ký tự bổ sung trong OCR trực tuyến miễn phí hoặc sử dụng giải pháp khác.

Phương pháp 3: NewOCR

Một dịch vụ OCR hoàn toàn miễn phí cho phép bạn trích xuất văn bản từ hầu hết mọi tài liệu đồ họa và điện tử như DjVu và PDF. Tài nguyên không áp đặt các hạn chế về kích thước và số lượng tệp được nhận dạng, không yêu cầu đăng ký và cung cấp nhiều chức năng liên quan.

NewOCR hỗ trợ 106 ngôn ngữ và có thể xử lý chính xác ngay cả các bản quét tài liệu chất lượng thấp. Có thể tự chọn khu vực để nhận dạng văn bản trên trang tệp.


Công cụ này thuận tiện và nhận dạng tất cả các ký tự với đủ chất lượng. Tuy nhiên, quá trình xử lý từng trang của tài liệu PDF đã nhập phải được bắt đầu độc lập và nó được xuất thành một tệp riêng biệt. Tất nhiên, bạn có thể sao chép ngay kết quả nhận dạng vào khay nhớ tạm và hợp nhất chúng với những kết quả khác.

Tuy nhiên, với sắc thái được mô tả ở trên, rất khó để trích xuất một lượng lớn văn bản bằng NewOCR. Với các tệp nhỏ, dịch vụ sẽ xử lý tốt.

Phương pháp 4: OCR.Space

Một tài nguyên đơn giản và dễ hiểu để số hóa văn bản, cho phép bạn nhận dạng các tài liệu PDF và xuất kết quả thành tệp TXT. Không có giới hạn trang. Hạn chế duy nhất là kích thước của tài liệu đầu vào không được vượt quá 5 megabyte.


Nếu bạn chỉ cần trích xuất văn bản từ PDF và định dạng cuối cùng không quan trọng chút nào, OCR.Space là một lựa chọn tốt. Điều duy nhất là tài liệu phải là "đơn ngữ", vì dịch vụ không cung cấp dịch vụ nhận dạng hai hoặc nhiều ngôn ngữ cùng một lúc.

Xin chào, độc giả blog thân mến. Hôm nay tôi muốn nói với bạn về một số dịch vụ mà tôi đã đánh dấu trong một thời gian dài. Nó sẽ là về các dịch vụ nhận dạng văn bản trực tuyến.

Chắc hẳn ai cũng từng gặp trường hợp muốn viết lại một đoạn văn bản nào đó từ một bức tranh hoặc file PDF MỘT. Nó có thể là một số tài liệu hoặc chỉ là một trích dẫn đẹp. Tôi đã gặp rất nhiều trường hợp như vậy và tôi luôn được các dịch vụ OCR giải cứu. Tất nhiên, có những chương trình cho mục đích này, nhưng tôi thích những chương trình này hơn nhiệm vụ đơn giản làm trực tuyến.

Dưới đây, bạn có thể thấy danh sách các dịch vụ giúp dễ dàng nhận dạng văn bản từ hình ảnh. Tất cả các dịch vụ là hoàn toàn miễn phí và không yêu cầu đăng ký.

Nguyên tắc của dịch vụ rất đơn giản. Bạn tải lên một hình ảnh có chứa văn bản, dịch vụ sẽ xử lý nó và cung cấp cho bạn văn bản hoàn chỉnh, giúp bạn không phải viết lại nó. Chất lượng nhận dạng văn bản từ một hình ảnh trực tiếp phụ thuộc vào chất lượng của chính hình ảnh đó.

Tôi có thể nhận dạng văn bản từ tệp PDF, ảnh hoặc ảnh miễn phí ở đâu

Vì vậy, đây là danh sách các dịch vụ:

- cho phép bạn nhận dạng văn bản miễn phí từ hình ảnh ở các định dạng như: JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu. Dịch vụ hỗ trợ nhiều ngôn ngữ. Sau khi nhận dạng văn bản từ ảnh, bạn có thể sao chép và dán văn bản đó vào tài liệu của mình.

- tương tự như dịch vụ trước đó, với điểm khác biệt duy nhất là ở đây, văn bản được nhận dạng có thể được tải xuống ở các định dạng Phần mềm soạn thảo văn bản(docx), Microsoft Excel (xlsx), Văn bản thuần túy (txt).

là dịch vụ hỗ trợ các định dạng jpg, png, bmp, pdf, jpeg, tiff, tif và gif. Có ít ngôn ngữ nhận dạng hơn một chút so với các dịch vụ trước đây, nhưng cũng có rất nhiều. Bạn có thể tải xuống bài kiểm tra được công nhận ở định dạng txt.

- một dịch vụ hỗ trợ hơn 60 ngôn ngữ. Ngoài chức năng chính là nhận dạng văn bản từ hình ảnh còn có các công cụ như:

  • Chuyển đổi một trang web thành PDF;
  • Chuyển đổi trang web thành hình ảnh (ảnh chụp màn hình);
  • Trình tạo nút CSS3;
  • Bàn phím quốc tế;
  • Chuyển đổi định dạng hình ảnh;

Chất lượng trích xuất văn bản từ hình ảnh

Tôi không nhận thấy nhiều sự khác biệt về chất lượng nhận dạng văn bản trên hình ảnh giữa các dịch vụ, vì vậy tôi sẽ chỉ lấy dịch vụ đầu tiên làm ví dụ.

Ví dụ, tôi đã chụp một vài hình ảnh kích cỡ khác nhau và chất lượng của văn bản hiển thị.

Hình ảnh 1 (790 X 588 px)

Hình ảnh 2 (793 X 1024 px)

Hình 3 (600 X 350 px)

Và đây là kết quả của chính văn bản mà dịch vụ đã nhận ra trong ảnh.

Kết quả 1 hình ảnh:

Đã 25 năm không có
du thuyền và nhà riêng
bên đại dương, ý nghĩ về
ngừng bán thận
có vẻ mất trí.

Trong hình ảnh đầu tiên, văn bản được nhận dạng hoàn hảo và không có lỗi.

Kết quả 2 hình ảnh:

thực đơn B đêm giao thừa
Tôi là một ly cocktail hóa trị ba
(Sâm panh Liên Xô) 150 gr.
Muối lên men, tự làm. 60/1 gr.
Nấm từ hầm.
nấm Yassorti az maranovannsk. 64,5 gam.
h Thịt Yassorta (thịt bò nướng, lưỡi buyakenan) 85 gr.
Cá trích với khoai tây và hành tím. 100 gam
Cá hồi Kamchatka với các loại thảo mộc hoang dã 58,5 gr.
Cá trích dưới một chiếc áo khoác lông thú. 200 gam
Aspic, với thịt. 182 gam
Thịt Olivier 150 gr.
xà lách với ức gà và nấm 150 gr.
bình trái cây
(nho, lê, chuối, táo, cam, kawi) 375 gr.
Kí giỏ 85 gr.
Kulebyaka với cá hồi và zander hoặc 212 gr.
Tovyadana với kem chua và phô mai khoai tây
gratin sốt vang đỏ 247 gr.
Lê nướng với rượu vang đỏ
kem và Quả óc chó 142 gam
nước giải khát
Rượu sâm panh (tiếng Nga polsl. 750 gr.
7 (Vodka Luntika 500 gr.
(Vano Red Unduraga khô, 750 gr.
Fano *Trắng (Cành Unduraga. 750 gr.
$ ode với gas 600 gr.
Foda không gas 600 gr. ., Số 3
3 \ . , ‘ , :Morse (công nghiệp) 1000 gr.»?`
Nước trái cây/‘!pelsan (2l.) 2000 gr.

Ở đây bạn có thể thấy sự hiện diện của các lỗi. Điều này là do tính đặc thù của phông chữ và độ tương phản của văn bản trên nền chính.

Kết quả 3 hình ảnh:

Đối với mặt nạ dưỡng chất để cung cấp cho làn da của bạn
có kho vũ khí hữu ích của bạn, điều quan trọng là
7 mang chúng một cách chính xác. Đây là những khoảnh khắc
phải được tính đến khi
b; _ Mặt nạ dưỡng da Evaiii.
Bạn không thể ăn mặt nạ x
đau, họ
“chuẩn bị trước
Chotsedura
e_ trước khi đắp mặt nạ dưỡng
[Khuôn mặt nên được chà và nhẹ

mặt nạ dưỡng da mặt kéo dài 20
minu 'sau đó nó được rửa sạch nước ấm
trong vòng một giờ sau khi sử dụng
mặt nạ dưỡng da trên đường phố, tốt nhất là không
đi ra ngoài
chi phí sử dụng mặt nạ dưỡng cho
và khuôn mặt - 2-3 mỗi tuần
sử dụng nguyên tắc - bạn làm điều đó trong hai tuần

Trong ví dụ thứ ba, phía bên trái của cột có độ tương phản kém nên hoàn toàn không nhận ra một số từ.

Dựa trên ba ví dụ này, chúng ta có thể rút ra một kết luận đơn giản - văn bản trên hình ảnh càng rõ ràng và rõ ràng thì khả năng nhận dạng văn bản sẽ càng tốt. Phần lớn cũng phụ thuộc vào phông chữ của văn bản. Nếu phông chữ đơn giản, thì dịch vụ sẽ đọc nó mà không gặp khó khăn, nhưng phông chữ càng phức tạp thì càng có nhiều lỗi trong quá trình nhận dạng văn bản.

Nếu bạn chọn cách viết nhanh một chương lý thuyết, mà chúng ta đã nói ở đoạn 2.1., rất có thể bạn sẽ không làm được nếu không quét tài liệu. Nếu không, bạn có thể bỏ qua điểm này và bắt đầu ghi chú trên các tài liệu tìm thấy trong thư viện.

Trước khi bắt đầu quét, bạn cần quyết định chính xác những gì bạn muốn sử dụng khi viết tác phẩm của mình. Và để làm được điều này, trước tiên bạn phải xem tài liệu có sẵn và dùng bút chì đánh dấu những điểm cần thiết.

Lần đầu tiên khi tôi đọc lướt qua một bài báo trên tạp chí cho bài báo học kỳ đầu tiên của mình, đó là một nhiệm vụ khó khăn ngoài sức tưởng tượng đối với tôi. Sau vài giờ làm việc với máy quét và FineReader, tôi đã có được những thứ vô nghĩa không thể chỉnh sửa. Cuối cùng, tôi phải nhặt mọi thứ bằng tay. Để ngăn điều này xảy ra với bạn, hãy xem xét kỹ hơn mọi thứ. điểm kỹ thuật quét.

Để quét, tất nhiên, chúng tôi cần một máy quét. Nó không phải được mua. Ví dụ, bạn có thể vay một khoản tiền từ một người bạn trong một thời gian. Tôi sử dụng máy quét CanoScan Lide 60. Tuy không phải là model mới nhất nhưng tôi rất thích “thiết bị” nhỏ gọn, nhanh và dễ sử dụng này. Nếu bạn mượn một máy quét, để nó hoạt động, trước tiên bạn phải cài đặt chương trình điều khiển. Trình điều khiển và hướng dẫn cài đặt luôn có thể được tìm thấy tại đĩa cài đặt, được gắn vào thiết bị hoặc tải xuống từ trang web của nhà sản xuất. Sau khi cài đặt trình điều khiển, kết nối máy quét với máy tính bằng dây kết nối. Bây giờ bạn có thể bắt đầu quét trực tiếp.

Nhưng trước tiên, một số lý thuyết. Bạn nên biết rằng quá trình quét bao gồm hai bước:

1. Quét trực tiếp tài liệu. Ở giai đoạn này, máy quét sẽ chụp ảnh bề mặt của tài liệu được quét và lưu hình ảnh thu được vào máy tính dưới dạng tệp .jpg .gif thông thường hoặc ở định dạng khác;

2. Nhận dạng tài liệu. Đây là quá trình chuyển đổi văn bản từ hình ảnh do máy quét chụp thành bài kiểm tra thông thường, sau đó có thể lưu trong Word và chỉnh sửa. Việc nhận dạng được thực hiện mà không có sự tham gia của máy quét, sử dụng một chương trình đặc biệt (phổ biến nhất là Adobe FineReader). Do đó, trước tiên bạn có thể quét một vài trang văn bản và lưu chúng dưới dạng hình ảnh, sau đó mới chuyển đổi chúng thành văn bản.

Vì vậy, chúng ta hãy bắt đầu bước một - quét:

- chạy trình điều khiển máy quét: Bắt đầu - Tất cả Chương trình - Canon - ScanGear(Tôi chỉ định tên của trình điều khiển cho máy quét của tôi). Cửa sổ trình điều khiển sẽ xuất hiện:

- mở nắp máy quét và đặt một cuốn sách, tạp chí hoặc bản sao của chúng có văn bản hướng xuống, càng gần các cạnh của bề mặt làm việc của máy quét càng tốt:

Ở đây, điều rất quan trọng là phải đảm bảo rằng nắp máy quét ấn tài liệu được quét càng chặt càng tốt, tránh ánh sáng bên ngoài Không bề mặt làm việc máy quét tiếp xúc với tài liệu;

– thực hiện các cài đặt cần thiết trong trình điều khiển máy quét. Bước đầu tiên là đặt độ phân giải mà tài liệu sẽ được quét. Độ phân giải là thước đo xác định mức độ chi tiết của một đối tượng khi nó được quét và được đo bằng số chấm trên mỗi inch (dpi hoặc dpi). Độ phân giải càng cao thì chất lượng hình ảnh càng tốt. Tuy nhiên, khi quét các tài liệu văn bản, sẽ không có ý nghĩa gì khi đặt độ phân giải tối đa, vì điều này sẽ không có tác dụng gì. Ngoài ra, quét ở độ phân giải cao hơn sẽ mất nhiều thời gian hơn. Tôi khuyên bạn nên đặt độ phân giải trong khoảng 400-500 dpi. Với cài đặt này, hình ảnh có chất lượng đủ để nhận dạng tốt và quá trình quét không mất nhiều thời gian. Tôi khuyên bạn nên xem ảnh chụp màn hình cài đặt máy in của mình:


Để bắt đầu, bạn cần vào "Chế độ nâng cao". Nguồn sẽ luôn luôn "Viên thuốc"(máy quét phẳng). Chế độ màu tốt hơn để thiết lập "Đen và trắng", bởi vì chúng tôi không cần màu sắc để quét văn bản và điều này sẽ làm giảm kích thước của hình ảnh đầu ra. Quyền, như tôi đã nói, nên được đặt 400 tấn/ngày. Kích thước hình ảnh đầu ra - Bắt buộc "A4". Bây giờ bạn có thể nhấn nút một cách an toàn "Quét". Máy quét của tôi được thiết kế theo cách đầu tiên nó ghi nhớ các hình ảnh được quét trong quá trình quét. bộ nhớ trong, và chỉ khi đóng cửa sổ trình điều khiển mới đề nghị lưu chúng vào máy tính. Tôi chỉ có thể chỉ định nơi lưu kết quả công việc.

Bạn sẽ nhận được các tập tin như thế này:

Khi một hình ảnh như vậy được phóng to, văn bản sẽ được hiển thị rõ ràng.

Giai đoạn thứ haisự công nhận nhận được hình ảnh và chuyển đổi chúng thành văn bản. Như tôi đã nói, điều này sẽ yêu cầu chương trình đặc biệtFineReader. Tải xuống chương trình từ liên kết này (32Mb). Mật khẩu lưu trữ - trang web. Phiên bản mình gợi ý không cần cài đặt (portable). Sẽ có nhiều tệp khác nhau trong thư mục chương trình, nhưng bạn chỉ cần một - FineReader.exe. Nhấp đúp vào tệp này sẽ khởi chạy chương trình trên máy tính của bạn.

Phiên bản này của chương trình là khá cũ. Tôi đã chụp tất cả các ảnh chụp màn hình bên dưới bằng cách sử dụng nó. Nếu phiên bản này FineReader nó không khởi động cho bạn - hãy chọn một cái mới hơn.

Cửa sổ FineReader có dạng sau:

Sau khi cài đặt ngôn ngữ in tài liệu bạn đã quét trước đó, bạn có thể bắt đầu nhận dạng. Nếu văn bản chứa hai ngôn ngữ cùng một lúc (ví dụ: tiếng Nga và tiếng Anh), hãy thực hiện cài đặt tương ứng.

Để bắt đầu nhận dạng, nhấp vào mũi tên ở bên phải của nút đầu tiên Quét- và sau đó - Mở hình ảnh:

Cửa sổ lựa chọn hình ảnh sẽ mở ra. Mở thư mục mà bạn đã lưu các hình ảnh đã quét, nhấp vào CTRL+A(Tiếng Anh) trên bàn phím và nhấn nút Mở.

Sau đó, ở bên trái trong cửa sổ FineReader hình thu nhỏ của các tệp đã thêm sẽ xuất hiện, ở giữa - trên thời điểm này hình thu nhỏ đã chọn được phóng to, ở dưới cùng có độ phóng đại thậm chí còn lớn hơn và bên phải là kết quả nhận dạng:

Ví dụ, tôi chỉ chụp hai hình ảnh. Trong ảnh chụp màn hình ở trên, cái đầu tiên trong số chúng được đánh dấu và bây giờ chúng tôi nhận ra nó. Như bạn có thể thấy, hình ảnh được quét theo chiều dọc, để nhận dạng văn bản, trước tiên hình ảnh phải được xoay 90 độ. Để thực hiện việc này, hãy sử dụng các nút và . Bước tiếp theo là cho chương trình biết phần nào của hình ảnh cần được nhận dạng, đồng thời đặt loại dữ liệu sẽ là văn bản, bảng hoặc hình ảnh đầu ra. Có các nút tương ứng cho việc này: . Ví dụ: nếu bạn cần đánh dấu một khối văn bản, hãy nhấp chuột trái vào , sau đó nhấp chuột trái vào góc trên bên trái của khối văn bản và giữ nút bên trái, kéo nó xuống góc dưới bên phải. Ví dụ: tôi đã chuẩn bị đầy đủ một hình ảnh để nhận dạng:

Như bạn có thể thấy, tất cả các khối văn bản trong ví dụ trên được đánh dấu bằng màu xanh lá cây, trong khi các hình ảnh được đánh dấu bằng màu đỏ. Các bảng được chuẩn bị để nhận dạng theo cách tương tự. Nút được dành cho việc này. Để chuyển sang ảnh tiếp theo, nhấp chuột trái vào hình thu nhỏ của nó ở bên trái. Do đó, tất cả các hình ảnh thu được từ quá trình quét đều được chuẩn bị để nhận dạng. Sau khi hoàn thành việc chuẩn bị hình ảnh, tất cả chúng sẽ được chọn. Để thực hiện việc này, nhấp chuột trái vào một khoảng trống trên bảng hình thu nhỏ (nó được gọi là túi nhựa) và hãy nhấn Ctrl+A(tiếng Anh) trên bàn phím. Tiếp theo, nhấp vào nút và đợi cho đến khi FineReader chuyển đổi hình ảnh thành văn bản. Sau đó, bạn có thể lưu văn bản đã nhận trong Word bằng nút, sau khi nhấp vào cửa sổ sẽ mở ra. Trong đó, bạn phải chọn định dạng để lưu - Microsoft Word, đồng thời đánh dấu vào ô để lưu tất cả các trang:

Sau khi nhấn nút ĐƯỢC RỒI chương trình sẽ tạo một tài liệu Word và chèn văn bản từ các trang được nhận dạng vào đó theo thứ tự chúng có trong bảng hình thu nhỏ (Batch). Lưu tài liệu kết quả ngay lập tức vào một thư mục trong cấu trúc tệp luận án và bạn có thể bắt đầu chỉnh sửa. Làm thế nào điều này được thực hiện được mô tả trong tôi khóa học miễn phí.

Và khoảnh khắc cuối cùng. Nếu bạn quét một tờ báo hoặc tạp chí, văn bản thường được đưa ra trong các cột (như trong ví dụ trên). Các cột này trong Word cần được chuyển đổi thành một. Chọn văn bản trong các cột và chạy lệnh: Định dạng - Cột - Một - OK. Chỉ sau đó, bạn mới có thể đặt hướng Chân dung trong Thiết lập trang, thụt lề lề, phông chữ, v.v.

Cách quét và nhận dạng tài liệu trong MS Word

Chương trình nhận dạng văn bản quang học. ABBYY FineReader có thể nhận dạng văn bản từ tài liệu giấy được quét, tệp PDF và tài liệu được chụp bằng máy ảnh kỹ thuật số. Các tài liệu văn bản được chương trình nhận dạng có thể được chỉnh sửa thêm bằng các ứng dụng Microsoft Office. Nếu cần, toàn bộ cấu trúc xử lý tài liệu sẽ được lưu trong quá trình nhận dạng văn bản. FineReader hoạt động với tất cả các kiểu máy quét hiện đại và thiết bị đa chức năng (MFP) phổ biến. Nếu người dùng cần quét và nhận dạng một số lượng lớn các trang văn bản, chương trình cung cấp một chế độ đặc biệt để làm việc với máy quét tự động (máy quét có khay nạp giấy tự động). Chương trình có thể nhận dạng văn bản trong các tệp có định dạng sau: PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG, DjVu, nếu cần, hình ảnh kỹ thuật số sẽ được xử lý để cải thiện chất lượng nhận dạng văn bản quang học (hình ảnh có thể được cắt, xóa các phần tử không cần thiết, loại bỏ sự không chính xác, biến dạng dòng, xoay hoặc phản chiếu).

Chương trình này là một ứng dụng toàn diện để làm việc với các tài liệu văn bản. Mục đích chính của nó là nhận dạng ký tự quang học. Người tạo ra chương trình là công ty ABBYY Software của Nga (công ty hàng đầu thế giới về hệ thống nhận dạng). Ứng dụng thực hiện dịch nhanh và chính xác các tài liệu được quét sang định dạng có thể chỉnh sửa, đồng thời duy trì tất cả các chi tiết ban đầu của nguồn. FineReader có thể nhận dạng tệp PDF, ảnh kỹ thuật số và tài liệu giấy. Chương trình tái tạo một cách trung thực giao diện của nguồn gốc, hỗ trợ nhận dạng văn bản bằng 186 ngôn ngữ và xuất trực tiếp sang các ứng dụng Microsoft Office.

Ứng dụng giải quyết các tác vụ như: tạo và chỉnh sửa tài liệu điện tử dựa trên nguồn giấy, chuyển đổi tài liệu chất lượng kém sang định dạng có thể chỉnh sửa, xử lý tài liệu có cấu trúc nội dung phức tạp, bao gồm bảng biểu, hình minh họa, sơ đồ, v.v., tìm kiếm và chỉnh sửa văn bản ở bất kỳ định dạng nào. Theo hầu hết các chuyên gia, chương trình này là tốt nhất trong lĩnh vực của nó.

Nếu chúng ta nói về thực tiễn sử dụng chương trình này trong Runet, thì nhiều người dùng đã biết đến chương trình này từ lâu Fine Reader (bản dịch tên tiếng Nga), mục đích chính là thực hiện cái gọi là nhận dạng văn bản quang học. Nói một cách đơn giản, với sự trợ giúp của chương trình này, bất kỳ văn bản nào được in trên giấy đều có thể được chuyển đổi thành một trong định dạng điện tử. phiên bản mới nhất Chương trình được phân biệt không chỉ bởi giao diện được cập nhật và thuận tiện hơn mà còn bởi chức năng được cải thiện.

Trên thực tế, tất cả các hành động cơ bản có thể được thực hiện chỉ bằng một cú nhấp chuột, thao tác này chọn một trong các hành động được cung cấp khi khởi động chương trình. Trong số đó có khả năng quét tài liệu sang định dạng .doc, chuyển đổi ảnh, quét sang Excel, lưu ảnh và quét chúng, nhận dạng ảnh, v.v. Để cải thiện khả năng sử dụng của chương trình, không gian làm việc đã được mở rộng và các nút khởi chạy một hành động cụ thể hiện có trên thanh bên.

Để không làm phức tạp người dùng, theo mặc định, tất cả các tệp anh ta mở sẽ tự động được nhận dạng. Nếu cần, người dùng có kinh nghiệm có thể thực hiện các điều chỉnh sâu đối với chức năng FineReader. Và làm việc với hình ảnh đã được đơn giản hóa rất nhiều nhờ hộp thoại mới. Sử dụng ứng dụng cho phép bạn nhận dạng tài liệu được viết bằng nhiều ngôn ngữ, chuyển đổi tệp PDF, nhận dạng mã vạch và tiến hành tìm kiếm hình thái. Và mặc dù nó là xa danh sách hoàn thành khả năng của nó, chỉ riêng điều này thôi cũng có thể khiến nhiều người dùng cài đặt Fine Reader thường xuyên và sử dụng nó khi cần.

Và tóm tắt những điều trên, chúng ta có thể phác thảo ngắn gọn chức năng như sau: chương trình này được sử dụng để nhận dạng quang học các tài liệu văn bản khác nhau. Khi nhận dạng văn bản, chương trình giữ nguyên định dạng và thiết kế ban đầu của tài liệu (văn bản màu, văn bản trên nền ảnh, các kiểu phông chữ khác nhau, văn bản bao quanh ảnh, bảng, v.v.). FineReader có thể hoạt động với các tài liệu giấy được quét (hỗ trợ hầu hết tất cả các mẫu máy quét và thiết bị đa chức năng phổ biến), với các tài liệu được chụp máy ảnh kĩ thuật số, nhận dạng văn bản và đồ họa từ tệp PDF. Nó cũng xuất kết quả OCR sang các ứng dụng văn phòng phổ biến: Word, Excel, PowerPoint, Lotus Word Pro, Corel WordPerfect, OpenOffice. Văn bản được nhận dạng có thể được lưu ở nhiều định dạng khác nhau: PDF, PDF/A, DOCX, XLSX, RTF, DOC, XLS, CSV, TXT, HTML, Unicode TXT, Word ML, LIT, DBF.

1. Chọn một tệp PDF hoặc tệp hình ảnh cho OCR.
2. Nhấn nút nhận ra.




7. Công dụng đối với sức khỏe

1. Chọn một tệp ZIP có chứa hình ảnh để nhận dạng. Chỉ có thể nhận dạng 20 tệp cùng một lúc.
2. Nhấn nút nhận ra.
3. Tệp được gửi đến máy chủ của chúng tôi và quá trình nhận dạng bắt đầu ngay lập tức.
4. Tốc độ nhận dạng phụ thuộc vào kích thước của tệp, tốc độ kết nối Internet của bạn và các tài nguyên có sẵn trên máy chủ của chúng tôi.
5. Khi quá trình nhận dạng hoàn tất, tệp sẽ trở lại cùng một cửa sổ trình duyệt (không đóng trình duyệt của bạn).
6. Nếu không thể nhận dạng, lý do sẽ được chỉ định bằng màu đỏ.
7. Công dụng đối với sức khỏe

Chọn tệp PDF hoặc tệp hình ảnh để nhận dạngChỉ hỗ trợ các tệp PDF/JPG/JPEG/PNG/BMP/GIF/TIF/TIFF

Русский Tiếng Anh Tiếng Đức Tiếng Pháp Tiếng Tây Ban Nha Tiếng Ý Bỉ Tiếng Ả Rập Tiếng Trung Tiếng Trung giản thể Tiếng Hindi Tiếng Indonesia Tiếng Tamil Tiếng Telugu Tiếng Bồ Đào Nha Tiếng Malaysia Tiếng Ukraina

Đang tiến hành công nhận


Nó có thể mất vài phút

Trang này chỉ có thể nhận ra PDF JPG JPEG PNG BMP gif TIF.

  • Để chuyển đổi MS Word (DOC DOCX) sang PDF, hãy sử dụng liên kết Word to PDF.
  • Để chuyển đổi RTF ODT MHT HTM HTML TXT FB2 DOT DOTX XLS XLSX XLSB ODS XLT XLTX PPT PPTX PPS PPSX ODP POT POTX sang PDF, hãy sử dụng liên kết Other Documents to PDF.
  • Để chuyển đổi JPG JPEG PNG BMP GIF TIF TIFF sang PDF, hãy sử dụng liên kết Image to PDF.
  • Để trích xuất văn bản từ tài liệu PDF sử dụng liên kết PDF trong TXT.
  • Để chuyển đổi DOC DOCX RTF ODT MHT HTM HTML TXT FB2 DOT DOTX sang DOC DOCX DOT ODT RTF TXT hoặc XLS XLSX XLSB XLT XLTX ODS sang XLS XLSX hoặc PPT PPTX PPS PPSX ODP POT POTX sang PPT PPTX PPS PPSX JPG TIF PNG GIF BMP, hãy sử dụng liên kết Định dạng khác.
  • Để chuyển đổi DOC DOCX DOT DOTX RTF ODT MHT HTM HTML TXT sang FB2, hãy sử dụng liên kết Tài liệu sang FB2.
  • Để chuyển đổi JPG JPEG JFIF PNG BMP GIF TIF ICO sang các định dạng khác, hãy sử dụng liên kết Chuyển đổi hình ảnh.
  • Để chuyển đổi PDF sang MS Word (DOC, DOCX), hãy sử dụng liên kết Convert PDF to Word.
  • Để chuyển đổi PDF sang JPG, hãy sử dụng liên kết Chuyển đổi PDF sang JPG.
  • Để chuyển đổi DJVU sang PDF, hãy sử dụng liên kết Chuyển đổi DJVU sang PDF.

Chọn kho lưu trữ ZIP để nhận dạngChỉ các tệp ZIP được hỗ trợ

Русский Tiếng Anh Tiếng Đức Tiếng Pháp Tiếng Tây Ban Nha Tiếng Ý Bỉ Tiếng Ả Rập Tiếng Trung Tiếng Trung Giản thể Tiếng Hindi Tiếng Indonesia Tiếng Bồ Đào Nha Tiếng Malaysia Tiếng Ukraina

Bài viết tương tự