C贸mo utilizar AWS Textract con S3

Este art铆culo demuestra c贸mo utilizar AWS Textract para extraer texto de documentos escaneados en un cubo S3, lo que va m谩s all谩 de la documentaci贸n de Amazon, donde s贸lo se utilizan ejemplos de una imagen. Incluido en este blog hay un fragmento de c贸digo de ejemplo usando AWS Python SDK Boto3 para ayudarle a empezar r谩pidamente.

Definiciones

  • Textract es un servicio que extrae autom谩ticamente texto y datos de documentos escaneados.
  • Simple Storage Service (S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento l铆deres del sector.

C贸digo

#!/usr/bin/env python3# Detecta el texto de un documento almacenado en un cubo S3.
sistema de importaci贸n
a partir de la importaci贸n de tiempo de sue帽o
importar matem谩ticas
importar pandas como pd
si __nombre__ == “__main__”:
bucket=tu_nombre_del_cubo
Tecla_ACCESO=su_tecla_de_acceso
SECRET_KEY=tu_llave_secreta.
cliente = boto3.client(textract,
region_name=su_regi贸n,
aws_acceso_clave_id=ACCESS_KEY,
aws_secret_access_key=SECRET_KEY)
s3 = boto3.resource(s3,
aws_acceso_clave_id=ACCESS_KEY,
aws_secret_access_key=SECRET_KEY)
tu_cubo = s3.Cubo(cubo)
datos_extractos = []
para s3_file en su_cubo.objetos.all():
print(s3_file)
# usar textract para procesar el archivo s3
respuesta = cliente.detect_document_text(
Document={S3Object: {Bucket: bucket, Name: s3_file.key}})
blocks=response[Blocks]
para bloque en bloques:
si el bloque[BlockType] != PAGE:
print(Detectado: + bloque[Text])
print(Confianza: + “{:.2f}”.format(block[Confianza]) + “%”)
# Ejemplo de caso en el que desea extraer palabras con #if(“#”en el bloque[Texto]):
palabras = bloque[Texto].split()
por palabras en palabras:
if(“#”en palabra):
extracted_data.append({“word” : word, “file” : s3_file.key, “confidence”: “{:.2f}”.format(block[Confidence]) + “%”})
# dormir 2 segundos para evitar el ProvisionedThroughputExceededException
dormir(2)
df = pd.DataFrame(extracted_data)
df = df.drop_duplicates()
df.to_csv(output.csv)

Cierre

Textract es una incre铆ble herramienta de OCR (reconocimiento 贸ptico de caracteres). Puede ahorrarle a su equipo incontables horas de trabajo automatizando la tediosa y propensa a errores de la entrada manual de datos.

Etiquetas

PythonTechCodingAwsOcrTextractS3Aws Textract