Tipo Aquilo #40 — Androides lêem melhor com serifas elétricas?

May 25, 2021

Todo entusiasta de futurismo esbarrou ao menos uma vez no nome de Ray Kurzweil. É um sujeito de sorte por vários motivos; um deles é ter sido chegas de um tal de Stevie Wonder, só que chegas o suficiente pra que topasse fundar com ele uma fabricante de pianos digitais que leva seu sobrenome até hoje. Outro motivo é que suas dezenas de pesquisas no campo de inteligência artificial dos anos 60 até o fim dos anos 90 são relevantes até hoje pra todo mundo que estuda e desenvolve conhecimento nessa área; uma parte considerável do sucesso dos pianos da Kurzweil deve-se às suas pesquisas de sintetização de voz.

O terceiro motivo dele ser um sujeito de sorte é que, ao contrário de quase todo mundo que imagina que o futuro será uma droga (eu incluso), Kurzweil tem uma visão otimista. Ele vê a tecnologia como algo que dará ao ser humano mais tempo e liberdade para fazer as coisas que gosta, ao invés de perder tempo em tarefas repetitivas e pouco requerentes de atividade intelectual. Uma dessas tarefas que ele gostaria de tirar do ser humano é a de transcrever todo conhecimento escrito produzido pela humanidade desde o início da escrita, e para tal foi muito importante para a pesquisa de reconhecimento óptico de caracteres. Ou OCR, como é comumente chamado.

Um scanner de mão, voltado para reconhecimento óptico de caracteres.

Se pensarmos na tipografia apenas no aspecto micro, das letras e suas múltiplas formas, o OCR já compreende um grande desafio. Pense que um reconhecedor de caracteres precisará olhar cada unidade de texto e descobrir, por conta própria, qual é o caractere, a que sistema de escrita ele pertence, que posição ocupa no texto e qual a sua função, sejam letras, números, diacríticos, sinais de pontuação ou casos excepcionais. Multiplique esse esforço se colocarmos caligrafia casual na história. No aspecto macro da tipografia, a máquina também deve ser capaz de entender diagramação, hierarquia e disposição de elementos; grosso modo, saber identificar e diferenciar textos de títulos, títulos de subtítulos, diagramas e ilustrações. Tudo isso baseado apenas na imagem do texto, percebida por algum dispositivo óptico. Simples, não!?

As primeiras pesquisas com reconhecimento óptico de caracteres começaram no início do séc. XX, com as invenções de Emanuel Goldberg que buscavam caracteres em trechos específicos de microfilme que guardavam metadados de documentos de forma semelhante a cartões perfurados. As patentes de Goldberg foram adquiridas na década de 1930 pela IBM, que deu prosseguimento às pesquisas de reconhecimento de texto por máquinas. No entanto, elas precisavam ser “treinadas” para esse reconhecimento; por exemplo, se a máquina precisasse reconhecer um texto que usasse Helvetica e Times New Roman, ela precisava de cópias dessas fontes para aprender o desenho de cada caractere e, então, “ler” o texto. Era algo notável para a época, embora pareça trapaça hoje em dia.

A passagem da luz em trechos específicos de microfilme permitia a um sensor óptico ler o conteúdo de um documento gravado.

Na década de 60, máquinas de OCR eram responsáveis por organizar o envio e distribuição de correspondências nos EUA; o uso de máquinas como a Gismo facilitava o processamento de documentos digitados em máquinas de escrever, convertendo-os em dados digitais para os novos computadores. David Shepard, criador da Gismo, desenhou números de traços retos e geométricos, facilmente reconhecíveis por máquinas de OCR produzidas pela Farrington. Os números criados por Shepard em 1959 foram referência para outra fonte criada 9 anos depois, a OCR-A, voltada para leitura por humanos e máquinas de OCR. Ao contrário dos números de Shepard, a OCR-A compreendia todos os caracteres do alfabeto latino, além de caracteres especiais.

O desenho geométrico de traços retos e rígidos da OCR-A eram facilmente reconhecíveis pelos sensores de máquinas de OCR; no entanto, a legibilidade para seres humanos era complicada. Dois fatores que dificultavam a leitura eram a largura uniforme dos caracteres e o desenho sem curvas de letras como o /O, /Q e /S, diferentes do que estamos acostumados até mesmo em outras fontes mono-espaçadas. Anos mais tarde, ela foi transportada para formatos modernos de fontes, como TrueType e OpenType, sendo usada como um clichê de futuro, ficção científica e… sim, eu sei que você pensou nos créditos de Matrix junto daqueles caracteres verdes caindo da tela. Um abraço, e bem-vindo ao grupo de risco. ;)

“Farrington 7B font”, o set de números concebidos por David Shepard para o reconhecimento óptico de números de cartões de crédito.

Um trecho da sequência de créditos de Matrix utilizando a OCR-A. — Um trecho da sequência de créditos de *Matrix* utilizando a OCR-A.

No mesmo ano, Adrian Frutiger produziu para a Monotype a OCR-B, que contemplava as mesmas especificações de fontes para reconhecimento óptico, mas era mais fácil para a leitura humana, e tornou-se comum entre documentos oficiais. Se você tiver um passaporte, é muito provável que ele tenha uma tarja de controle com caracteres impressos em OCR-B. Vários projetos de fontes usam a OCR-B como referência para fontes amigáveis para máquinas e também para humanos, como a AnyOCR.

Esse uso de OCR treinado em tipos específicos de letras tornou-se muito ágil, sendo um componente imprescindível para a automação de várias tarefas, como captura de placas de trânsito em radares fixos e móveis, leitura de cheques (se você lembra, espero que esteja esperando a segunda dose) e demais papeis bancários, captura de documentos pessoais e contratos institucionais. Desenvolvedores independentes dispõem de vários frameworks (alguns de código aberto) para criar projetos que dependam da leitura de caracteres impressos.

Caracteres das fontes OCR-A, lançada em 1968 pela American Type Founders, e OCR-B, criada no mesmo ano por Adrian Frutiger para a Monotype.

Kurzweil, no entanto, tinha ambições maiores para o OCR, Ray queria que computadores fossem capazes de ler textos e documentos completos em qualquer fonte, a fim de ajudar deficientes visuais a ler livros, jornais e revistas. Por isso, conduziu várias pesquisas nas áreas de inteligência artificial voltada para leitura e sintetização de voz, lançando aplicativos de OCR que utilizavam computadores ligados a scanners. O processo de leitura e reconhecimento de caracteres era lento e dispendioso de recursos do computador, mas a precisão compensava.

O trabalho dele gerou dezenas de pesquisas na área, voltados para diversos fins; desde a promoção de acessibilidade a preservação de livros antigos em formato digital. Vários projetos, como o Internet Archive, o Project Gutenberg e o Google Books, ajudam pesquisadores e curiosos (como este que vos escreve) a encontrar mais conteúdo em fontes primárias. Ambos já salvaram algumas das edições do Tipo Aquilo, por exemplo. Na área de inteligência artificial, existem ferramentas de OCR para vários fins e meios, cada um com suas particularidades e modos de execução. O aplicativo do Google Translator, por exemplo, permite usar a câmera para traduzir textos em outra língua e exibir as traduções em realidade aumentada.

O aplicativo do Google Translator possui uma função de traduzir textos ao vivo com realidade aumentada, utilizando a câmera do dispositivo.

Se olharmos apenas para os aspectos benéficos de tudo que a tecnologia de OCR trouxe para a nossa vida, estaremos um tanto mais perto do futuro de Kurzweil, da singularidade tecnológica, transumanismo, unicórnios de origami e outras coisas que o capitalismo tardio colocará sua etiqueta de preço. Há algum tempo, o medo das pessoas era que, conforme as máquinas ganhassem inteligência própria, elas subjugariam a humanidade por alguma conclusão estranha de que, sendo superiores, as máquinas teriam direito de exterminar a humanidade. Não apenas esse medo é bobo, de certa forma, como o maior medo de qualquer pessoa é os proveitos excusos que as big techs têm ao explorar essa área — no mínimo, mais propaganda invasiva.

Recomendações:

🎧 Podcast: Tecnocracia #49, com Guilherme Felitti comentando a biografia de Aleksandar Mandic, outro sujeito de sorte a tornar nosso futuro um tanto melhor.
🎥 Vídeo: Computerphile, a explicação mais técnica possível para o funcionamento de sistemas de reconhecimento óptico de caracteres num computador.
🔗 Link: Project Gutenberg, que reúne e disponibiliza um grande acervo digitalizado de obras antigas.
🇧🇷 Fonte brazuca: Just Pixo, de Monica Rizzolli e Tony de Marco.

Nota do editor:

Oi! Ainda está aqui?

Já acabou!

Pode ir pra outro e-mail. É sério. ;)

Já que ainda está aqui, aguente só mais um pouco, não vou me alongar. Com essa nova onda de newsletters, eu tenho visto uma liberdade para os escritores de serem um pouco mais abertos com os inscritos em sentimentos e opiniões. Por mais que eu goste do foco do Tipo Aquilo de contar histórias e ligar pontos da história e sociedade com o design gráfico e tipografia, às vezes sinto falta de um espaço curto só pra falar qualquer coisa, aleatória ou não.

Aliás, acho que eu nunca tinha apresentado o Tipo Aquilo dessa forma; foi o que ele se tornou com o passar do tempo, e é o que sempre será das recomendações pra cima. O que eu gosto da história da escrita e das letras é que tem muito a contar além das coisas que parece que sempre estiveram por aí, despercebidas, mas importantes. É desse jeito que eu pretendo seguir, mesmo que o estilo mude um pouco com o tempo.

Tome este adendo, daqui pra frente, como uma nota posteriori do editor. Como sempre, quando quiserem sugerir temas, respostas para alguma dúvida, ou só dizer o que esperam do Tipo Aquilo para as próximas edições, fiquem à vontade para mandar um recado. =)

Escrito em 98963.28