The content from the books of Embrapa’s 500 Questions 500 Answers Collection (<a href = "https://mais500p500r.sct.embrapa.br/">Coleção 500 Perguntas 500 Respostas</a>) was treated to be used in digital solutions. It is ready to be indexed and accessed via a search engine. Essential elements, such as images and HTML files, were extracted from the digital books available in Epub format. They were processed, analyzed and edited to provide well-formatted texts for indexing and use in search engines and other digital solutions. For each book from the collection, there are two files. The first one is in HTML format and contains metadata, such as title, editors, curators and digital book URLs, and the content of the book with questions, answers, numbers of the questions and chapters. The other file is generated from the first one to prepare the content to indexing in Elasticsearch technology (bulk file with '.txt' extension).
O conteúdo dos livros da (<a href = "https://mais500p500r.sct.embrapa.br/">Coleção 500 Perguntas 500 Respostas</a>, da Embrapa, foi tratado para ser usado em soluções digitais. Esse conteúdo está pronto para ser indexado e acessado por meio de um mecanismo de busca. Elementos essenciais, como arquivos HTML e imagens, foram extraídos dos livros digitais disponíveis no formato Epub. Foram processados, analisados e editados para fornecer textos bem formatados para indexação e uso em mecanismos de busca e outras soluções digitais. Para cada livro da coleção, há dois arquivos. O primeiro está em formato HTML e contém, além de metadados como título, editores, curadores e URLs para os livros digitais, o conteúdo do livro com perguntas, respostas, números das perguntas e capítulos. O outro arquivo é gerado a partir do primeiro para preparar o conteúdo para a indexação na techologia Elasticsearch (arquivo bulk com extensão '.txt').