Вы здесьПо рукам надавать за такое разпознавание текста
Опубликовано сб, 14/03/2009 - 11:54 пользователем Psychedelic
Вот есть книга http://lib.rus.ec/b/141245 Цитата:
Как только начинашь перевод в fb2, начинаются сущие мучения, т.к. автомат не подхватывает 80% текста.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 20 часов
weis RE:Прошу переформатировать, распознать, etc... 2 недели larin RE:Заплатила, а абонемента нет и скачать ничего не могу! 4 недели sibkron RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц akorish RE:Регистрация 1 месяц Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 месяц Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 месяц konst1 RE:Ух, как я не люблю спамеров! 1 месяц tvv RE:DNS 2 месяца sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 2 месяца larin RE:Заблокирован 2 месяца konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 3 месяца Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 3 месяца fixel RE:Пропал абонемент 3 месяца sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 4 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 4 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 5 месяцев sem14 RE:Серия "Символы времени" издательства "Аграф" 5 месяцев Впечатления о книгах
udrees про Михайлов: Пепел доверия-3 (Боевая фантастика, Ужасы, Постапокалипсис, Самиздат, сетевая литература)
28 06 Отличная третья книга из серии про зомбиапокалипсис, хотя конечно там не совсем зомби. Но такого описания конца света в стиле «зомби» и таких противников мне еще не встречалось. Слишком сильных, быстрых, пока не умных и многочисленных. ……… Оценка: отлично!
udrees про Атаманов: Стратег из ниоткуда. Книга третья (Героическая фантастика, Фэнтези, Самиздат, сетевая литература)
28 06 Все отлично. Написано просто, живо, увлекательно. Персонажи тоже яркие и уникальные, как люди, так и нелюди. Предоставленные герою умения оказываются очень полезными в схватке с главными противниками, фактически, помогают ……… Оценка: отлично!
udrees про Каменистый: Рунный практик (Боевая фантастика, Фэнтези, Попаданцы, ЛитРПГ)
28 06 Прекрасное продолжение. Конечно это приключение, где у главного героя все получается, все срабатывает в нужный момент, и как у Бэтмена, для подходящего случая всегда припасен нужный гаджет в кармане, очень кстати оказавшийся ……… Оценка: отлично!
udrees про Мантикор: Тьма в отражении (Боевая фантастика, Технофэнтези, ЛитРПГ, Самиздат, сетевая литература)
28 06 Автор продолжает свое повествование, правда вся книга будет скорее не про путь вниз, а наверх и вбок. Все написано в том же стиле, увлекательно с описанием новых мест и монстров. Глав с перечислением характеристик всех героев ……… Оценка: отлично!
udrees про Мантикор: Истинный враг (Боевая фантастика, Технофэнтези, ЛитРПГ, Самиздат, сетевая литература)
28 06 Продолжение увлекательное, стиль повествования все такой же, но на сей раз действий больше, чем разговоров. Отряд героя продолжает спуск по Стене, и сейчас каждый уровень является обиталищем самых опасных монстров. Но как ……… Оценка: отлично!
trampak про Мясников: Великая Отечественная. 10 000 фактов о войне (История)
27 06 Россия никогда не начинает войн, она их завершает."- эта лживая фраза ставит под сомнение , что автор историк. А кто соврал однажды... Оценка: нечитаемо
Paul von Sokolovski про Логинов: Свет в окошке (Социальная фантастика)
27 06 Очень хорошая, тяжёлая и светлая книжка. То, что все знают - мы живы, пока о нас помнят... у Логинова получает некоторое материальное (?) воплощение. Как быстро мы развеемся? И кто будет помнить нас? Читать, или хотя бы пробовать - всем, всем, всем.
Олег Макаров. про Борчанинов: Лейтенант космического флота [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
26 06 Написано хорошо, но не захватывает. Шаблонное космооперное начало. Бросил Оценка: плохо
Олег Макаров. про Иванов: Псоглавцы (Социальная фантастика, Ужасы, Триллер)
26 06 Прочитал. такое впечатление, как в детстве, когда тебе обещали что-то а потом формально выполнили, но радости никакой это не доставило. Не знаю, как по-другому объяснить Оценка: плохо
Олег Макаров. про Смолин: Морпех 1: Сухой Лиман (Альтернативная история, Боевик, Самиздат, сетевая литература)
26 06 Не могу такое читать; опять «герой сво» попадает в 1941 и там становится прям вообще героем Оценка: нечитаемо
Олег Макаров. про Сухов: Обнуленный [СИ] (Боевая фантастика, Космическая фантастика, Попаданцы, Самиздат, сетевая литература)
26 06 Идея возможно интересная, но пишет предельно занудно. Оценка: нечитаемо
Олег Макаров. про Ростов: Выжившие (Боевая фантастика, Постапокалипсис, Самиздат, сетевая литература)
26 06 Картонные герои, бумажные диалоги. Оценка: плохо |
Комментарии
Отв: По рукам надавать за такое разпознавание текста
А я и не занл, что там есть такая галка. Наверное, по умолчанию она выключена. Или это зависит от того, в каком формате сохранять распознанный текст.
Отв: По рукам надавать за такое разпознавание текста
В девятом FR можно выбирать вручную разные опции сохранения при сохранении в разных форматах. Там много разнополезного можно сделать, а так же можно создавать свои шаблоны.
Отв: По рукам надавать за такое разпознавание текста
Не торопитесь паниковать. Для FBE давно существует отличный скрипт, как раз для такого случая ;)
http://home.doramail.com/Snout/Files/abruption_killing.rar
Как разложить файлы скрипта по папкам.
1. js-файл следует разместить в папке CMD, выбранной в настройках FBE.
2. htm-файлы в папке CMD редактора, чей exe-файл будете запускать.
3. css-файлы в поддиректории CSS каталога редактора, чей exe-файл будете запускать. Вместо "удаление разрывов_main.css" можно подложить main.css от вашего FBE (если вы стили настраивали под себя).
Запускать со следующими настройками:
а) галки "ручной выбор" отовсюду убрать, ибо заколебаетесь, да и скрипт будет работать около часа.
б) Маленькая буква | маленькая буква - соединить через пробел
в) тире или дефис, перед которым непробельный символ | любой символ - соединить без пробела,сохранив тире\дефис
г) запятая | любой символ - соединить через пробел.
д) остальное поставьте нетрогать.
Благодарим товарища Sclex с форума www.fictionbook.org
Отв: По рукам надавать за такое разпознавание текста
Пара часов на эксперименты с FineReader-ом, обучение и пополнение пользовательского шаблона и можно достичь удивительных результатов в OCR, впоследствии экономящих гораздо большее время. Если же потратить еще некоторое время на знакомство с макросами MS Word, и изучение FBE со скриптами уважаемого Sclex-а - и изготовление книги превратится в элементарное дело :-)
P.S. Самое сложное в OCR, imho - это тщательная вычитка.
Отв: По рукам надавать за такое разпознавание текста
Не то, чтобы сложное, но трудоемкое и утомительное. Но можно сочетать приятное с полезным: одновременно читать и вычитывать. Т.е. удержаться от соблазна прочитать книгу перед оцифровкой. А если еще делать все это не вставая с дивана, да под хорошую музыку - то и вообще вполне себе не утомительно :)
Отв: По рукам надавать за такое разпознавание текста
Я всегда так и вычитывал. Только не на диване, а за столом (люблю нормальный монитор и клаву), и без музыки - не могу под нее даже просто читать, отвлекает. Или одно, или другое ;).
Отв: По рукам надавать за такое разпознавание текста
Это смотря какая музыка. Если, скажем, на 1.FM включить Otto's Baroque Musick - отлично работается.
Отв: По рукам надавать за такое разпознавание текста
Вообще-то такая хрень (извините) легко убирается в Word'e - поиск/замена символов дефис+перевод строки на ничего. После чего остаются сущие пустяки для ручной правки. Открою еще страшную тайну: в Word'e легко делать макросы, которые пишутся на языке WBA, а с ними можно такое натворить... Например, я приводил в свое время, как учебное, такое задание: вставить 3 пробела в начале любой строки текста, в которой встречается частица "не" (это очень простой пример, для чайников, так что прошу не кидать камнями ;). Про язык WBA, кстати, говорится больше для понта, а в действительности отлично написать макрос можно, и совершенно не владея этим языком, и даже не зная о его существовании ;D. Во всяком случае, это в разы проще, чем делать валидные fb2, или даже просто хорошо отсканировать книгу. Так что, ИМХО, нет ни малейшего смысла заново распознавать текст, разве что из любви к искусству и FR ;))).
Отв: По рукам надавать за такое разпознавание текста
Вы не поверите, но язык этот называется VBA. Потому что сокращение от Visual Basic for Applications, а вовсе не World Boxing Association.
P.S. Продвинутые какие у нас специалисты по вирусам и троянам пошли..
P.P.S. Кстати VBA в русской раскладке дает МИФ. Что отлично этому языку подходит :)
Отв: По рукам надавать за такое разпознавание текста
Не придирайтесь так к очепяткам ;), я преподавал этот язык лет 10 назад :(, нетрудно и правда забыть название ;D. МИФ - хорошо! Понравилось! Возьму на вооружение в следующей жизни, если снова буду заниматься тем же ;). Но должен заметить, что тот же VBA в Excel'e - уже не совсем миф, а больше похож на настоящий... Как-то пришлось на нем даже написать программку для регистрации постояльцев в гостинице, включая стстистику, выписку счетов и т.п. Было интересно!
Отв: По рукам надавать за такое разпознавание текста
Не легко, т.к. остаются другие фразы, которые идут без дефиса - таких кстати большинство.
Я распознал по новой, заняло это 15 мин с указанием картинок (вы бы не справились за 15 мин с убиранием этих переводов строк, это заняло бы как минимум 4 часа). Скан хороший, потому ошибок почти нет.
Отв: По рукам надавать за такое разпознавание текста
ФБД с включенной галкой re-format completely приводит такие тексты в нормальный вид секунд за 20...
Уже сколько их таких обработано - не сосчитать...
OCR pad опять же есть сто лет в обед.
Отв: По рукам надавать за такое разпознавание текста
Вы думаете я не делал этого? Делал, но посмотрев что получилось, я подумал что намного быстрее будет сделать распознавание по новой.
По пробуйте сделать то что вы предложили, увидите результат.
Отв: По рукам надавать за такое разпознавание текста
Вы думаете, я не делал этого? ))
Я не предлагаю, не проверив сначала. Нет такой привычки советовать не проверенное лично.
К сожалению, исходника дежавю или pdf под рукой не было, потому и увидеть, что там не так с Вашей точки зрения, не могу.
Отв: По рукам надавать за такое разпознавание текста
Закончил книгу. Читаем : http://lib.rus.ec/b/142243
Там проблема со сносками. Дело в том что в doc что в djvu - текст уже был распознан (потом закручен в djvu) и некоторые сноски были повреждены.
Там в конце идут сноски, и перед словом ставиться номер этой сноски. так вот половина номеров толком не распознались (именно в исходном документе - djvu или doc - там они уже "повреждены") - поэтому непонятно какая сноска - где..