Вы здесьОбновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!
Опубликовано пт, 06/09/2019 - 04:13 пользователем TaKir
Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE). Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси. Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем: Типичные ошибки распознавания... Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются. Просьба приводить конкретные примеры: - ошибок скрипта, ложных срабатываний Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта. Ссылка на последнюю версию скрипта (30-09-2019): альтернативные ссылки: Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке: Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов). Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице" По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию. P.S. На Флибусте открыта аналогичная тема, можно писать в любую.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 14 часов
weis RE:Прошу переформатировать, распознать, etc... 2 недели larin RE:Заплатила, а абонемента нет и скачать ничего не могу! 4 недели sibkron RE:Серия "Библиотека французской литературы" (Макбел) 4 недели akorish RE:Регистрация 1 месяц Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 месяц Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 месяц konst1 RE:Ух, как я не люблю спамеров! 1 месяц tvv RE:DNS 2 месяца sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 2 месяца larin RE:Заблокирован 2 месяца konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 3 месяца Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 3 месяца fixel RE:Пропал абонемент 3 месяца sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 4 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 4 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 5 месяцев sem14 RE:Серия "Символы времени" издательства "Аграф" 5 месяцев Впечатления о книгах
trampak про Мясников: Великая Отечественная. 10 000 фактов о войне (История)
27 06 Россия никогда не начинает войн, она их завершает."- эта лживая фраза ставит под сомнение , что автор историк. А кто соврал однажды... Оценка: нечитаемо
Paul von Sokolovski про Логинов: Свет в окошке (Социальная фантастика)
27 06 Очень хорошая, тяжёлая и светлая книжка. То, что все знают - мы живы, пока о нас помнят... у Логинова получает некоторое материальное (?) воплощение. Как быстро мы развеемся? И кто будет помнить нас? Читать, или хотя бы пробовать - всем, всем, всем.
Олег Макаров. про Борчанинов: Лейтенант космического флота [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
26 06 Написано хорошо, но не захватывает. Шаблонное космооперное начало. Бросил Оценка: плохо
Олег Макаров. про Иванов: Псоглавцы (Социальная фантастика, Ужасы, Триллер)
26 06 Прочитал. такое впечатление, как в детстве, когда тебе обещали что-то а потом формально выполнили, но радости никакой это не доставило. Не знаю, как по-другому объяснить Оценка: плохо
Олег Макаров. про Смолин: Морпех 1: Сухой Лиман (Альтернативная история, Боевик, Самиздат, сетевая литература)
26 06 Не могу такое читать; опять «герой сво» попадает в 1941 и там становится прям вообще героем Оценка: нечитаемо
Олег Макаров. про Сухов: Обнуленный [СИ] (Боевая фантастика, Космическая фантастика, Попаданцы, Самиздат, сетевая литература)
26 06 Идея возможно интересная, но пишет предельно занудно. Оценка: нечитаемо
Олег Макаров. про Ростов: Выжившие (Боевая фантастика, Постапокалипсис, Самиздат, сетевая литература)
26 06 Картонные герои, бумажные диалоги. Оценка: плохо
Олег Макаров. про lanpirot: Кремлевский кудесник (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
26 06 Феерическое занудство. 50 страниц никакого развития Оценка: нечитаемо
Олег Макаров. про Тыналин: Винсент Иванович (Альтернативная история, Исторический детектив, Самиздат, сетевая литература)
26 06 Трэш. Очень стандартно. Настолько, что читая, чувствуешь себя предателем своего времени. Оценка: нечитаемо
Олег Макаров. про Черноводов: Мастер вооружений. Том 1. Том 2. Том 3 [СИ] (Боевая фантастика, Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
26 06 Автор в какой-то момент в стремлении описать вымышленный им мир, слишком ударился в теорию. Такое впечатление, что выдумывал он этот мир на ходу, уточняя свои мысли как раз во время описания. Так нельзя. Бросил на 80 странице, стало нечитаемо Оценка: нечитаемо
Олег Макаров. про Антисоветский попаданец
26 06 Очень жаль: задумка интересная. Стиль, когда автор двигает сюжет вполне приемлемый... Но в целом структура повествования: 2 страницы сюжета , 10 страниц реферата по истории, 2 страницы сюжета и тд цикл. Кроме того, автор ………
Олег Макаров. про Белов: Книга 1. Слесарь [СИ] (Боевая фантастика, Фэнтези, Постапокалипсис, Самиздат, сетевая литература)
26 06 Везде всё время этот автор попадается, очень плодовит. Не удержался начать читать. Хватило меня на десять страниц, не более У автора феерическое отсутствие чувства языка: «Это было как раз — то состояние, которое ……… Оценка: нечитаемо |
Комментарии
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Ну, я не специалист-филолог, но мне кажется, скрипт должен ориентироваться на литературный, а не на просторечный вариант.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
В FBE есть проверка по словарю. "Орфография" F7 тыц. У поиска по набору регэкспов другая задача.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Не буду спорить. Свою задачу я вижу в том, чтобы набрать статистику. Что из нее учитывать, а что не учитывать, думаю должны решать разработчики.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Идеальный скрипт в любом случае не сделать.
Писалось выше - улучшить бы "Генеральную уборку".
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Пока не вижу примеров для доработки скрипта, кроме прилипшего многоточия и удаления пробела перед маркером сноски.
Какие улучшения нужны?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
А апостроф?
...предусмотреть замену всех возможных различных вариаций апострофов - ´ ʼ ′ ˙ ΄ - на ' (буква «э» на англ. раскладке), который U+0027.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, вы, вообще, в курсе, что пробел и нижнее подчеркивание, это разные символы?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прошу прощения, но не совсем понял, в связи с чем возник этот вопрос? Если ответить коротко - да, в курсе, но, по-моему, про нижнее подчеркивание я ничего не писал? И на его проверку не жаловался. Может, конечно, что-то запамятовал, уточните, если не сложно, почему вы меня об этом спрашиваете.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, потому что во многих ваших книгах, загруженных сюда, в названии книги вместо пробелов стоят нижние подчеркивания.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно попросить ссылку? И уточните, о чем идет речь: о названии книги (печатное издание) или имени файла? Нижнее подчеркивание использую в имени файла. Это давняя привычка, обусловленная определенными причинами. А вот в названии книги - что-то за собой такого не помню. Если дадите ссылку, проверю по своим оригиналам. Может быть, это какая-то ошибка, тем более, что она есть "во многих файлах". Надо посмотреть, что это такое.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Теперь еще по поводу работы скрипта, столкнулся с моментами, вызвавшими легкое удивление:
скрипт иногда обнаруживает, а иногда пропускает полужирное начертание отдельной буквы предлог "и", местоимение "я". Удивило, что иногда полужирное начертание обнаруживается, а иногда нет. Может, конечно, он реагирует на что-то иное, совпадающее с полужирным начертанием.
Также пропускает сочетание ., (точка и запятая). Также пропускает слово нащ (должно быть - наш). Но это, видимо, тоже относится к орфографическим ошибкам, которые скрипт не проверяет?
Добавлено позже:
Обрабатывал скриптом книгу, в которой при распознавании был пропущены все дефисы в словах типа как-то, кто-то кто-либо, когда-либо и т.д. Заметил, что скрипт пропускает словосочетание дватри (два-три); и тотмто (том-то в выражении "в том-то и дело")
Страницы