Вы здесьОбновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!
Опубликовано пт, 06/09/2019 - 04:13 пользователем TaKir
Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE). Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси. Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем: Типичные ошибки распознавания... Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются. Просьба приводить конкретные примеры: - ошибок скрипта, ложных срабатываний Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта. Ссылка на последнюю версию скрипта (30-09-2019): альтернативные ссылки: Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке: Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов). Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице" По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию. P.S. На Флибусте открыта аналогичная тема, можно писать в любую.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Larisa_F RE:Собираем серию: "Мастер серия", издательство "Лимбус". 2 часа
Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 3 часа Larisa_F RE:За иллюминатором (серия) - чего не хватает? 5 часов Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 5 часов Rebellioner RE:Подайте бедному копеечку на книжку с литреса... 1 день sem14 RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 дня larin RE:Пропал абонемент 6 дней tvv RE:DNS 1 неделя MrMansur RE:<НРЗБ> 1 неделя Stager RE:Беженцы с Флибусты 2 недели Tramell RE:Серия "Библиотека французской литературы" (Макбел) 2 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 недели sem14 RE:Современная корейская литература. Книжная серия... 2 недели sem14 RE:Серия "Символы времени" издательства "Аграф" 3 недели sem14 RE:Собираем серию: "Азбука-триллер", издательство "Азбука-Терра" 3 недели sem14 RE:«Юмористическая серия» 3 недели larin RE:Оплатил. Абонемент не отображается 3 недели larin RE:Оплатил, но абонемент не отображается 1 месяц Впечатления о книгах
Barbud про Старицын: Балаклава Красная (Альтернативная история, Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
11 01 Дерьмовенько, как и все прочее у этого автора. Герои скучны, безэмоциональны и безмысленны, как какие-то юниты в компьютерной игре. Клик мышкой - на суше врага разбили, еще клик - на море эскадру потопили, новый клик - заводы ……… Оценка: плохо
Barbud про Алмазный: Казачонок 1860. Том 1 (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература)
11 01 Скучно, вторично. Сюжет этого писева очень напоминает опусы еще одного воспевателя казачества, почти калька, но написано намного хуже, хотя, казалось бы, хуже уже некуда. Однако же вот... Оценка: плохо
lorealke про Arladaar: Калгари 88 (Самиздат, сетевая литература)
11 01 Читать, ЕСЛИ: Вам нравятся спортивные драмы, технические детали тренировок и жанр попаданцев. Выкинуть в мусорку, ЕСЛИ: Вас тошнит от бесконечных описаний того, как фигуристка выполнила «прыжок в три с половиной оборота ……… Оценка: хорошо
obivatel про Вперёд в прошлое
10 01 2 Barbud, и у вас, и у автора наблюдается непонимание прописных истин управления 1. У любой проблемы ВСЕГДА есть как минимум одно очевидное недорогое легкореализуемое НЕВЕРНОЕ решение 2. Никто не правит в одиночку. 3. ………
obivatel про Возвращение Безумного Бога
10 01 То ли ИИ писал по мотивам корейских манг (типа, Она открыл книга и дёрнул за обложка) , то ли одно из двух. Множественные нарушения логики, противоречия описаний и событий, несоответствия хронологии событий -- всё это режет ………
Никос Костакис про Махров: Спасибо деду за Победу! Это и моя война [litres] (Боевая фантастика, Попаданцы)
09 01 Рубашка броская – косоворотка белого цвета в национальном стиле, с вышитым воротником и этим… как его? – не помню, вокруг застежек, короче". ______________________________ Дело происходит возле украинского "бандеравского" села. Косоворотка, как украинская одежда??? Ну-ну...
M_osk про Спинрад: Русская весна (Научная фантастика)
08 01 очерк = Виталий Бабенко. Пятое время года добавлен, а также отсутствующие иллюстрации Оценка: отлично!
svetik489 про Иевлев: Ковыряла (Киберпанк, Социальная фантастика, Самиздат, сетевая литература)
05 01 было бы хорошо,но такой перебор со сленгом.... поэтому неплохо Оценка: неплохо
lorealke про Птица: Конструктор живых систем [СИ] (Альтернативная история, Городское фэнтези, Стимпанк, Самиздат, сетевая литература)
03 01 Очередная агитка под видом «боярки» для подростков. Антагонисты слеплены по методичке из телевизора: мерзкий поляк, подлый грузин и надменный швед против «святого» русского мальчика. Весь мир книги — это унылая «осажденная ……… Оценка: плохо
mysevra про Лукьяненко: Последний Дозор (Фэнтези)
03 01 В своё время я была в восторге от первых двух книг, а эта – просто выжимки из опилок, не стоящие внимания. И очень повлияла на моё восприятие творчества автора его гражданская позиция – оказалось, что это не просто фантаст, ……… Оценка: плохо
mysevra про Сегень: Поп (Историческая проза, Православие)
03 01 Интересные страницы истории. Люди, у которых есть чёткие моральные принципы и жизненные ориентиры на любой случай (неважно, чем продиктованные: традициями, профессией, религией или понятиями) – им и сложнее, и проще одновременно. ……… Оценка: хорошо |
Комментарии
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Ну, я не специалист-филолог, но мне кажется, скрипт должен ориентироваться на литературный, а не на просторечный вариант.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
В FBE есть проверка по словарю. "Орфография" F7 тыц. У поиска по набору регэкспов другая задача.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Не буду спорить. Свою задачу я вижу в том, чтобы набрать статистику. Что из нее учитывать, а что не учитывать, думаю должны решать разработчики.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Идеальный скрипт в любом случае не сделать.
Писалось выше - улучшить бы "Генеральную уборку".
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Пока не вижу примеров для доработки скрипта, кроме прилипшего многоточия и удаления пробела перед маркером сноски.
Какие улучшения нужны?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
А апостроф?
...предусмотреть замену всех возможных различных вариаций апострофов - ´ ʼ ′ ˙ ΄ - на ' (буква «э» на англ. раскладке), который U+0027.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, вы, вообще, в курсе, что пробел и нижнее подчеркивание, это разные символы?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прошу прощения, но не совсем понял, в связи с чем возник этот вопрос? Если ответить коротко - да, в курсе, но, по-моему, про нижнее подчеркивание я ничего не писал? И на его проверку не жаловался. Может, конечно, что-то запамятовал, уточните, если не сложно, почему вы меня об этом спрашиваете.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, потому что во многих ваших книгах, загруженных сюда, в названии книги вместо пробелов стоят нижние подчеркивания.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно попросить ссылку? И уточните, о чем идет речь: о названии книги (печатное издание) или имени файла? Нижнее подчеркивание использую в имени файла. Это давняя привычка, обусловленная определенными причинами. А вот в названии книги - что-то за собой такого не помню. Если дадите ссылку, проверю по своим оригиналам. Может быть, это какая-то ошибка, тем более, что она есть "во многих файлах". Надо посмотреть, что это такое.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Теперь еще по поводу работы скрипта, столкнулся с моментами, вызвавшими легкое удивление:
скрипт иногда обнаруживает, а иногда пропускает полужирное начертание отдельной буквы предлог "и", местоимение "я". Удивило, что иногда полужирное начертание обнаруживается, а иногда нет. Может, конечно, он реагирует на что-то иное, совпадающее с полужирным начертанием.
Также пропускает сочетание ., (точка и запятая). Также пропускает слово нащ (должно быть - наш). Но это, видимо, тоже относится к орфографическим ошибкам, которые скрипт не проверяет?
Добавлено позже:
Обрабатывал скриптом книгу, в которой при распознавании был пропущены все дефисы в словах типа как-то, кто-то кто-либо, когда-либо и т.д. Заметил, что скрипт пропускает словосочетание дватри (два-три); и тотмто (том-то в выражении "в том-то и дело")
Страницы