Вы здесьAldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168 книг)
Опубликовано вт, 26/08/2008 - 16:32 пользователем pkn
Выделил из AldLit вторую очередь заливки: EBD (11 книг) и KIT (4168 книг) EBD = книги из AldLit, которые в Либрусеке представлены результатом eBookDownloader-а, и version-aldlit >= version-libr KIT = книги из AldLit, которые в Либрусеке представлены результатом LibRusEc Kit-а, и version-aldlit >= version-libr Предзаливочная обработка(в изложенном порядке): Поскольку изначально было version-aldlit >= version-libr, то приподнятие версии на 0.001 должно было, по идее, убедить либрусечный заливочный скрипт в старшинстве заливаемой версии . В порядке эксперимента залил EBD (11 книг). Результат удручает: на 11 файлов - 6 дублей и 5 отказов. Ни один файл не был молча принят :(( Причины непонятны... Файл Andrey_Rubanov_Sazhayte_i_vyirastet уже есть в базе. Повторы недопустимы.--------------------
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 1 день
weis RE:Прошу переформатировать, распознать, etc... 1 день larin RE:Заплатила, а абонемента нет и скачать ничего не могу! 2 недели sibkron RE:Серия "Библиотека французской литературы" (Макбел) 2 недели akorish RE:Регистрация 1 месяц Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 месяц Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 месяц konst1 RE:Ух, как я не люблю спамеров! 1 месяц tvv RE:DNS 2 месяца sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 2 месяца larin RE:Заблокирован 2 месяца konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 2 месяца Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 2 месяца fixel RE:Пропал абонемент 2 месяца sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 3 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 4 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 4 месяца Впечатления о книгах
pulochka про Учгюль: Реджеп Тайип Эрдоган (Биографии и Мемуары)
14 06 Вряд ли этого типуса ( Реджепа Эндогана) можно отнести к "Замечательным людям". Оценка: нечитаемо
Дей про Хозяин Волшебной Лавки
14 06 Не понравилось. Сопливо. К тому же идея Алекса Ключевского "Частный детектив второго ранга". И вот у Ключевского понравилось.
Barbud про В третий час после Полудня
13 06 Я читал АБС, я читал "Факап", но все равно понять, о чем речь, сложно - как будто серию с середины читать взялся. Впрочем, написано неплохо.
mysevra про Крук: Силвервид-роуд [сборник litres] (Ужасы, Научная фантастика)
13 06 Истории неплохие, есть довольно оригинальные сюжеты. Но в целом осталось не то приятно-жуткое, холодящее впечатление, а ощущение какой-то гадливости, что ли. Нет, не мой автор. Оценка: неплохо
mysevra про Нетли: Черные перья (Ужасы, Исторический детектив, Триллер, Детективы: прочее)
13 06 Такой себе современный готический роман, не очень страшный, не очень динамичный, немного наивный, но уютный, ламповый. Читала с удовольствием. Оценка: отлично!
mysevra про Водовозова: На заре жизни (Биографии и Мемуары)
13 06 Да уж, меня, когда-то имевшую представление о быте дворянских семей из книг Толстого, Тургенева, Аксакова и тому подобных идеализированных произведений, в своё время изрядно шокировали мемуары современниц этого периода. Это ……… Оценка: отлично!
Олег Макаров. про Вадим Владимирович Чинцов
13 06 Автор фантастический совкодрочер, иначе не назовёшь. Если "любой ценой вернуть СССР" — не ваша мечта, лучше никакие его поделки не читать.
lorealke про Бушков: Крым и крымчане, или Тысячелетняя история раздора (История, Публицистика)
13 06 Очередной «великий историк»... Оценка: нечитаемо
ne_fanat про Еслер: Наследник $$$ уровня (Городское фэнтези, Попаданцы, Самиздат, сетевая литература)
12 06 Вроде ничего особонного, но зашло нормально. Оценка: хорошо
Олег Макаров. про Евтушенко: Чужак из ниоткуда (Попаданцы, Самиздат, сетевая литература)
12 06 Оооочень занудно пишет автор Оценка: нечитаемо
edik_m про Эренбург: Люди, годы, жизнь. Воспоминания в трех томах (Биографии и Мемуары, Документальная литература)
11 06 Правдивая история СССР глазами очевидца! Оценка: отлично!
DMcL про Уильямс: Драконы Обыкновенной фермы [The Dragons of Ordinary Farm ru] (Детская фантастика)
11 06 Приключения на Обыкновенной ферме / Ordinary Farm Adventures Соавтор: Дебора Бил роман Драконы Обыкновенной фермы / The Dragons of Ordinary Farm (2009) Соавтор: Дебора Бил роман The Secrets of Ordinary Farm ……… |
Комментарии
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Чудеса... попытался сейчас, от отчаяния, залить ещё раз ровно тот же самый rar, содержащий ровно те же самые 11 файлов... результат:
-----------------------
file:Andrey_Rubanov_Sazhayte_i_vyirastet Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Сажайте, и вырастет http://lib.rus.ec/b/119946/join/104702
file:Andrey_Rubanov_Velikaya_Mechta Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Великая Мечта http://lib.rus.ec/b/119947/join/104703
Книга уже есть в библиотеке - Космос!!! http://lib.rus.ec/b/119940
Книга уже есть в библиотеке - Крейсер «Безумный» http://lib.rus.ec/b/119941
Книга уже есть в библиотеке - Принцесса помойки http://lib.rus.ec/b/119942
Книга уже есть в библиотеке - Звезда с одним лучом непонятный жанр http://lib.rus.ec/b/119943
file:Daliya_Meyerovna_Truskinovskaya_Bednyie_ryitsari Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Бедные рыцари http://lib.rus.ec/b/119948/join/102653
file:Polina_Dashkova_Vechnaya_noch Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Вечная ночь http://lib.rus.ec/b/119949/join/102646
file:Dzhuliana_Makleyn_Prelyudiya_lyubvi Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Прелюдия любви http://lib.rus.ec/b/119950/join/100660
Книга уже есть в библиотеке - Я и ты под персиковыми облаками http://lib.rus.ec/b/119944
Книга уже есть в библиотеке - Дело № 34840 http://lib.rus.ec/b/119945
-----------------------
То есть...
1. 6 файлов, залившихся (через дублей, но залившихся), во второй попытке получили отлуп ("Книга уже есть в библиотеке"). Что есть логично.
2. 5 файлов, в первой попытке получившие другой отлуп ("уже есть в базе. Повторы недопустимы."), во второй попытке прошли (через дублей, но прошли). Что есть непонятно.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки.
Похоже, главная тут - функция AddFileToLibrusec, находится в файле author.inc. Распечатал файло, буду читать на сон грядуший...
P.S. Чтобы грепнуть сорс на моем винбоксе - пришлось его из UTF-8 перекодировываь в win-1251. И все равно не помогло - grep кириллицы не понимает хоть убей... нашел тыком.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Не используй костыли типа цыгвин, используй нативные инструменты!
vim - the best!!!
Отв: AldLit, вторая очередь заливки
А как ты вычислял LibRusEc Kit? К примеру если книга была китом, а потом заменилась на нормальный вариант, в архивах остался кит и добавился нормальный вариант. Причем не факт что "прямо" добавился. Тоесть могут быть разночтения в тегах вида "конан" "конан(конан варвар - 3)". Теперь еще один пункт. Книги либрусека часто датированы 2011 годом, что изрядно смущает его дублеловку. Также у некоторых файлов версия не 1.0 как должна бы быть, а 1.5.
ИМХО для либрусека проще понимать зипы. На рарах периодически спотыкается.
*вздыхает* зря... размер увеличился, качество файлов не изменилось.
Отв: AldLit, вторая очередь заливки
Ну... логика сравнилки на данный момент примерно такая. Сравнилка берет одно файло из AldLit-а, ставит ему priority=0 (NEW), и с ним в зубах идет по всем 100+ тысячам Либрусека.
Если встретился такой-же-тайтл AND такая-же-фамилия-автора AND либр-файл имеет в program-used первым словом eBookDownloader AND version-aldlit >= version-libr, то помечаем это файло как EBD, priority=1 (EBD).
Но на этом сравнилка не останавливается, а идет, с тем же файлом, по Либрусеку дальше.
Если встретился такой-же-тайтл AND такая-же-фамилия-автора AND либр-файл имеет в program-used первым словом LibRusEc Kit AND version-aldlit >= version-libr, то помечаем это файло как KIT, priority=2 (KIT).
И идем дальше.
Если опять такой-же-тайтл AND такая-же-фамилия-автора, NO LibRusEc Kit or eBookDownloader, но выполняется version-aldlit >= version-libr, то priority=3 (REP)(значит REPlace, наш алдлитный файл лучше либрусечного)
И идем дальше.
Если опять такой-же-тайтл AND такая-же-фамилия-автора, NO LibRusEc Kit or eBookDownloader, и не выполняется version-aldlit >= version-libr, то priority=4 (OLD)(значит OLD, наш алдлитный файл хуже либрусечного)
При этом priority может только увеличиваться, не вниз, так что порядок встречи дублей не имеет значения.
В результате получаем разбивку АлдЛита на пять групп:
0 NEW - алдлитное файло новое, в Либрусеке не встречено.
1 EBD - алдлитное файло имеет в Либрусеке дубль от eBookDownloader
2 KIT - алдлитное файло имеет в Либрусеке дубль от LibRuEc Kit
3 REP - алдлитное файло имеет в Либрусеке дубль от кого-то ещё, но алдлитное файло лучше.
4 OLD - алдлитное файло хуже имеющегося в Либрусеке.
Вроде должна работать такая логика.
Ну тут я бессилен. Такие книги воспринимаются как разные.
Гм... мне-то это пофиг, я на дату вообще не смотрю... а вот если дублеловка смотрит... непонятно зачем бы ей это, но вдруг... надо будет на этот предмет сорсы тоже глянуть.
Оп-па... такого не замечал. Проверю.
Спасибо, учту.
Ларин сказал UTF - значит UTF.
Отв: AldLit, вторая очередь заливки
Вобщем из логики скрипта что смутило: очень часто бывает что на либрусеке лежат книги одного автора(файла), а на альде - другово. Соответственно и версии отличаются. Не факт, что файл автора X, версии 1.6 будет лучше файла автора Y версии 1.4.
А вот либрусек понимает что это дубли :Р Для этого надо не учитывать в названии книги все, что в круглых скобках.
Хм... ты прав. Это глюк fb2fix. Пропускал через него весь либрусек и по какой-то загадочной причине, он решил влепить части либрусечных файлов версию 1.5. Глянул эти же файлы здесь - версия 1.0, так что вопрос снимаю.
Отв: AldLit, вторая очередь заливки
Оно, конечно, не факт. Но как ещё программно решить какая из книг лучше, если не по номеру версии? Авторов-файла по ранжиру же не построишь. Конечно, можно в сравнилке учитывать не только версию, но и автора-файла. То бишь если автор-файла один и тот же, то лучше книга с большей версией. Но если авторы-файла разные, проблема остается.
Впрочем, в любом случае REP - это третья очередь заливки, и с ней, когда время придет, будем разбираться отдельно. Дай бог пока с KIT управиться.
Гм... а ведь и правда похоже... как-то этот момент я пропустил. Попробую в сравнилке прибивать в названии все, что в круглых скобках.
Отв: AldLit, вторая очередь заливки
Надо учитывать автора. А если авторы разные - в отдельный список для ручного разгребания, и ничего не трогать. Список потом можешь опубликовать - "всем миром" будем сравнивать :) Не факт что на альде будут лучшие версии. К примеру хроники нарнии лучше на либрусеке. А пратчет был лучше на альде.
Отв: AldLit, вторая очередь заливки
OK
Отв: AldLit, вторая очередь заливки
Можно еще применить вот такой метод
http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0
Но, здесь надо обязательно учитывать разницу в длине сравниваемых строк. Очепятки отлавливает аж бегом. Ну или когда в кириллицу вставляют латинские символы одинакового начертания.
Отв: AldLit, вторая очередь заливки
Листинг показал, что таких файлов в Либрусеке всего два, оба раза версия приподнята обоснованно. Ложная тревога.
Отв: AldLit, вторая очередь заливки
ИМХО, дубли и ошибки неизбежны. Лучше иметь сотню дублей, чем потерять одну хорошую книгу. Совершенно невозможно избавиться от ошибок, когда анализируется только заголовок. Не говоря о возможных ошибках / опечатках, там еще все зависит от того, кто его делал и как. Меня смущает другое. Когда все сомнения останутся позади, просьба не заливать все такой дикой массой, как в прошлый раз - там было около 40 страниц обновлений за день :(. Практически невозможно все просмотреть, и выбрать / скачать то, что интересно. Пожалейте сервер и наши глаза! Если можно, просьба заливать ну хотя бы произведений по 500 в день ;). Конечно, если это трудно технически, лейте как есть, переживем ;). Может, это даже к лучшему - отмучиться сразу и не растягивать удовольствие. Точно знаю только, что при прошлой заливке я пропустил много интересного, по чисто физической невозможности просмотреть и оценить все.
Отв: AldLit, вторая очередь заливки
Лучше сразу отмучатся :) Я например когда добавлял архивы либрусека, чтобы лишний раз не перезаписывать, то, что уже есть(а альд я выкачивал полностью), не добавлял книги вообще за 18-е число. Аналогично поступлю и с этой заливкой. А вот если будет по 500 книжек в день - начнутся проблемы. Так что лучше уж кучей.
Отв: AldLit, вторая очередь заливки
Это-то да... проблема в том, что если не удается убедить дублеловку принять новый файл молча, то приходится каждую пару дублей разрешать вручную, кликая. При заливке нескольких тысяч книг это становится, мягко говоря, проблематично.
Я думал на этим вопросом... по-моему, все-таки лучше рубить кошке хвост разом, а не по частям...
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки.
Гы... на 250-гиговом диске, выделенном под эти игры, осталось 25 гиг места. Пришлось кое-что постирать к бубеням...
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Кстати, та кошмарная) заливка уже отразилась в Дайли и можно ли её уже скачать одним файлом обновлений?
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Да, только не одним, Илья на два разбил (слишком большой файл?).
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
ОК, спасибо! Попробую найти.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Если именно те два файла в Дейли, то на http://lib.rus.ec/all/daily/ они под (ошибочно одним и тем же) именем 114698-119287.zip 114698-119287.zip
Линки там под этими именами на самом деле на два разных файла:
http://lib.rus.ec/all/daily/114698-117000.zip
http://lib.rus.ec/all/daily/117001-119287.zip
Но в принципе основная разбивка "по тысяче" http://lib.rus.ec/allbooks уже тоже добралась до этих номеров и даже дальше.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки. Понял про Либрусек пару вещей, заслуживающих записи.
1. Приподнимание версии не заставит дублеловку молча принять файл. Потому что:
LogAction ("INSERT INTO libbook (FileName, FileSize, FileType, Title, Year, SeqId, SeqNumb, Id, Ver, Lang, FileAuthor) VALUES ("$nn", '$fs', '$filetype','$title','$year', '$SeqId', '$sequencei','$id', '$ver', '$lang', '$nick')", "Add book","");$b = Sel("BookId FROM libbook WHERE FileName = "$nn"");
if (!$b) return $r. "Что-то не получилось. Свяжитесь с администрацией";
if ($actionid = Sel ("ActionId FROM libactions WHERE ActionDesc = 'Add book'
AND BookId = 0 AND ActionSQL LIKE "($nn," LIMIT 1"))
Update (libactions, "BookId=$b", "ActionId=$actionid");
$r .= "<p><a href=/b/$b/edit target=_blank>Книга добавлена</a><br>";
system ("chmod a+r $nn1");
foreach ($GenreIds as $gid) Insert ('libgenre', 'BookId, GenreId', "$b, $gid");
foreach ($PD->AvtorIds as $aid) {if ($aid && $la != $aid) Insert ('libavtor', 'BookId, AvtorId', "$b, $aid"); $la = $aid;}
if ($dublid = Sel ("BookId FROM libbook JOIN libavtor USING (BookId) WHERE Title="$title" AND AvtorId = $a AND BookID != $b AND NOT Deleted"))
$r .= "<p>Кажется, нашли дубля. Ткните в него для разрешения конфликта. <a href=/b/$b/join/$dublid target=_blank>Дубль: $title</a>";
(file author.inc lines 599-610)
Здесь $b это АйДи (либрусечный номер) свежедобавленной книги, $dublid - АйДи (либрусечный номер) найденного дубля. Версия не учитывается совсем. Надо искать другие пути обхода дублеловилки.
2. В Либрусеке много книжек, в которых:
# fictionbook/description/document-info/author/nickname rusec# fictionbook/description/document-info/author/email lib_at_rus.ec
# fictionbook/description/document-info/program-used LibRusEc kit, Fiction Book Designer, Fiction Book Investigator, FB Editor v2.0
# fictionbook/description/document-info/date 29.11.2007
# fictionbook/description/document-info/id 283111f6-feec-102a-9d2a-1f07c3bd69d8
# fictionbook/description/document-info/version 1.0
# fictionbook/description/publish-info/book-name Поэтический побег
То бишь, после LibRusEc kit был и FBD, и множество всякого, но версия так и осталась 1.0
Мне надо в сравнилке сильно ужесточить критерии для зачисления в категорию KIT.
Вероятно, по ID, см. тут: http://www.fictionbook.org/forum/viewtopic.php?p=34606&sid=ce80b4a0e032856378070ac1bcf5dfd6#34606