Вы здесьРаспределённые корректоры
Опубликовано ср, 26/11/2008 - 03:54 пользователем Jolly Roger
Нахально пользуясь популярностью Либрусека, позволю себе вбросить в массы одну интересную идею - subj. Итак: Имеет существовать уже довольно давно система "Распределенные корректоры" (подробно читать здесь: http://kapija.narod.ru/Translations/dp_russ.htm ) Суть желаемого российского варианта: любой желающий заводит аккаунт редактора, открывает некий проект и заливает на сервер сканы страниц. После чего кликает клич по друзьям и знакомым (или, к примеру, посетителям некоей библиотеки... :) ), кои заходят на страничку проекта и исполняют роль корректоров - каждому из них выдается маленький кусок скана и окно с распознанным текстом, каковой вычитывается с исправлением ошибок и сохраняется. Выглядит это где-то так: Скрипты настроены так, что каждый кусок выдается минимум двум корректорам - это дает некую гарантию качества вычитки. После окончания вычитки готовый распознанный и откорректированный текст предоставляется в распоряжение редактора и не выкладывается в публичный доступ - это позволяет с наглой мордой заявлять о нераспространении, типа "делал для себя - отлезьте, копирасты!" А где потом текст всплывёт - так это я не знаю... ;) Надобно отметить, что подобная система в рунете один раз уже была запущена - на сайте "Православная беседа", году где-то в 2003м ( http://kirrr.livejournal.com/12630.html ) , но сейчас проект закрыт ( http://pravbeseda.ru/ocrlab/ ), хотя книги, в нём распознанные и вычитаные, доступны (напр.: http://www.pravbeseda.ru/library/index.php?page=book&id=720 ). Проблема, как я помню, состояла в том, что "душой" того проекта был Братец ДыкЪ ( http://pravbeseda.ru/arc/old_agora/pravbeseda_common/1046713286.html ), занимавшийся им "по остаточному принципу", что было тяжело, и в критически малом числе добровольных корректоров в связи с нераскрученностью и православной спецификой проекта... З.Ы. Чего это я вдруг?... Это я в качестве конструктивного отклика вот на это...
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 34 мин.
larin RE:Оплатил, но абонемент не отображается 3 дня sd RE:Fishing 3 дня Алексей111111111111 RE:Оплатила,но абонемент не отображается 4 дня sd RE:Доступ 27 5 дней kopak RE:Беженцы с Флибусты 1 неделя Isais RE:Вадим Иванович Туманов - Всё потерять - и вновь начать с... 1 неделя Isais RE:Семейственность в литературе 1 неделя Isais RE:Древний Рим. Подборка книг 1 неделя Саша из Киева RE:"Экс" и "нео": разноликие правые 1 неделя medved RE:Предупреждение: "зеркала" флибусты 3 недели Isais RE:Соседи 3 недели babajga RE:Как сова отправилась в отпуск 1 месяц Саша из Киева RE:Горящие паруса 1 месяц Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 1 месяц commodore RE:Письма 1 месяц Саша из Киева RE:Три минуты истории 1 месяц nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 2 месяца Впечатления о книгах
mysevra про Яворницкий: Том 1. Быт запорожской общины (История, Военная документалистика)
25 07 Монументальный труд. Мне, конечно же, наиболее интересным показался первый том. Оценка: отлично!
mysevra про Далин: Болотный шёлк (Фэнтези)
25 07 Вроде зарисовка, а для кого-то – целая счастливая жизнь. Красиво, как всегда у этого автора. Оценка: отлично!
mysevra про Сапковский: Распутье Воронов (Фэнтези)
25 07 Вот и раскрыта тайна резни в Каэр Морхене. Геральт тут непривычный, этакий большелапый лопоухий щенок, но уже с правильными, узнаваемыми чертами, накось. Прочитала с удовольствием, единственный минус – мало. Оценка: отлично!
OldF про Ангелов: Народный словарь СВО (Документальная литература, Юмористическая проза, О войне, Новелла, Сатира)
25 07 Попытка исторгнуть нечто со спущенными трусами. Потратил пару минут на просмотр предыдущих выс***в, этот точно с диагнозом, неизлечим. Оценка: нечитаемо
Саблезубый Заяц про Герасименко: Огонь сильнее мрака (Юмористическая фантастика, Научная фантастика, Городское фэнтези)
24 07 Почему книга отдельно? Это же из серии "Пневма".
Александр Лагода про Маканин: Удавшийся рассказ о любви [сборник] (Современная проза)
24 07 Файл невалиден. Готовлю замену.
StrelaVV про Карелин: Лекарь Империи. Книга 2 [СИ] (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
24 07 Первая книга понравилась, продолжение есть - читаю... Оценка: отлично!
Олег Макаров. про Шопперт: КВЖД [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
23 07 Забавно. Попаданец не борзеет, даже песен и стихов не ворует из будущего. Прогрессорствует довольно-таки аккуратно в рамках своих возможностей, но без фанатизма. Хотя странно, что школьный учитель физики круто умеет в военизированное ……… Оценка: нечитаемо
Олег Макаров. про Ямской приказ
23 07 Задумка очень интересная, но написано весьма коряво. Прямо как будто школьник... Диалоги не живые. Тяжело читать. Бросил на середине первой книги Искренне жаль. Могла бы быть классная серия
Aleks_Sim про Грушевский: Історія української літератури т.4 (Литературоведение)
22 07 Не вычитанный совсем после плохого OCR текст Оценка: нечитаемо
francuzik про Никл: Рожденный, чтобы жечь! (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
21 07 На удивление книга понравилась. Политики совсем нет зато есть юмор. Буду ждать продолжения. Оценка: хорошо
дядя_Андрей про Деметер: Хроники Космического Патруля [СИ] (Боевая фантастика, Самиздат, сетевая литература)
21 07 Предупреждаю сразу, что я ни разу не «заклёпочник», поэтому не стану умножать единицу массы на единицу скорости и делить всё это на единицу гравитации. Это не моё. Просто поделюсь тем, за что зацепился глаз, когда читал. 1. Очень ……… Оценка: хорошо |
Комментарии
Отв: Распределённые корректоры
Ох-ох...
Позволю себе привести забавную дискуссию, разгоревшуюся не так давно в Гостевой Фензина. Извините, если здесь уже всплывало :)
Головой думайте Пятница, 31. Октября 2008 18:37
Ну и ну, народ. Ну и ну.
Скажите, а вы вообще способны АДЕКВАТНО оценивать окружающую действительность?
Способны?
Ну тогда скажите мне: Кто во всем рунете сканирует фантастику?
Подумайте. Не торопитесь.
Ну а если напрягаться неохота, вот вам готовый ответ:
Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют.
Головой думайте:
И чего, в этом свете, стоят ваши вопли: "Ухожу на другой ресурс!!!", "ноги моей здесь больше не будет!!!!!", а?
Представьте, что фензин закрылся. Где, собственно, вы собираетесь брать новые книги? Сами сканировать будете? Ну так начинайте, чего ж не сканируете? Только стонать способны...
-----
Между прочим, я тоже предпочитаю получать книги бесплатно. Но, в отличие от некоторых, могу оценить - кто чего стоит.
aaa:
Головой думайте, сакраментальный вопрос - откуда дровишки?
rr3:
Ну и ну. Судя по нездоровому пафосу и зацикленности на уникальности - думать Вы, к сожалению, не способны. Увидев торжественное объявление о ПЕРВОЙ отсканированной книге - сделали вывод, что книга была единственной.
"И нигде больше не сканируют" - скажите, имена sem14, amyat, aprod и многих других Вам о чем-нибудь говорят?
Головой думайте:
У меня-то с головой все в порядке, это у вас язык ее опережает. Вы, чем болтать, просто возьмите и перечислите: какая фантастика была отсканирована на либрусеке. Не распознана с чужого скана или djvu, а именно отсканирована.
Если сможете.
И продолжение:
Головой думайте (Пятница, 31. Октября 2008 18:37) :
....Англоязычную фантастику сканирует БСЧ, рускоязычную - сканирует Фензин. Плюс то, что продается на Литресе.
И все. ВСЕ.
На всех остальных приходится менее 1%.
К примеру, как вы полагаете, сколько фантастики было отсканировано на любимом нашем Либрусеке?
Если хотите, я вам подскажу: 1(одна) книга. Все остальное там перекачано с других ресурсов. Там вычитывают книги, правят файлы, но не сканируют. И нигде больше не сканируют...
-------
Сегодня подсчитал, А.Антонов на ЛИБРУСЕКе представлен 23-мя произведениями, а на ФЕНЗИНе таковых только 10.
Так что - головой думайте
Да я-то думаю:
Чего и вам желаю. Слово "сканирует" - подразумевает вреня настоящее (или вы посчитали, что я имел ввиду - от сотворения времен?). Раз уж вы не поленились занятся подсчетами, не поленитесь поинтересоваться, когда и где книги были отсканированы, а когда файлы были перекачаны на либрусек и переформатированы. А потом прикиньте, во сколько процентов попадут остальные - относящиеся к нынешнему времени.
aaa:
А почему вы решили, что я ДОЛЖЕН ЭТИМ ИНТЕРЕСОВАТЬСЯ?
Я вижу счет - 23:10, и все остальное меня волнует мало.
Кстати, а где доказательства что только ФЕНЗИН занимается сканированием.
Пока я видел только голословные заявления, и не менее голословные обвинения
О как!:
Получается, интересоваться вы этим НЕ ДОЛЖНЫ, зато, что-то ДОЛЖЕН вам я?
Вы посчитали 23 к 10 и что? Все?
Я вот посмотрел автора, откинул эротику и боевики (которые вы почему-то посчитали?), посмотрел остальные книги - и не нашел среди них отсканенных в последнее время.
НО, может быть нашли вы? Не-а, вы оказывается и не искали. Вам это не интересно. Но, голословен, конечно я.
А вы тогда кто? Своей головой думать совсем не хочется?
aaa:
А почему вы решили, что я вас к чему-то обязываю.
Я просто констатировал факт.
Без комментариев.
У вас - одни лозунги. Фактов нет.
Тоже без комментариев.
У меня нет никакой возможности проверить, кто, где и что сканирует.
Как нет и такого желания.
Я читатель, а не следователь.
И меня это интересует не больше, чем страна и компания в которой сделали сахар, для моего утреннего кофе
Кстати, чем вам боевики не угодили?
Вместе с эротикой.
Про боевики и эротику:
Эротика - это наше все. Только вот разговор был о сканировании фантастики - вы это как-то упустили. Фензин - это вообще сайт, посвященный фантастике.
По поводу лозунгов:
Хм.. Я вам высказал мнение завсегдатая различных книжных сайтов и форумов, результат, если хотите, многолетнего мониторинга сети. Я бы не назвал это лозунгами. Другое дело - вы можете с моим мнением не согласиться. В таком случае, человек, как правило, пытается разобраться в ситуации самостоятельно - но этого вы тоже не хотите. Вы хотите от меня фактов и доказательств.
По поводу фактов:
Ну факты - они просты: вы видете прямо перед собой ресурс, регулярно выкладывающий отсканированную им фантастику - и не видете подобного на других ресурсах. Если вы знаете другой такой ресурс (кроме БСЧ) - поделитесь знанием.
По поводу доказательств: а что вы готовы счесть доказательством? Какого рода доказательства устроили бы лично вас?
aaa:
Ну с эротикой все ясно - тут у нас полное совпадение.
А как насчет боевиков?
Ах да, мы ж про фантастику!
Извините, увлекся.
Я люблю книжки читать, а не с мониторингом разбираться.
А что вы можете предложить.
Вот и мне интересно:
Мое мнение - вас не устраивает. Самостоятельно изучить вопрос - не-а, это не для вас. На вопрос "что вас бы устроило?" - вы, похоже, и сами не знаете, что ответить.
Вы хотите, чтобы я вам посоветовал - что делать?
aaa:
Вас зовут Н. Г. Чернышевский?
Или В. И. Ульянов-Ленин?
Вы серьезно считаете, что будучи в 2500 км от Москвы и 12000 км от Эквадора,
не имея никакого отношения ни к правоохранителям, ни к правооблаЖателям,
я займусь исследованием вопросов "что происходит?", "кто виноват?" и "что делать?"
Я лучше кофе попью с хз чьего производства сахаром :)
-------------------------------------------------------------------------------------------------------------
Неужели ситуация действительно настолько плачевна? :)
Что до сабжевого проекта - лично я всеми конечностями за, и готова поддерживать по мере сил. Только один вопрос к Jolly Roger - возможен ли запуск такого проекта тут, на либрусеке, или я чего-то не понимаю?
Отв: Распределённые корректоры
Ну это уж точно не ко мне вопрос. "Мопед не мой", я просто на удачу запускаю идею в ноосферу...
Уверен лишь, что если такой проект появится, то мы его задействуем в интересах Либрусека наверняка. :)
Отв: Распределённые корректоры
Спокойствие, только спокойствие.... У нас и у самих планшетные сканеры найдутся! :)
Если серьезно, источник сканов в Рунете далеко не единственный - раз.
Предлагаемый проект - не распределенное сканирование и не распределенный OCR, а именно вычитка. Ей тут и так только ленивый не занимается. :) Думаю, что прочитать и вычитать интересующую книгу целиком - более удобно, чем покусочно.
Отв: Распределённые корректоры
Ну дык. Олдмаглиб и Ершов - с ходу.
Да, но "гуртом батька бить легчей" и такая система позволяет производить вычитку гораздо быстрее и качественнее.
Отв: Распределённые корректоры
Возможно, просто непривычно как-то. Скажем так: я - эгоист, и горд тем, что сам этого достиг. Если кто-нибудь такую систему развернет, готов принять участие в тестировании и эксплуатации. Но поднимать сам даже и пытаться не буду, зашиваюсь :(
Отв: Распределённые корректоры
И это, и то - не очень умные стенания в стиле - ах! что же будет!
В свое время я и сам сканировал книжки и уж с десяток то их по инету гуляет в моем скане. Но потом оказалось, что народ успевает сосканить и выложить раньше, чем я доберусь до любимых авторов (в смысле пока куплю, пока найду время сосканить...). Так что долго ничего не сканил.
Если вдруг окажется, что то, что мне нравится, в бумаге уже давно есть, а в электронном формате нету, будьте спокойны - найду время купить и отсканить. Конечно только тех авторов, которых уважаю. Но вкусы у всех разные, так что не пропадем.
Кроме того, ИМХО, сегодня важнее вычитка. Книжки, в которых все время нужно мысленно одни буквы заменять другими и гадать иногда, что же вообще было написано, уже подзадолбали с тех же фензиновских времен.
А в предлагаемой системе поучаствовал бы безусловно.
Отв: Распределённые корректоры
Что-й то я плохо себе реализацию представляю...
Открытый ОЦР, понимающий русский язык, считай один - CuneiForm.
Сырой, как мох в болоте (я про невиндовый вариант).
Далее - требования к сканам. Они должны быть, видимо, в виде пачки постраничных файлов - а так никто не сканит.
Ну, дежавю ещё можно раздербанить на джипеги, но какчество от этого не повысится... А ПДФ - вообще труба дело.
Угу, ЦПУ-лоад такая хрень будет давать нехилый (хоть и бурстами) - не каждому хостеру понравится.
Вот...
А так - что ж, взять вики-движок (может, докрутить чего), да и выложить "документ", как серию "прошитых" страниц.
В начальный момент - предварительный ОЦР + "иллюстрация" скана.
Правьте до посинения.
Отв: Распределённые корректоры
Идея очень хорошая! Для примера: Сейчас ищу книгу Смирнов Андрей "Дары волшебства". В электронке пока нет, а бумагу не покупаю лет 8. Если бы был скан - помог вычитать. И таких как я, надеюсь здесь много. Так что, дерзай народ мы вас поддержим! А то загнётся литрес с непутёвым фензином - где оперативно брать новинки книжного рынка? Да и качество вычитки некоторых имеющихся текстов оставляет жалкое впечатление.
Отв: Распределённые корректоры
Идея вполне себе интересная. IMHO OCR тут не причем, здесь скорее вычитка и набор ( плюс возможно верстка ) из сканов страниц. Я думаю хранилище страниц из одной книги + какой-нибудь VCS + веб морда/софтина + координатор на каждую книгу -- таким, например, может быть вариант для подобной вычитки экземпляра книги. Оверлода для провайдера здесь не будет, сканеры заливают страницы -> вычитывальщики лочат выложенные страницы и коммитят вычитанне ( набранное ) -> координатор скриптом ( или руками ) собирает готовое -> выкладывает в библиотеку и закрывает текущий проект если нужно ( все готово ).
Думаю, важен такой проект будет не столько для книг в fb2, склолько для книг, в которых важно соответствие верстки.
Вот такое IMHO.
Отв: Распределённые корректоры
Ну, положим, сам редактор можно из WYMeditor'а сделать...
Он - уже "XMLный", для ФБ2 мало чего надо...
А если не FB2/XHTML - тогда как? Что у нас такого для вёрстки есть?
Отв: Распределённые корректоры
Да, с версткой конечно засада, на ум, кроме TeX, быстро ничего не пришло.
Отв: Распределённые корректоры
ото ж...
Отв: Распределённые корректоры
Да можно даже не Вики,а любой нормальный движок с гибкой настройкой прав доступа.
Отв: Распределённые корректоры
Права - сакс.
История/откат - рулез.