37 миллионов старых газетных страниц выложены в Сеть
Опубликовано сб, 24/12/2016 - 09:19 пользователем DeMorte
Forums: Как создать самый большой архив периодики в домашних условиях? Американец Том Триниски просто вооружился сканером и взялся за дело в собственной гостиной. Работая в одиночку, Том Триниски сумел оцифровать более 37 миллионов страниц старых газет — это больше, чем в американской Библиотеке Конгресса (крупнейшая библиотека мира), — сообщает Newtonew. Результаты своего труда он выкладывает в открытый доступ на сайте Fulton History, где можно найти архивы более 1000 газет штата Нью-Йорк, некоторых других штатов и Канады. В архиве, который составитель регулярно обновляет, содержатся издания с 1795 по 2007 год. Триниски — инженер на пенсии и любитель старины. Над сайтом и контентом он работал в одиночку, в своём доме. Четырнадцать лет назад он решил отсканировать коллекцию старых открыток с видами округа Фултон, Нью-Йорк (его родной район), чтобы поделиться ими в интернете. Впоследствии к открыткам добавились заметки, рекламные объявления, некрологи, печатные издания. Ресурс до сих пор называется в честь округа Фултон, хотя материалы давно вышли за первичные географические границы. Для оцифровки газет используется программа для оптического распознавания символов, которая иногда ошибается из-за того, что некоторые издания очень старые. Также создатель сайта задействовал микрофильмы, на которых есть следы царапин и пыли, однако это добавляет старым газетным страницам обаяния. Сайт Fulton History не всегда справляется с наплывом гостей, и временно бывает недоступен из некоторых точек мира. Если такое случилось, можно заглянуть на Chronicling America, ещё один открытый ресурс с историческими газетами, на сайт с архивами газет от Бруклинской публичной библиотеки, или прошерстить базу данных Нью-Йоркской публичной библиотеки — здесь тоже есть множество старых изданий, и не только американских.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 5 часов
DGOBLEK RE:Прошу переформатировать, распознать, etc... 5 дней akorish RE:Регистрация 5 дней Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 6 дней Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 неделя konst1 RE:Ух, как я не люблю спамеров! 1 неделя tvv RE:DNS 3 недели sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 3 недели larin RE:Заблокирован 1 месяц konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 3 месяца tvv RE:faq brainstorm =) 3 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца Впечатления о книгах
pulochka про Донцова: Британец китайского производства. Народный детектив (Дамский детективный роман)
08 05 Донцова совсем исписалась :куча ошибок, то у нее персонаж по фамилии Подаркин- Игорь,то он же-Михаил....И рассказ вообще настолько сумбурный, словно писали 2 разных человека .Причем они не договаривались о подробностях .Короче,видимо ……… Оценка: нечитаемо
Isais про Кратт: Великий океан (Историческая проза)
08 05 Проверил по оглавлению книги 1959 г. изд.: "Часть четвертая" и "Часть первая", которые якобы отсутствуют, -- фиктивные сущности. Их НЕТ. Т.е. этот файл содержит полный текст двухтомного романа.
Iskinder про Демина: Леди, которая любила лошадей (Любовная фантастика)
08 05 2 Анни-Мари. Я любовную фантастику в принципе не читаю, но ваш отзыв сильно порадовал. Браво!
Анни-Мари про Демина: Леди, которая любила лошадей (Любовная фантастика)
07 05 pulochka, мышки плакали, но продолжали жрать кактус. Вы уже не впервые жалуетесь, как вам не нравится язык Деминой, да насколько вам трудно воспринимать текст, и вот мрачно, понимаешь. Вопрос: зачем мучиться и читать, если оно не заходит? Страдания очищают?
francuzik про Матвеев: Пасечник – 2 (Фэнтези, Попаданцы, Самиздат, сетевая литература)
07 05 Ох эти сказки, ох эти сказочники... Оценка: плохо
Isais про Робертс: Королевский гамбит [The King's Gambit ru] (Исторический детектив)
07 05 То же место в то же время, что и в цикле Ст. Сейлора "Roma sub rosa" -- те же исторические персонажи и события, заговоры и убийства. Но как же скуууууушно по сравнению с Сейлором! Оценка: неплохо
Barbud про Линник: Обменный фонд (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
06 05 Читабельно. Первая половина книги более динамична, чем вторая, к концу пошло много малоинтересных бытовых подробностей, мелких дорожных приключений и т.п., но дочитал. Эпилог повеселил) Оценка: хорошо
Nicout про Смирнов: Колдун при дворе его величества. (Фэнтези, Повесть, Самиздат, сетевая литература)
06 05 А тут на встречу царь!" Плодовитый как кролик, но по сути безграмотная школота, фтопку! Даже качать не буду. И другим не советую, вполне хватает одной странички на АТ, чтобы пожелать развидеть. Оценка: нечитаемо
Никос Костакис про Вязовский: Кодекс врача [litres] (Альтернативная история, Попаданцы)
05 05 – Полиция бы сразу доложила, – покачала головой княгиня, подошла к одной из икон. – Смотрите, Евгений Александрович! Какая тут древняя роспись __________ Княгиня (!) называет иконы росписью. Окультуренная княгиня.
iwanwed про Аллард: Назад в СССР: Классный руководитель (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
05 05 Автор на знает эпохи, о которй пишет. Может быть, он застал в школе 90-е, но никак не конец 70-х, начало 80-х. И это портит впечатление о книге. Царапает и коробит. Оценка: плохо
tvv про Лис: Ученик гоблина. Книга III (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
04 05 Вторая книга есть на Ф., но файл плохо отформатирован. Читать можно, а заливать сюда не велено.
Aleks_Sim про Йейтс: Кельтские сумерки: рассказы (Классическая проза, Мифы. Легенды. Эпос)
03 05 TO DGOBLEK - а там в оригинале строфные пробелы в двух или трех стихах отсутствуют |
RE:37 миллионов старых газетных страниц выложены в Сеть
Вот это мужик! Респект и уважуха!
От будут ли правообгладатели ему втыкать за использование материалов?
RE:37 миллионов старых газетных страниц выложены в Сеть
Из FAQ_HELP_INDEX:
В. Могу я добавить статью на этот сайт?
О. Ага. Если газета была опубликована в штате Нью-Йорк и не попадает под копирайт...
===
И на первой странице:
Мери Крисмас, библиотекарь!
RE:37 миллионов старых газетных страниц выложены в Сеть
Ну если оно в сети, тогда и все смогут загребти себе. Вот и если начнется массовое пополнение библиотек газетами...
RE:37 миллионов старых газетных страниц выложены в Сеть
Что-то сильно я сомневаюсь что именно 37 млн страниц газет, скорее всего. как пишут в статистике больших библиотек "единиц хранения" - отдельных открыток, рекламных обьявлений и т.д.
Попробуем посчитать.
37 000 000 / 14 лет = 2 642 000 страниц в год / 365 дней = 7 241 страница в день /12 часов = 600 стр в час или 6 страниц в минуту.
Многовато выходит, и это чисто сканирование. + какая-никакая обрезка + каталогизация + выкладка в Сеть.
RE:37 миллионов старых газетных страниц выложены в Сеть
Дети помогали. Или еще кто то.
А какие там страницы, может не такие как у нас. Тогда по несколько страниц за проход.
RE:37 миллионов старых газетных страниц выложены в Сеть
А можно задать вопрос: вы сами пробывали сканировать газеты?
RE:37 миллионов старых газетных страниц выложены в Сеть
Нет.
Но при современному оборудовании много чего возможно.
RE:37 миллионов старых газетных страниц выложены в Сеть
Расчёт - правильный. В исходных статьях ещё написано, что дедуля в последние три года оцифровывает по 250 000 страниц в месяц - те же самые 6 страниц в минуту (если считать, что он работает 24 часа в сутки, не питаясь и не отлучаясь в туалет).
Я тоже заинтересовался гигантскими цифрами в заметке и немного посчитал. А потом полез на англоязычные сайты и все странности исчезли. Всё гораздо проще.
С бумажными газетами дед недолго поработал в самом начале проекта - в 2001-2003 годах, когда у него был только планшетный сканер.
После этого он приобрёл мощный автоматический сканер для обработки микрофильмов (Wicks and Wilson Scanstation production-level microfilm scanner), наладил взаимодействие с библиотеками и запустил поточное производство. Так что последние 14 лет он оцифровывал микрофильмы, а не сами газеты.
Работает дед по 70-80 часов в неделю, и его работа заключается в том, чтобы распаковать привезённые ему микрофильмы, вставить их в мощный сканер-автомат и получить на выходе готовые сканы, практически не требующие дополнительной обработки. Их сразу можно отправлять на сайт.
Так что основную работу проделали десятки библиотекарей, десятилетиями превращавшие бумажные газеты в микрофильмы. А дед пользуется результатами их титанического труда. Это, конечно, не умаляет его заслуг - но объясняет его небывалую для сканировщика "производительность"...
Подробности - здесь:
http://www.thecrowleycompany.com/long-time-client-uses-wwl-scanners-digitize-26-million-newspaper-images/