37 миллионов старых газетных страниц выложены в Сеть
Опубликовано сб, 24/12/2016 - 09:19 пользователем DeMorte
Forums: Как создать самый большой архив периодики в домашних условиях? Американец Том Триниски просто вооружился сканером и взялся за дело в собственной гостиной. Работая в одиночку, Том Триниски сумел оцифровать более 37 миллионов страниц старых газет — это больше, чем в американской Библиотеке Конгресса (крупнейшая библиотека мира), — сообщает Newtonew. Результаты своего труда он выкладывает в открытый доступ на сайте Fulton History, где можно найти архивы более 1000 газет штата Нью-Йорк, некоторых других штатов и Канады. В архиве, который составитель регулярно обновляет, содержатся издания с 1795 по 2007 год. Триниски — инженер на пенсии и любитель старины. Над сайтом и контентом он работал в одиночку, в своём доме. Четырнадцать лет назад он решил отсканировать коллекцию старых открыток с видами округа Фултон, Нью-Йорк (его родной район), чтобы поделиться ими в интернете. Впоследствии к открыткам добавились заметки, рекламные объявления, некрологи, печатные издания. Ресурс до сих пор называется в честь округа Фултон, хотя материалы давно вышли за первичные географические границы. Для оцифровки газет используется программа для оптического распознавания символов, которая иногда ошибается из-за того, что некоторые издания очень старые. Также создатель сайта задействовал микрофильмы, на которых есть следы царапин и пыли, однако это добавляет старым газетным страницам обаяния. Сайт Fulton History не всегда справляется с наплывом гостей, и временно бывает недоступен из некоторых точек мира. Если такое случилось, можно заглянуть на Chronicling America, ещё один открытый ресурс с историческими газетами, на сайт с архивами газет от Бруклинской публичной библиотеки, или прошерстить базу данных Нью-Йоркской публичной библиотеки — здесь тоже есть множество старых изданий, и не только американских.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 2 часа
sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 неделя sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 недели sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 недели larin RE:Пропал абонемент 1 месяц Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц tvv RE:faq brainstorm =) 1 месяц Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 месяц Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 неделя larin RE:абонемент не обновлен 1 месяц sem14 RE:За иллюминатором (серия) - чего не хватает? 1 месяц sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 месяц Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 2 месяца tvv RE:DNS 2 месяца MrMansur RE:<НРЗБ> 2 месяца Stager RE:Беженцы с Флибусты 2 месяца Впечатления о книгах
udrees про Володин: Газлайтер. Том 10 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
14 03 Достаточно рядовое продолжение серии, читается увлекательно, если не обращать внимания на примитивные описания и несерьезные разговоры. Школа у героя закончилась, но школа в его голове осталась. Сам он так же крут, всех врагов ………
udrees про Володин: Газлайтер. Том 9 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
14 03 Для любителей серии и кого устраивают такие «взрослые сказки». Главный герой все так же крут, что спокойно побеждает даже своих учителей в Академии. Ну и кстати наконец-то заканчивает свою школу. Проблемную тему с любовным ……… Оценка: неплохо
udrees про Вальтер: Браконьер 2 (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература)
14 03 Автору понравилась своя вселенная про вампиров, что параллельная история приключений еще одного героя тоже не стала лишней. В принципе сюжет 1 и 2 книг похожи на сюжет из аналогичной серии Морзе. Герой все такой же быстро ……… Оценка: хорошо
Олег Макаров. про Повар
14 03 Отлично же. Какой-то Макс Фрай прямо даже местами. И написано хорошо, и герои объёмные, и авторы почти не переигрывают
Stager про Валин: Развод по-шпионски (Героическая фантастика, Фэнтези)
13 03 Я наконец понял, что меня раздражает в последних книгах автора. В самом начале в произведениях были как бы положительные герои. Ну, умные, добрые, честные... В конце - всё по культурному, по-европейски: все одинаковое ……… Оценка: неплохо
Олег Макаров. про Бывает и хуже?
12 03 Как будто дубль книги “Двадцать два несчастья” авторов Д.Сугралинов, А. Фонд Ну прямо очень похоже, и написано так же неуклюже. И ту я тоже не дочитал, бросил
Sello про Кавабата: Тысячекрылый журавль (Современная проза)
11 03 Очень многоплановое произведение, в котором, как это свойственно вообще японской литературе, через пунктирное вырисовывание характеров героев, противопоставляются красота и уродство, красота живая, полная переживаний (Оота ……… Оценка: отлично!
nik_ol про Донцова: Зеркало бедного зайца (Иронический детектив, Детективы: прочее)
11 03 Да когда же вы новое выложите уже, а, ребятки?... Оценка: хорошо
Oleg68 про Зоран Чирич
11 03 Книга сильно изобилует ненормативной лексикой. если ее убрать , то получится неплохая криминальная драма
Isais про Голотвина: Домашний учитель для чудовища [СИ] (Боевая фантастика, Социальная фантастика, Самиздат, сетевая литература)
08 03 «Домашний учитель для чудовища» — то же, что и «Педагогическая баллада» этих же авторов, сюжет и фабула совпадают. Но за счет добавления деталей, их переакцентировки, более прописанного социального фона именно этот вариант ……… Оценка: хорошо
Barbud про Смолин: Ван Ван из Чайны 4 (Социальная фантастика, Попаданцы, Самиздат, сетевая литература)
08 03 Первые три части были более-менее читабельны, на четвертой я сломался. Смрадным потоком попёрло политиканство, рассуждения о патриотизме, охаивание тех, кто не разделяет идеи этого самого китайского патриотизма и т.д. Читать дальше не вижу смысла. Оценка: нечитаемо
Isais про Аренев: Порох из драконьих костей (Детская фантастика, Городское фэнтези, Самиздат, сетевая литература)
08 03 Просто поражает, как в 2015-м году писатель точно, хоть и метафорично, но в деталях описал весь бытовой уклад, который сложился в России 2024-2026 гг., многое, что происходит в сегодняшней России и что, по прогнозам, еще будет ……… Оценка: хорошо |
RE:37 миллионов старых газетных страниц выложены в Сеть
Вот это мужик! Респект и уважуха!
От будут ли правообгладатели ему втыкать за использование материалов?
RE:37 миллионов старых газетных страниц выложены в Сеть
Из FAQ_HELP_INDEX:
В. Могу я добавить статью на этот сайт?
О. Ага. Если газета была опубликована в штате Нью-Йорк и не попадает под копирайт...
===
И на первой странице:
Мери Крисмас, библиотекарь!
RE:37 миллионов старых газетных страниц выложены в Сеть
Ну если оно в сети, тогда и все смогут загребти себе. Вот и если начнется массовое пополнение библиотек газетами...
RE:37 миллионов старых газетных страниц выложены в Сеть
Что-то сильно я сомневаюсь что именно 37 млн страниц газет, скорее всего. как пишут в статистике больших библиотек "единиц хранения" - отдельных открыток, рекламных обьявлений и т.д.
Попробуем посчитать.
37 000 000 / 14 лет = 2 642 000 страниц в год / 365 дней = 7 241 страница в день /12 часов = 600 стр в час или 6 страниц в минуту.
Многовато выходит, и это чисто сканирование. + какая-никакая обрезка + каталогизация + выкладка в Сеть.
RE:37 миллионов старых газетных страниц выложены в Сеть
Дети помогали. Или еще кто то.
А какие там страницы, может не такие как у нас. Тогда по несколько страниц за проход.
RE:37 миллионов старых газетных страниц выложены в Сеть
А можно задать вопрос: вы сами пробывали сканировать газеты?
RE:37 миллионов старых газетных страниц выложены в Сеть
Нет.
Но при современному оборудовании много чего возможно.
RE:37 миллионов старых газетных страниц выложены в Сеть
Расчёт - правильный. В исходных статьях ещё написано, что дедуля в последние три года оцифровывает по 250 000 страниц в месяц - те же самые 6 страниц в минуту (если считать, что он работает 24 часа в сутки, не питаясь и не отлучаясь в туалет).
Я тоже заинтересовался гигантскими цифрами в заметке и немного посчитал. А потом полез на англоязычные сайты и все странности исчезли. Всё гораздо проще.
С бумажными газетами дед недолго поработал в самом начале проекта - в 2001-2003 годах, когда у него был только планшетный сканер.
После этого он приобрёл мощный автоматический сканер для обработки микрофильмов (Wicks and Wilson Scanstation production-level microfilm scanner), наладил взаимодействие с библиотеками и запустил поточное производство. Так что последние 14 лет он оцифровывал микрофильмы, а не сами газеты.
Работает дед по 70-80 часов в неделю, и его работа заключается в том, чтобы распаковать привезённые ему микрофильмы, вставить их в мощный сканер-автомат и получить на выходе готовые сканы, практически не требующие дополнительной обработки. Их сразу можно отправлять на сайт.
Так что основную работу проделали десятки библиотекарей, десятилетиями превращавшие бумажные газеты в микрофильмы. А дед пользуется результатами их титанического труда. Это, конечно, не умаляет его заслуг - но объясняет его небывалую для сканировщика "производительность"...
Подробности - здесь:
http://www.thecrowleycompany.com/long-time-client-uses-wwl-scanners-digitize-26-million-newspaper-images/