B147858 Рубрикатор как инструмент информационной навигации
Опубликовано пт, 15/05/2009 - 12:27 пользователем oldvagrant
Forums: Рубрикатор как инструмент информационной навигации to Ulenspiegel
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
PipboyD RE:Прошу переформатировать, распознать, etc... 5 дней
Aliki RE:Подайте бедному копеечку на книжку с литреса... 1 неделя konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 неделя Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 неделя fixel RE:Пропал абонемент 1 неделя sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 3 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 месяц sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 1 месяц Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 2 месяца tvv RE:faq brainstorm =) 2 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 2 месяца Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 3 недели larin RE:абонемент не обновлен 2 месяца sem14 RE:За иллюминатором (серия) - чего не хватает? 2 месяца sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 2 месяца Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 2 месяца tvv RE:DNS 2 месяца Впечатления о книгах
mysevra про Престон: Граница льдов [= Ледовый барьер] [The Ice Limit ru] (Научная фантастика, Триллер)
28 03 Такая книга фурор не произведёт и перечитывать её вряд ли захочешь, а вот для одного раза вполне достойно. Оценка: хорошо
mysevra про Силлов: Закон Проклятого [litres] (Боевая фантастика)
28 03 Неплохая задумка: кто не любит истории об особенных людях. Кот, опять же, знатный. А изложено паршивенько, кустарно изложено. Оценка: неплохо
mysevra про Хань: Тишина. Спокойствие в мире, полном шума (Психология, Самосовершенствование)
28 03 Прекрасная книга. Конечно, если не забывать практиковать, а вот тут уже проблемка. Оценка: хорошо
udrees про Даймонд: Почему нам так нравится секс [Why Is Sex Fun? The Evolution of Human Sexuality ru] (Эротика, Секс, Научпоп, Секс и семейная психология)
28 03 Небольшая научно-популярная книга про проблемы размножения, сексуальности у людей и животных. Читать интересно, автор описывает странности поведения в этой области, почему люди связаны с животными и в то же время так сильно ……… Оценка: хорошо
udrees про Каку: Будущее человечества. Колонизация Марса, путешествия к звездам и обретение бессмертия [The Future of Humanity. Terraforming Mars, Interstellar Travel, Immortality, and Our Destiny Beyond Earth ru] (Философия, Астрономия и Космос)
28 03 Рекомендую прочитать эту книгу всем любителям астрономии, квантовой физики, кто еще мечтает о космических путешествиях, колонизации других планет, и даже рассуждает о будущей смерти Вселенной. Книга написана простым и доступным ……… Оценка: хорошо
udrees про Володин: Газлайтер. Том 12 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
28 03 Опять глупая детская сказка про прожигающего свою жизнь телепата, который сожительствует с 4-мя женами, богатеет каждую секунду и постоянно истребляет всех своих врагов. Как ни странно, любое появление этого типа на балу или ……… Оценка: неплохо
valeryma про Савицкий: Идеальный танк для «попаданцев» (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
27 03 Очередной поток бессознательного от знаменитого на весь жанр альтернативной истории ресурса "В вихре говна". Редкостное убожество, которому до шедевров Поселягина - как до Луны пешком. Оценка: нечитаемо
Barbud про Шопперт: Польская карта [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
25 03 Автора отличает какая-то лютая, пещерная полонофобия. Создается впечатление, что над ним в детстве-юности поляки надругались, вот он теперь и мстит им всем таким образом) Оценка: нечитаемо
Александр Лагода про Амлинский: Тучи над городом встали (Советская классическая проза)
24 03 В числе того, что следует прочесть из военной прозы -- эта повесть. Читая, дышите глубже.
nik_ol про Полякова: Племя Майи (Детективы: прочее)
24 03 На Флибусте уже давно лежит новая книга, а тут почему нет? Правда, я уже прочитала, и рада, что дело Татьяны продолжает Анна, люблю Полякову и очень оггорчилась, когда та скончалась. Оценка: отлично!
mysevra про Нэйлер: Гора в море [litres] (Научная фантастика)
23 03 Как по мне, маловато триллера и слишком много размышлений о природе сознания и экологии. Вот всё то же самое, только поживее – было бы интереснее. Оценка: неплохо |
Отв: B147858 Рубрикатор как инструмент информационной навигации
Легко. Тезис первый, он же главный - "хоть чучелом, хоть тушкой, но ехать надо".
Stager - отмалчивается, как девушка в ответ на вопрос "Ты меня любишь?", а найти что-либо техническое, не зная заранее названия, в библиотеке ... сложновато.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну хорошо. Предположим, случилось страшное, и Вас заинтересовало программирование PIC-контроллеров. Поиск по "PIC" в библиотеке результатов не даст, поиск по "контроллеры" - даст набор книг на "Генезисе", но - если искомая книга называлась "Программирование средств промышленной автоматизации" - этот бесценный труд пролетит мимо Вас.
Найти библиографию по теме где-нибудь в и-нете, безусловно, можно, но хотелось бы, чтобы Либрусек был в этом смысле вещью самодостаточной.
Отв: B147858 Рубрикатор как инструмент информационной навигации
А чё я, чё я-то? Я ваще завсегда за.
Мой тезис таков:
Отличие информационной организации от склада - в наличии тематического поиска. Любая библиотека - что электрическая, что бумажная - это в первую очередь склад (с более или менее развитой логистикой). А библиотекой, т.е., храмом знаний, этот склад делают средства тематического поиска.
Раньше в бумажных библиотеках такие средства были - тематический каталог, библиографические издания плюс собственно библиографы. Теперь всё умерло, и этот механизм погребён под завалами информации. С альтернативами, в общем, плохо.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Я бы, честно говоря, к поиску добавил еще и навигацию по классификационному дереву. Что-то типа "А что у нас тут по программированию есть ? А для Web ? А чтоб еще и PHP присутствовало ?"
При любом раскладе - то, что "всё плохо", мы уже поняли. Теперь хотелось бы узнать, что надо сделать, чтобы всё опять стало хорошо :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну это и есть оно.
Правильно в наше время это оно должно выглядеть так:
Юзер в свободной форме даёт запрос.
В ответ он получает список понятий, соответствующих запросу.
Кликнув по понятию, юзер переходит в ту или иную классификационную систему, в то место, где это понятие находится.
И видит там книжки - по теме, по теме уже, по теме шире, по теме сбоку.
А если не понравилось - то выбрать список понятий, которым требуемое должно удовлетворять.
Тогда и будет -
Такое "оно" называется - "сужать запрос по тезаурусу". Но в современной программистской мысли почему-то модно расширять...
Как минимум - не класть книжки в картинках....
Отв: B147858 Рубрикатор как инструмент информационной навигации
Это невозможно.
Миссия pdf, кстати, была в частности в том, чтобы совместить текстовое представление с обеспечением сохранности содержания. Иначе научные статьи публиковали бы в rtf, скажем. Хорошо, если djvu или pdf файл имеет текстовый слой. В том случае, если он получен из авторского текста. Если из OCR - то такая естественнонаучная книжка годится только на шпаргалки студентам.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Книжка в картинках - это всё равно, что ничего.
Господа! Сказать файнридеру "распознать всё" - это один клик. Второй - создать pdf с текстовым слоем. И не обязательно класть текстовый слой поверх картинки - можно и наоборот.
Даже если результат будет содержать массу дефектов распознавания, в нём исчезнут формулы и картинки - всё равно его будет достаточно для более-менее адекватного автоматического индексирования. А альтернативы автоматическому индексированию нет.
Любая самая крутая классификация требует, чтобы кто-то соотнёс книгу с этой самой классификацией. Проиндексировал, типа. В процессе систематизации или предметизации. Три четверти книг в этой стране систематизируются примерно двадцатью сотрудниками Ленинской библиотеки. По ББК. Их не будет больше, и работать лучше они тоже не будут - работа эта низкооплачиваемая, однако требует наличия ума и образования.
Очевидно, тексты, книгами не являющиеся, никто никогда не проиндексирует. И какого тематического поиска вы хотите? Особенно, если курочите заглавия - лишая себя возможности воспользоваться плодами труда профессиональных систематизаторов?
Альтернатива - автоматическое индексирование. А для художественной литературы - вообще единственная возможность, ибо её никто не систематизирует. Да и классификаторов для неё нет.
Автоматическое индексирование даёт посредственный результат, требует специально заточенных классификационных систем - но это единственный путь. Но что-то вы не пылаете энтузиазмом...
Резюме: нет волшебного рецепта. Вот я скажу - и всё будет. Нет. Чтобы было - нужно делать. Нужно составить и поддерживать рубркатор. Нужно иметь текстовые книги. Нужно поддерживать в правильности их реквизиты. Нужно как-то соотнести книги с рубрикатором. И только потом - воспользоваться плодами.
А я вообще полагаю, что большинство народу тайно глубоко убеждено, что компьютер умеет думать, и если подождать -он всё придумает. Сам.
Отв: B147858 Рубрикатор как инструмент информационной навигации
Вы хотите сказать, что в документе djvu или pdf могут параллельно существовать распознанный текстовый слой (пусть коряво распознанный, но невидимый для читающего и видимый для инструмента индексирования) и тот же текст в виде обычной картинки?
Если так, то ситуация кардинально меняется...
Отв: B147858 Рубрикатор как инструмент информационной навигации
В DJVU - однозначно может. И, более того, там даже может существовать оглавление, распознаваемое djvulibre (по крайней мере).
Более того, есть даже инструмент, позволяющий автоматизировать процесс (DjvuOCR), хоть и не "в один клик". И если суровый Stager предлагает сделать стандартом для добавления технической литературы DJVU с текстовым слоем и оглавлением (как минимальное требование), я, наверное, подчинюсь :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Я бы предложил - толку что?
Отв: B147858 Рубрикатор как инструмент информационной навигации
Нууу... Мне самому такая мысль уже приходила в голову. О том, чтобы нераспознанную книжку - сперва в морилку, потом в распрямилку, распознать и сделать оглавление. Проблема в том, что с технологией всего процесса я еще только разбираюсь, получается медленно - а залить что-нибудь свеженькое иногда свербит, и сильно. Скажем так - буду стремиться к окультуриванию. Но - проблемы классификации это автоматом не решает :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Не знаю за djvu, но длля pdf -
Отв: B147858 Рубрикатор как инструмент информационной навигации
Ну почему же... я - пылаю. Точнее, тлею. Пока что на этапе думания, да и то - с продолжительными остановками (реал, знаете ли, заедает...). Но вот уже, в дополнение к предыдущему разговору, додумался до того, что neural network для автораспознавания жанров художки таки придётся использовать. И до того, что не так neural network страшен, как его малюют - есть вполне пригодные готовые библиотеки, я остановился на FANN. Теперь вот думаю, нельзя ли всё-таки и подбор кивордов (ага, лошадей с мечами) тоже автоматизировать. Пока, правда - тупик...
Отв: B147858 Рубрикатор как инструмент информационной навигации
Звездолет на дикой планете. Звездолет упоминается раз пять, лошади с мечами - раз 100. К какому жанру причислит такую книгу ИскИн?
Отв: B147858 Рубрикатор как инструмент информационной навигации
К фентези. And rightly so.
Отв: B147858 Рубрикатор как инструмент информационной навигации
А как? Я совсем не понимаю в нейроных сетях, но, вроде, обучающая последовательность должна иметь однозначные критерии соответствия определённому результату, причём - одному. Как найти (составить?) текст, стопудово соответствующий одному делению классификации из (хотя бы) двух сотен, и стопудово не соответствующий никакому другому - я не представляю.
Ну тут правда тупик :-) Этот вопрос исследовался и многие пытались. Для отдельного текста - можно. Общие для двух - ну, где-то как-то... Для трёх - уже только местоимения :-)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Не хотелось бы поднимать старый флейм на тему, "что лучше - книга в плохом формате или вообще никакой".
Скажем так - скорость конвертации и вычитки мною книг существенно ниже скорости появления в и-нете любопытной литературы, и с этим я мало что могу поделать.
Но это - что касается программы минимум. А мне, честно говоря, хотелось большего - услышать от Вас, как профессионала, конкретные рекомендации. На уровне "копать здесь, кидать сюда, пока летит - отдыхать" :)
Отв: B147858 Рубрикатор как инструмент информационной навигации
Чисто технически: имя файла отданной книги - горбатое, и сам файл - классический пример того, как не надо использовать djvu. Я полагаю, распознать и закатать в .txt изготовителю помешали исключительно религиозные соображения.