Р. С. Гиляревский основы информатики курс лекций

Вид материалаКурс лекций

Содержание


Заключительная лекция Идеи и методы информатики
Подобный материал:
1   ...   47   48   49   50   51   52   53   54   55

Заключительная лекция

Идеи и методы информатики


За время становления информатики в ней выработан ряд специфических идей и методов, которые не были известны библиотеко- и библиографоведению или какой-либо другой смежной науке или научной дисциплине. Важнейшими из этих идей и методов являются следующие:

– координатное индексирование документов и других объектов соответствующими характеристиками – ключевыми словами и дескрипторами;

– использование в качестве дескрипторов классов условно эквивалентных ключевых слов;

– инвертированная организация поисковых массивов;

– использование ключевых слов, выбираемых из заглавий, рефератов или текстов документов, для их координатного индексирования;

– использование тезауруса как средства представления знаний, полезного для информационного поиска, автоматического перевода текстов и других информационных процессов;

– избирательное распространение информации о релевантных документах;

– интерактивный (диалоговый) поиск документов и информации;

– ранжирование документов, выдаваемых при поиске, по степени их релевантности;

– кластерный и другие методы автоматической классификации документов;

– использование библиографических ссылок для информационного поиска научных документов и решения наукометрических задач путем создания специальных указателей и баз данных;

– методы изучения явлений роста, рассеяния (С. Бредфорд) и старения публикаций, а также определения их информационной ценности.

На первый взгляд некоторые из перечисленных идей и методов могут показаться мелкими или не поднимающимися над уровнем здравого смысла. На самом деле, за внешней простотой этих идей и методов скрыт глубокий смысл, не всегда по­ни­мае­мый в полной мере даже многими из тех специалистов, которые используют эти идеи и методы в своей практической деятель­ности. Даже для многих библиотековедов и информатиков до сих пор остается непонятной логическая сущность координатного ин­дек­сирования. Понятие дескриптора тоже в большинстве случаев трактуется ими весьма упрощенно, что, несомненно, препятствует разработке эффективных информацион­но-по­исковых языков дескрипторного типа1.

Далеко не все специалисты по информатике понимают, что информационно-поисковый тезаурус – это не только двуязычный словарь, но и специализированный справочник, в котором приводится логическая информация, необходимая для адекватного перевода с естественного языка на информационно-поисковый. Это непонимание проявляется в том, что информационно-поисковыми тезаурусами называют любые упорядоченные множества терминов – таблицы десятичной классификации, рубрикаторы информационных изданий, словники предметных указателей. До сих пор не разработана научная методика построения и использования таких тезаурусов, хотя от их качества в значительной мере зависят результаты информационного поиска.

Построение теоретических основ любой науки и научной дисциплины невозможно без разработки системы ее основных понятий и специальной терминологии. В информатике это было сделано уже на начальных этапах ее формирования. Информатики сознавали необходимость изучения структуры, содержания и динамики потоков научной и другой семантической информации. Для этого были разработаны и апробированы соответствующие методы, которые могут быть использованы не только в сфере научной коммуникации, но и в других сферах общественной жизни. Было продолжено и углублено начатое еще в библиографоведении изучение рассеяния публикаций опреде­лен­ной отрасли знаний, предмета или проблемы по периодическим изданиям, которое известно как «закон рассеяния Бредфорда».

Изучение специфики информационных потребностей ученых и специалистов, изыскание наиболее эффективных способов их удовлетворения привели к выработке понятий «релевантности» и «пертинентности». Эти понятия легли в основу теории информационного поиска, которая несомненно является крупным вкладом информатики в современную науку. В рамках этой теории были сформулированы понятия «информационно-поискового языка», «поиско­во­го образа документа», «поискового предписания» и «критерия выдачи». Были также разработаны способы оценки эффектив­но­сти информационного поиска, без чего было бы невозможно срав­нение разных информационно-поиско­вых систем с целью их со­вер­шенствования. Особенно значительным достижением информатики является разработка метода координатного индексирования документов и других объектов поиска, а также дескрипторных информационно-поисковых языков и тезаурусов.

Идеи и методы информатики используются во всех сферах интеллектуальной деятельности – везде, где сообщения облекаются в форму документа и становятся объектом аналитико-синтети­че­ской переработки, долговременного хранения и достаточно частого поиска и использования. В качестве таких сообщений могут вы­сту­пать не только научные документы, но и газетные статьи, фо­то­снимки, опубликованные тексты радиопередач, архивные мате­риалы, банковские счета, бухгал­тер­ские документы и т. п.

При создании автоматизированных информационных систем, которые охватывают документы, не относящиеся к сфере науки и техники, как правило, не требуется применения каких-либо иных методов и средств, чем те, которые разработаны информатикой для научных документов. Более того, для этого обычно оказываются достаточными наиболее простые методы. Сказанное в полной мере относится и к сфере материально-технического снабжения, когда объектами классификации (индексирования), хранения, поиска и выдачи являются не документы, а материальные объекты – промышленные изделия, запасные части и т. п.

Информатика все больше ориентируется на использование компьютеров, микрофотографии и средств массовой коммуни­ка­ции. В последние десятилетия для поиска документальной и фактографической информации, а также для ди­стан­ционной передачи копий научных документов все шире используются каналы и средства телеграфной, телефонной и те­ле­визионной связи. В последние годы особенно интенсивно развиваются компьютерные сети. Ясно, что использование компьютеров и других новейших технических средств, а также их быстрое совершенствование оказывают сильное влияние на развитие определенных методов информатики.

Следует, однако, понимать, что компьютеры и другая современная информационная техника служат лишь инструментами для решения задач информатики. Их использование для решения задач аналитико синте­тической переработки информации базируется в основном, если не исключительно, на идеях и методах, разработанных в рамках информатики. Между тем иногда складывается неверное впечатление, что решающим фактором в «ин­дустрии информации» являются применяемые в ней технические средства, а идеи и методы, на основе которых производится переработка информации, играют второстепенную роль. Хорошо известно, что компьютеры работают по определенным программам, разработанным на основе идей и представлений, лежащих за пределами программирования. Рассмотрение конкретных примеров решения информационных задач при помощи средств автоматизации (например, автоматизированных информационных систем в медицине) показывает, что все они основаны на идеях и методах информатики.

Особенно широкое распространение получил метод координатного индексирования ключевыми словами, который ныне используется в самых разнообразных областях. Изолированные ключевые, стержневые слова (нем. Stichwort), выбираемые из заглавий книг, использовались для составления каталогов немецких библиотек еще в XIX в. Сущность метода информатики – в установлении координатной связи между ключевыми словами, выбранными для индексирования документа, в их соподчинении, логическом умножении. С практической точки зрения этот метод позволил автоматизировать индексирование документов, а также их поиск по произвольным сочетаниям признаков (с использованием булевой и «пороговой» логик) – особенно в режиме диалога. Не в меньшей степени этот метод ценен и теоретически, поскольку сделал объектом соответствующих исследований семантическую и знаковую структуру текстов на естественных языках, без чего невозможна автоматическая переработка таких текстов в системах искусственного интеллекта. Нельзя забывать и о том, что этот метод был разработан и применялся еще до появления первых компьютеров.

Примером того, насколько важную роль в современных автоматизированных информационных системах играют идеи и методы информатики, может служить японский проект создания ЭВМ пятого поколения. Главным принципом проекта являлось создание сверхбыстродействующих компьютеров, ориентирован­ных на использование «баз знаний», т. е. накопленных и особым образом организованных декларативных и процедурных знаний о соответствующих фрагментах внешнего мира. Но такая задача в информатике начала обсуждаться несколько десятилетий назад. Концептуаль­ным аналогом «базы знаний» можно считать тезаурус как семан­ти­ческую сетевую структуру. Тезаурус, используемый при поиске документов, является проблемно орие­нти­ро­ванным вариантом «базы знаний».