Р. С. Гиляревский основы информатики курс лекций
Вид материала | Курс лекций |
СодержаниеЗаключительная лекция Идеи и методы информатики |
- С. Н. Постовалов Программирование в системе 1С: Предприятие 7 (компонента "Бухгалтерский, 899.42kb.
- Программа № «Математические основы информатики» (элективный курс) образовательная,, 124.66kb.
- Лекция №11 Сжатие изображений Курс лекций «Алгоритмические основы машинной графики», 54.41kb.
- Основы семейной психопедагогики (курс лекций), 11111.59kb.
- О. В. Свидерская Основы энергосбережения Курс лекций, 2953.76kb.
- Курс лекций введение в профессию "социальный педагог", 4415.45kb.
- Пояснительная записка 3 Содержание разделов и тем 5 Элективный курс «Математические, 106.07kb.
- Курс лекций по дисциплине " основы компьютерных технологий" Часть I. Microsoft Word, 432.92kb.
- Урок на тему «Решение логических задач с помощью электронных таблиц ms excel\ Раздел, 149.53kb.
- Это нескучное делопроизводство, 58.75kb.
Заключительная лекция
Идеи и методы информатики
За время становления информатики в ней выработан ряд специфических идей и методов, которые не были известны библиотеко- и библиографоведению или какой-либо другой смежной науке или научной дисциплине. Важнейшими из этих идей и методов являются следующие:
– координатное индексирование документов и других объектов соответствующими характеристиками – ключевыми словами и дескрипторами;
– использование в качестве дескрипторов классов условно эквивалентных ключевых слов;
– инвертированная организация поисковых массивов;
– использование ключевых слов, выбираемых из заглавий, рефератов или текстов документов, для их координатного индексирования;
– использование тезауруса как средства представления знаний, полезного для информационного поиска, автоматического перевода текстов и других информационных процессов;
– избирательное распространение информации о релевантных документах;
– интерактивный (диалоговый) поиск документов и информации;
– ранжирование документов, выдаваемых при поиске, по степени их релевантности;
– кластерный и другие методы автоматической классификации документов;
– использование библиографических ссылок для информационного поиска научных документов и решения наукометрических задач путем создания специальных указателей и баз данных;
– методы изучения явлений роста, рассеяния (С. Бредфорд) и старения публикаций, а также определения их информационной ценности.
На первый взгляд некоторые из перечисленных идей и методов могут показаться мелкими или не поднимающимися над уровнем здравого смысла. На самом деле, за внешней простотой этих идей и методов скрыт глубокий смысл, не всегда понимаемый в полной мере даже многими из тех специалистов, которые используют эти идеи и методы в своей практической деятельности. Даже для многих библиотековедов и информатиков до сих пор остается непонятной логическая сущность координатного индексирования. Понятие дескриптора тоже в большинстве случаев трактуется ими весьма упрощенно, что, несомненно, препятствует разработке эффективных информационно-поисковых языков дескрипторного типа1.
Далеко не все специалисты по информатике понимают, что информационно-поисковый тезаурус – это не только двуязычный словарь, но и специализированный справочник, в котором приводится логическая информация, необходимая для адекватного перевода с естественного языка на информационно-поисковый. Это непонимание проявляется в том, что информационно-поисковыми тезаурусами называют любые упорядоченные множества терминов – таблицы десятичной классификации, рубрикаторы информационных изданий, словники предметных указателей. До сих пор не разработана научная методика построения и использования таких тезаурусов, хотя от их качества в значительной мере зависят результаты информационного поиска.
Построение теоретических основ любой науки и научной дисциплины невозможно без разработки системы ее основных понятий и специальной терминологии. В информатике это было сделано уже на начальных этапах ее формирования. Информатики сознавали необходимость изучения структуры, содержания и динамики потоков научной и другой семантической информации. Для этого были разработаны и апробированы соответствующие методы, которые могут быть использованы не только в сфере научной коммуникации, но и в других сферах общественной жизни. Было продолжено и углублено начатое еще в библиографоведении изучение рассеяния публикаций определенной отрасли знаний, предмета или проблемы по периодическим изданиям, которое известно как «закон рассеяния Бредфорда».
Изучение специфики информационных потребностей ученых и специалистов, изыскание наиболее эффективных способов их удовлетворения привели к выработке понятий «релевантности» и «пертинентности». Эти понятия легли в основу теории информационного поиска, которая несомненно является крупным вкладом информатики в современную науку. В рамках этой теории были сформулированы понятия «информационно-поискового языка», «поискового образа документа», «поискового предписания» и «критерия выдачи». Были также разработаны способы оценки эффективности информационного поиска, без чего было бы невозможно сравнение разных информационно-поисковых систем с целью их совершенствования. Особенно значительным достижением информатики является разработка метода координатного индексирования документов и других объектов поиска, а также дескрипторных информационно-поисковых языков и тезаурусов.
Идеи и методы информатики используются во всех сферах интеллектуальной деятельности – везде, где сообщения облекаются в форму документа и становятся объектом аналитико-синтетической переработки, долговременного хранения и достаточно частого поиска и использования. В качестве таких сообщений могут выступать не только научные документы, но и газетные статьи, фотоснимки, опубликованные тексты радиопередач, архивные материалы, банковские счета, бухгалтерские документы и т. п.
При создании автоматизированных информационных систем, которые охватывают документы, не относящиеся к сфере науки и техники, как правило, не требуется применения каких-либо иных методов и средств, чем те, которые разработаны информатикой для научных документов. Более того, для этого обычно оказываются достаточными наиболее простые методы. Сказанное в полной мере относится и к сфере материально-технического снабжения, когда объектами классификации (индексирования), хранения, поиска и выдачи являются не документы, а материальные объекты – промышленные изделия, запасные части и т. п.
Информатика все больше ориентируется на использование компьютеров, микрофотографии и средств массовой коммуникации. В последние десятилетия для поиска документальной и фактографической информации, а также для дистанционной передачи копий научных документов все шире используются каналы и средства телеграфной, телефонной и телевизионной связи. В последние годы особенно интенсивно развиваются компьютерные сети. Ясно, что использование компьютеров и других новейших технических средств, а также их быстрое совершенствование оказывают сильное влияние на развитие определенных методов информатики.
Следует, однако, понимать, что компьютеры и другая современная информационная техника служат лишь инструментами для решения задач информатики. Их использование для решения задач аналитико синтетической переработки информации базируется в основном, если не исключительно, на идеях и методах, разработанных в рамках информатики. Между тем иногда складывается неверное впечатление, что решающим фактором в «индустрии информации» являются применяемые в ней технические средства, а идеи и методы, на основе которых производится переработка информации, играют второстепенную роль. Хорошо известно, что компьютеры работают по определенным программам, разработанным на основе идей и представлений, лежащих за пределами программирования. Рассмотрение конкретных примеров решения информационных задач при помощи средств автоматизации (например, автоматизированных информационных систем в медицине) показывает, что все они основаны на идеях и методах информатики.
Особенно широкое распространение получил метод координатного индексирования ключевыми словами, который ныне используется в самых разнообразных областях. Изолированные ключевые, стержневые слова (нем. Stichwort), выбираемые из заглавий книг, использовались для составления каталогов немецких библиотек еще в XIX в. Сущность метода информатики – в установлении координатной связи между ключевыми словами, выбранными для индексирования документа, в их соподчинении, логическом умножении. С практической точки зрения этот метод позволил автоматизировать индексирование документов, а также их поиск по произвольным сочетаниям признаков (с использованием булевой и «пороговой» логик) – особенно в режиме диалога. Не в меньшей степени этот метод ценен и теоретически, поскольку сделал объектом соответствующих исследований семантическую и знаковую структуру текстов на естественных языках, без чего невозможна автоматическая переработка таких текстов в системах искусственного интеллекта. Нельзя забывать и о том, что этот метод был разработан и применялся еще до появления первых компьютеров.
Примером того, насколько важную роль в современных автоматизированных информационных системах играют идеи и методы информатики, может служить японский проект создания ЭВМ пятого поколения. Главным принципом проекта являлось создание сверхбыстродействующих компьютеров, ориентированных на использование «баз знаний», т. е. накопленных и особым образом организованных декларативных и процедурных знаний о соответствующих фрагментах внешнего мира. Но такая задача в информатике начала обсуждаться несколько десятилетий назад. Концептуальным аналогом «базы знаний» можно считать тезаурус как семантическую сетевую структуру. Тезаурус, используемый при поиске документов, является проблемно ориентированным вариантом «базы знаний».