Ю. Н. Антипов Проведен статистический анализ данных, сосредоточенных в паспортах плавок в кислородных конвертерах. Полученные результаты должны стать основой построения моделей конвертерного процесса заданной сложн
Вид материала | Документы |
СодержаниеСписок использованных литературных источников |
- 1. Введение Основы анализа данных. Методология построения моделей сложных систем. Модель, 399.94kb.
- Удк 004. 021+004. 81 Алгоритмы построения маршрута на карте по параметрам, 88.51kb.
- Viii-я Международная школа-семинар «Многомерный статистический анализ и эконометрика», 28.14kb.
- Експериментальна морфологія антипов Н. В., Шкиренко А. Ю., Жиляев Р. А., Антипов, 909.87kb.
- Анализ данных в пакете mathcad + cd: Учебное пособие. 1-е изд. Isbn 978-5-8114-1096-5, 82.07kb.
- Microsoft Power Point. Структура урок, 307.04kb.
- Методика исследования. При изучении данной темы был проведен анализ нормативно-правовой, 129.58kb.
- Содержание программы общее положение Паспорт программы Анализ текущего состояния Цели, 457.66kb.
- До клада, 18.3kb.
- Учебное пособие Допущено Министерством образования Российской Федерации в качестве, 2582.59kb.
УДК 681.51:669.184:658:012.011.56:001.891
АНАЛИЗ ДАННЫХ ПРИ АВТОМАТИЗАЦИИ ИССЛЕДОВАНИЯ
КОНВЕРТЕРНОГО ПРОЦЕССА
Ю.Н. Антипов
Проведен статистический анализ данных, сосредоточенных в паспортах плавок в кислородных конвертерах. Полученные результаты должны стать основой построения моделей конвертерного процесса заданной сложности и максимально возможной адекватности
конвертерный процесс, корреляционный анализ, метод главных компонент, паспорта плавок, моделирование
Кислородно-конвертерный процесс производства стали в одной из своих разновидностей (двушлаковый процесс) делится на два периода [1]. В первом происходит «черновая обработка» металла. Начальные данные первого периода известны не все (в частности, не используется химический состав стального лома). Специфика этого периода – удаление главных вредных примесей (сера, фосфор, марганец и т.п.), в основном содержащихся в чугуне. После скачивания шлака, замера температуры и получения химического анализа стали начинается второй период. В конце этого периода должна получаться сталь с заданными параметрами. Однако фактически всегда по окончании второго периода приходится использовать специальные присадки для доведения химического состава стали до необходимых параметров. Резерв повышения эффективности кислородно-конвертерного процесса прежде всего заключается в увеличении вероятности получения требуемой марки стали и в уменьшении времени плавки.
Конвертерный процесс как реальный источник излучения, являясь объектом исследования, характеризуется прежде всего:
- большими массивами многомерных и разнотипных данных измерений;
- отсутствием механизменных моделей протекания процесса в целом;
- существованием значительного объема неформального знания о протекании процесса, его диагностике и управлении.
Повышение эффективности выплавки стали в кислородных конвертерах предполагает построение специальной автоматизированной системы экспериментальных исследований (АСЭИ). На выходе АСЭИ должны строиться по всей доступной информации (физико-химические механизмы отдельных явлений, экспериментальные данные, неформальное знание) модели протекания конвертерного процесса максимально возможной адекватности.
Настоящая работа посвящена статистическому анализу данных, сосредоточенных в паспортах плавок (выборка – 88 паспортов плавок), с целью дальнейшего построения моделей конвертерного процесса для диагностики, прогнозирования и управления им в автоматизированных системах.
Данные являются фундаментом, на котором затем строятся заключение, выводы, гипотезы любого современного прикладного исследования. Паспортные данные одной плавки – структурная единица данных. Эволюционный путь формирования паспорта плавки позволяет надеяться, что информация, содержащаяся в нем, в основном отражает существенные взаимосвязи металлургического процесса выплавки стали в кислородном конвертере.
В паспорте плавки присутствуют три типа признаков: количественные, порядковые (ранговые) и номинальные. Примером количественных признаков являются температура металла в градусах, вес чугуна в килограммах, процентное содержание химических элементов в стали. Примером порядкового признака является стойкость футеровки – чем больше номер (ранг) футеровки, тем она хуже. Номинальным признаком является продувка аргоном, принимающая всего два значения (продувка имела место, продувки не было). Примером номинального признака является и марка стали как результат плавки. Таким образом, паспортные данные плавок являются разнотипными.
Процесс выплавки стали характеризуется 71 признаком, отмеченным в паспорте плавки.
Из этих данных составлена матрица, в которой строка соответствует отдельной плавке, а столбец – отдельному признаку. Элемент этой матрицы – есть значение k-го признака в i-й плавке (; ). Особенностью матрицы данных являются наличие разнотипных признаков, а также пропуски значений некоторых из них в ряде паспортов. Кроме того, приходится огрублять некоторые данные, чтобы сохранить наибольшее число паспортов плавок для анализа.
При проведении статистического анализа можно проверить наличие различного рода статистических связей каждого признака, характеризующего плавку, со всеми остальными. Это приведет к значительному числу исследуемых связей (порядка 5000), подавляющее большинство из которых не может быть содержательно интерпретировано. Поэтому была предложена стратегия статистического анализа, существенно снижающая количество исследуемых связей.
Специфика конвертерного процесса выплавки стали первоначально индуцирует выделение четырех пересекающихся групп признаков. Внутри каждой группы при статистическом анализе найдены связи, имеющие содержательную интерпретацию.
В первую группу входят признаки, характеризующие начальные данные плавки: вес металлолома; вес, температура и химический состав чугуна. Сюда же входят чистота и расход кислорода за первый период, данные о стали после первого периода: температура и химический состав.
Вторая группа содержит признаки, характеризующие начальные данные процесса плавки (описанные выше); чистота и расход кислорода за второй период; расход присадок, идущих на шлакообразование, за второй период. Сюда же входят данные о стали после второго периода: температура и химический состав.
В третью группу включены признаки, характеризующие сталь после первого и второго периодов: соответствующие температура и химический состав стали; расход кислорода за оба периода; сведения о присадках Si Mn и FeMn (их вес и химический состав); расход присадок, идущих на шлакообразование, за второй период.
Четвертую группу образуют данные о стали после второго периода и разлива стали: соответствующие температура и химический состав; сведения о присадках Si Mn и FeMn (их вес и химический состав); расход алюминия.
На первом этапе обработки данных проведена проверка статистических зависимостей лишь среди признаков, входящих в одну группу.
При дальнейшем проведении анализа все исходные данные стандартизированы, т.е. проведены преобразования, переводящие их в величины с нулевым математическим ожиданием и единичной дисперсией. Это вызвано двумя причинами:
1) данные измерены в различных единицах и их необходимо привести к единообразному виду, предварительно обезразмерив;
2) работая со стандартизированными данными, мы сможем учесть относительную величину вклада каждого признака в искомую статистическую зависимость.
Матрица данных, сформированная на основе информации, содержащейся в паспортах плавок, содержит пропуски. Например, процентное содержание марганца и серы в присадках в некоторых паспортах плавок отсутствует. Возникает задача заполнения этих пропусков. Для решения данной задачи использовался алгоритм заполнения пропусков, описанный в [3].
Матрица данных о выплавках стали содержит разнотипные признаки. Корреляционный анализ разнотипных признаков состоит в вычислении соответствующей меры связи и оценки ее значимости для всех пар признаков. Для пары качественных признаков x и x мерой связи является коэффициент корреляции Пирсона.
При анализе данных первой группы были обнаружены следующие корреляционные связи [4]. Слабые положительные связи (0,21) выявлены между:
а) температурой чугуна и содержанием С, Mn, P, S в стали после первого периода;
б) расходом извести за первый период и теми же элементами С, Mn, P, S;
в) расходом пыли за первый период и содержанием в стали после первого периода.
Слабые отрицательные связи выявлены между:
а) расходом О2 за первый период и содержанием в стали после первого периода;
б) весом металлолома и содержанием Ni в стали после первого периода.
Таким образом, между признаками первой группы не обнаружено ни одной заслуживающей внимания корреляционной связи. Это объясняется главной целью первого периода – устранением в основном вредных примесей. Независимо от их начальной концентрации к концу первого периода химсостав стали (при прочих равных условиях) практически одинаков для различных требуемых марок стали. Это объясняет полученную структуру корреляционных связей.
При анализе данных второй группы получена заслуживающая внимания положительная связь (0,4 между расходом кокса за второй период и содержанием Сu в стали после второго периода.
Найдены слабые положительные связи между:
а) весом чугуна и содержанием Р в стали после второго периода;
б) расходом извести за второй период и содержанием С в стали после второго периода.
Слабые отрицательные зависимости оказались между:
а) весом металлолома и содержанием Сu и Ni в стали после второго периода;
б) расходом пыли за второй период и содержанием S в стали после второго периода.
Малое число значимых связей среди признаков второй группы объясняется теми же причинами, что и при анализе признаков второй группы.
При анализе данных третьей группы получена заслуживающая внимания положительная связь между расходом кокса за второй период и содержанием Сu в стали после второго периода. Остальные корреляционные связи слабые.
При анализе данных четвертой группы найдена сильная положительная корреляционная связь (Si в стали после розлива и весом присадки Si Mn. Заслуживают внимания положительные связи между:
а) весом присадки и содержанием S в стали после второго периода;
б) температурой стали после розлива и весом присадки FeMn;
в) содержанием Р в стали после розлива и содержанием С, Mn, P в стали после второго периода;
г) содержание Ni в стали после розлива и содержанием Cr и Ni в стали после второго периода;
д) весом присадки Si Mn и содержанием С, Mn, Si в стали после розлива.
Впервые найдены заслуживающие внимания отрицательные связи:
а) между температурой стали после розлива и весом присадки Si Mn;
б) между весом присадки FeMn и содержанием Mn, Si, Р в стали после розлива.
Остальные связи являются слабыми. По результатам анализа корреляционных матриц можно сделать вывод, что практически все обнаруженные сильные и заслуживающие внимания связи имеют понятную физико-химическую интерпретацию.
Наибольшее влияние присадки Si Mn и FeMn оказывают на содержание в стали элементов С, Mn, Si, Р, С после II периода и розлива. На содержание в стали других элементов данные присадки существенного воздействия не оказывают.
Исследование данных с помощью метода главных компонент было проведено для тех же четырех групп, что и корреляционный анализ.
Результаты анализа, позволяющие судить о степени информативности построенных главных компонент, приведены в таблице. Из нее видно, что первая главная компонента берет на себя 20-25% обобщенной дисперсии. Исключение составляет вторая группа (здесь на главную компоненту приходится всего 13,76%). Объяснением может служить набор признаков, образующих эту группу (химсостав чугуна, стали после второго периода и присадки). Как следует из корреляционного анализа, указанные признаки практически не обладают никакой взаимосвязью.
Вторая и третья главные компоненты берут на себя по 10-12% обобщенной дисперсии. Начиная с четвертой главной компоненты, этот показатель медленно уменьшается. Поэтому 80% обобщенной дисперсии берут на себя 8-10 главных компонент (часто бывает достаточно 3-4 главных компонент).
Такое свойство исходных данных можно объяснить слабой зависимостью между признаками (что подтверждается корреляционным анализом). Поэтому в матрице данных избыточной информации практически нет. Тем не менее сжатие информации с помощью главных компонент проведено, и вместо исходных 71 признака при малой потере информативности предложено использовать всего 10 новых признаков – построенные главные компоненты.
Таблица. Процент обобщенной дисперсии главных компонент
Группы данных | Процент обобщенной дисперсии, относящейся к ГК | | |||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | |
1 | 21,09 | 13,41 | 12,39 | 8,38 | 7,99 | 6,46 | 5,50 | 5,17 | 4,35 | 3,99 | 88,73 |
2 | 13,76 | 12,68 | 10,34 | 8,22 | 7,29 | 6,25 | 5,90 | 5,28 | 4,90 | 4,43 | 81,05 |
3 | 23,09 | 14,39 | 11,23 | 9,24 | 7,96 | 6,36 | 5,15 | 4,15 | 4,02 | 3,57 | 89,16 |
4 | 27,82 | 14,10 | 9,40 | 7,14 | 6,52 | 5,80 | 4,89 | 4,42 | 3,95 | 2,72 | 86,76 |
Прежде чем перейти к интерпретации главных компонент, обратим внимание, что содержание элементов Mn, Р, Si, S, входящих в химический состав стали, определяется, очевидно, их содержанием в чугуне, а содержание элементов Cr, Ni, Cu – их содержанием в металлоломе. Поэтому можно говорить, что часть химсостава стали обусловлена химсоставом чугуна, а часть – химсоставом металлолома. Такое разделение химсостава на две составляющие вполне согласуется с результатами построения главных компонент.
Для данных первой группы признаков можно считать, что первая главная компонента представляет собой агрегированный показатель – «химсостав стали после первого периода, обусловленный чугуном». Вторая главная компонента интерпретируется как показатель, отвечающий в комплексе за химсостав чугуна. Третья главная компонента отвечает за химсостав стали после первого периода, обусловленный химсоставом металлолома. Четвертая главная компонента включает в себя одновременно такие признаки, как расход кислорода и извести за первый период.
Данные второй группы признаков определяют следующие агрегированные показатели: первая главная компонента – «химсостав стали после второго периода, обусловленный чугуном»; вторая – «химсостав чугуна»; третья – «химсостав стали после второго периода, обусловленный металлоломом»; четвертая – «легирующие добавки в стали после второго периода».
Главные компоненты, полученные при анализе третьей группы признаков, можно интерпретировать следующим образом: первая – «присадки FeMn и Si Mn»; вторая – «химсостав стали после первого периода, обусловленный чугуном»; третья – «химсостав стали после второго периода, обусловленный чугуном»; четвертая – «химсостав стали после первого периода, обусловленный металлоломом».
Аналогично интерпретируются главные компоненты, полученные из четвертой группы признаков: первая – «присадки FeMn и Si Mn»; вторая – «химсостав стали после второго периода, обусловленный чугуном»; третья – то же, что и вторая, но обусловленный металлоломом; четвертая – «химсостав стали после розлива, обусловленный металлоломом».
По нескольким первым главным компонентам можно сделать вывод о том, чем в основном определяется тот или иной период конвертерного процесса.
Одним из важных результатов применения метода главных компонент к анализу имеющихся данных можно считать разделение элементов химсостава стали на две группы, первая из которых обусловлена химсоставом чугуна, вторая – химсоставом металлолома.
В результате проведенного анализа возникает вопрос: почему первые главные компоненты объясняют не очень значительную долю обобщенной дисперсии? Причины этого могут быть такими:
а) неоднородность данных и существенные погрешности измерения части признаков;
б) отсутствие части существенных признаков;
в) слабая информативность исходных признаков;
г) наличие принципиально нелинейных взаимосвязей;
д) исследуемый процесс – система с «отсутствием памяти».
Первые три причины характеризуют мониторинговые аспекты исследования, а остальные – фундаментальные физико-химические свойства конвертерного процесса.
По-видимому, все указанные причины вносят свой вклад в полученную картину результатов исследования. Оценим величины этих вкладов.
Неоднородность данных, возможно, действительно имеет место и обусловлена прежде всего принципиальным различием свойств марок стали, фигурирующих в анализируемых данных. С целью выяснения правдоподобности этой гипотезы можно воспользоваться одним из двух подходов: дисперсионным или кластерным анализом. В частности, если в итоге кластерного анализа плавок будет четко выделено несколько кластеров, то это будет аргументом в пользу правдоподобности гипотезы о неоднородности данных. Тогда весь цикл анализа данных необходимо проводить для каждого из кластеров в отдельности.
Отсутствие части существенных признаков не вызывает сомнения. Например, из физико-химических соображений видна важная роль температуры стали в конвертере. Однако в силу известных принципиальных трудностей измерения ее текущих значений этот признак в паспортах плавок отсутствует.
Слабая информативность исходных признаков, в частности, связана с отсутствием части существенных признаков и подтверждается результатами корреляционного анализа.
Главные компоненты – линейные комбинации исходных признаков, поэтому наличие принципиально нелинейных взаимосвязей вполне реально.
Система с «отсутствием памяти» характеризуется тем, что по начальным условиям невозможно восстановить динамику ее функционирования. Автокорреляционные функции параметров, характеризующих состояние таких систем, быстро спадают, стремясь к нулю. Система как бы «забывает» свою предысторию. В таких системах чрезвычайно трудно проследить цепочку причинно-следственных связей. Данные корреляционного анализа (по крайней мере, для второй группы признаков) делают и эту гипотезу правдоподобной.
Таким образом, часть причин устранима, а часть нет. Поэтому при построении моделей заданной сложности и максимально возможной адекватности функционирования конвертерного процесса этот факт необходимо учитывать.
СПИСОК ИСПОЛЬЗОВАННЫХ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ
- Квитко М.П., Афанасьев С.Г. Кислородно-конверторный процесс. – М.: Металлургия, 1984. – 342 с.
- Антипов Ю.Н., Ахтанова М.К. Автоматизация экспериментальных исследований теплофизических процессов // Известия КГТУ. – 2004. – № 6. – С.62-67.
- Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа. – М.: Финансы и статистика, 1996. – 230 с.
- Антипов Ю.Н. Автоматизация производства стали в конверторах: анализ данных, моделирование, управление. – Караганда: Изд-во ХМИ НАН РК, 2000. – 89 с.
THE ANALYSIS OF DATA AT AUTOMATION OF RESLARCH CONVERTER PROCESS
U.N. Antipov
The statistical analysis of the data concentrated in passports of swimming trunks of oxyqen converters is lead. The received results should become a basis of construction of models converters process of the set complexity and the greatest possible adequacy.
converters process, the correlation analysis, a method of the main things a component, passports of swimming trunks, madelling