1. 들어가며
6차시는 반도체 공정 엔지니어가 실험 데이터를 어떻게 다루는지, 즉 "데이터를 어떻게 신뢰하고, 어떻게 정제하고, 어떻게 분석에 연결하는가" 를 배우는 시간이었습니다.
표면적으로는 엑셀 전처리 기법이지만, 다루는 내용은 공정 엔지니어가 현장에서 매일 반복하는 의사결정 루틴의 핵심입니다. GoF 부터 공정 개발 사이클, 그리고 Input/Output 전처리까지, 하나씩 정리해보았습니다.
특히, 데이터분석에서 전처리가 얼마나 중요하고 시간이 많이 걸리는지를 배울 수 있었습니다.
2. GoF(Goodness of Fit) — 계측값을 믿어도 되는지
2.1. GoF
GoF(Goodness of Fit, 적합도) 는 계측 장비가 측정한 결과가 사전에 설정해둔 Recipe에 얼마나 잘 들어맞는지를 나타내는 지표입니다.
반도체 공정에서 막질 두께나 광학 상수를 측정할 때 가장 많이 쓰이는 장비가 Ellipsometer 입니다. 엘립소미터는 웨이퍼 표면에 편광된 빛을 쏘고, 반사된 빛의 편광 변화(Ψ, Δ)를 분석해 막 두께와 굴절률(n), 소광계수(k)를 역산합니다.
이 과정에서 장비는 미리 등록된 Recipe에 측정값을 Fitting합니다. 이때의 Recipe는 제조사측이 주로 제공해주는데 한국반도체교육원에 가서 실습할 때, 1등 업체는 유료로, 2등 업체는 무료로 제공된다는 사실을 들은 적 있습니다.

GoF는 바로 이 피팅의 품질을 나타냅니다. 수식으로는 MSE(Mean Square Error) 또는 χ² 기반으로 계산되며, 0에 가까울수록 완벽한 피팅, 수치가 높을수록 모델과 실제 측정 사이의 괴리가 크다는 의미입니다.

GoF와 엘립소미터에 대해 다뤄본 내용은 아래 글에 있으니 궁금하신 분들은 한번 보시길 바랍니다.
https://semi-note.tistory.com/8
[반도체 실습] 한국 반도체 교육원(KSTI) 반도체 기초분석 실무 후기
상지대 안에 위치한 한국반도체교육원에서 진행하는 실무교육에 다녀왔습니다. 원주역과 만종역 두 곳 모두에서 그리 멀지 않기에 다른 지역에 계신 분들도 KTX를 통해 교육들으러 오기 괜찮습
semi-note.tistory.com
2.2. GoF 0.9가 기준
강의에서는 GoF가 0.9(또는 90이라 표현) 이상이면 양호하다고 판단한다고 설명합니다. 이 기준은 장비 제조사나 공정 특성마다 다를 수 있지만, 일반적으로:
GoF < 0.9 : 피팅이 불안정함. 측정값 자체를 신뢰하기 어려움 → 데이터 제외
GoF ≥ 0.9 : 모델과 측정이 충분히 일치함 → 분석에 활용 가능
GoF가 낮은 데이터는 분석에서 아예 제외하는 것이 원칙이지만, 제외하지 않는 경우도 있습니다. 예를 들어 특정 막질 구조에서는 낮은 GoF가 구조적으로 불가피한 경우, 혹은 GoF가 낮아도 재현성(Reproducibility)이 높다면 참고용으로 유지하기도 합니다. 어떠한 경우든 GoF수치를 기록해두고 분석 결과 해석에 반영해야 합니다.
2.3. 데이터시트의 빈 셀(Missing Data)
계측 데이터를 받아보면 GoF 불량 이외에도 또 다른 문제가 빈번하게 발생합니다. 바로 데이터시트의 특정 셀이 비어 있는 경우입니다.
셀이 비어있는 원인은 다양합니다.
- 계측 장비 오류로 특정 웨이퍼 측정이 누락됨
- GoF 기준 미달로 해당 포인트가 자동 제외됨
- 측정 포인트 중 일부만 계측하는 샘플링 계획상의 공백
- 데이터 이관·병합 과정에서 발생한 누락
문제는 대부분의 통계 분석 알고리즘이 결측값(Missing Value)을 그대로 받아들이지 못한다는 것입니다. 빈 셀이 있는 행 전체를 날려버리면 데이터 손실이 커지고, 남은 데이터가 편향될 수 있습니다. 반도체 데이터 특성상 데이터가 부족한 경우가 많기 때문에 결측됐다고 해서 데이터를 버릴 수 없습니다. 그래서 다양한 기법으로 빈 셀을 채워 넣는 것이 전처리의 중요한 과정입니다.
대표적인 결측값 처리 기법들
| 기법 | 방법 | 적합한 상황 |
| 평균/중앙값 대체 | 해당 컬럼의 평균 또는 중앙값으로 채움 | 데이터가 정규 분포에 가깝고 결측이 적을 때 |
| Foward/Backward Fill | 앞 또는 뒤 시점의 값으로 채움 | 시계열 데이터(공정 로그 등)에서 연속성이 있을 때 |
| 선형 보간(Interpolation) | 앞뒤 값 사이를 선형으로 추정해 채움 | 값이 연속적으로 변하는 센서 데이터 등 |
| KNN 대체 | 유사한 조건을 가진 다른 샘플의 값으로 채움 | 변수 간 상관관계가 있을 때 |
| 다중 대체(Multiple Imputation) | 통계 모델로 결측값의 분포를 추정해 여러 번 채움 | 결측이 많고 편향 최소화가 중요할 때 |
반도체 공정 데이터에서는 특히 시계열 특성이 강하기 때문에 Forward Fill이나 선형 보간이 자주 활용됩니다. 다만 보간을 쓸 때는 물리적으로 말이 되는 범위 안에서 채워야 합니다. 예를 들어 막 두께 값이 0이나 음수로 보간되면 그것 자체가 오류입니다. 또한 데이터가 극도로 적은 경우가 많기 때문에 무턱대고 선형보간을 써서도 안됩니다. 경우와 상황에 따라 유연하게 대처하는 엔지니어의 역량이 필요합니다.
2.4. 하부 막질이 GoF를 바꾼다
특정 막질을 계측할 때, 그 막질만이 아니라 하부 막질의 광학적 특성도 신호에 영향을 줍니다. 빛이 측정 대상 막을 투과해 하부 막질에서 반사되어 돌아오기 때문입니다.
따라서 막질의 Stack(적층 순서)이 바뀌면 계측 Recipe도 그에 맞게 업데이트해야 합니다. 예를 들어:
SiO₂ / Si 구조 → SiO₂ 계측 Recipe A
SiO₂ / SiN / Si 구조 → SiO₂ 계측 Recipe B (하부에 SiN이 추가됐으므로)
역으로, GoF가 갑자기 달라졌다는 것은 하부 막질이 의도치 않게 변했을 가능성을 시사합니다. 이는 강력한 공정 이상 탐지 신호가 됩니다. 공정 엔지니어가 GoF 트렌드를 모니터링하는 이유 중 하나입니다.

3. 공정 개발 업무 프로세스 — 엔지니어의 일하는 방식
3.1. 공정 개발의 순환 구조
반도체 공정 개발은 단발성 실험이 아닙니다. 원하는 결과가 나올 때까지 반복하는 사이클 구조를 가집니다. 심지어 원하는 결과를 얻어도 충분한 데이터를 얻어 신뢰를 확보할 때까지 반복하기도 합니다.

- 실험 계획 : 어떤 변수를 얼마나 바꿀지 설계합니다. DOE(Design of Experiment) 방법론이 활용됩니다.
- 실험 시행 : 계획에 따라 실제 웨이퍼를 공정에 넣습니다.
- 결과 수집 : 계측 데이터, Tracking 데이터, 불량 이미지 등을 모읍니다.
- 결과 분석 : 수집된 데이터를 분석합니다. 이번 차시가 바로 이 단계를 다룹니다.
- Spec-in 판단 : 구조물에 요구되는 사양(Spec) 안에 들어왔는가? 들어왔으면 품질에 반영하고 양산에 적용합니다. 아니면 다시 실험 계획으로 돌아갑니다.
다만 DOE가 데이터 확보가 어려운 반도체 업계 특성상 적용이 어려운 부분이 많아 참고만 하되 정석적으로 적용하는 경우는 드물다고 합니다.
3.2. 공정 개발을 촉발하는 트리거들
공정 개발이 시작되는 계기는 다양합니다:
- 결함 발생 : 파티클, 스크래치, 막질 박리 등 품질 문제
- 생산성 개선 : 사이클 타임 단축, 수율 향상, 원가 절감
- 구조 변경 : 다음 제품 세대로의 Design Rule 변경
- Scheme 변경 : 공정 흐름(Flow)의 변경, 장비 교체, 소재 변경 등
3.3. 이번 차시의 목표
이번 차시에서는 실험이 잘 완료됐음을 가정하에, 데이터 분석을 통해 공정 조건을 선별하였습니다.
공정 실험은 성공적으로 마쳤지만, 수집된 데이터의 품질이 좋지 않을 때, 예를 들어 GoF가 낮은 측정값이 섞여 있거나, 이상치가 있거나, 측정 누락이 있을 때.
이를 어떻게 전처리하고 분석할지가 이번 차시의 핵심 주제입니다.
공정 자체의 문제가 아니라 데이터 수집·처리 과정에서의 문제를 주로 다루었습니다. 실험 결과가 나쁜 것과 데이터가 나쁜 것은 다르기 때문에 이를 인식하고 분석을 시작하여야 합니다.
4. 데이터 전처리 — 분석의 80%는 여기서
4.1. 왜 전처리가 가장 오래 걸리는가?
데이터 전처리(Data Preprocessing) 는 수집된 원시 데이터를 분석에 적합한 형태로 정제하고 통합하는 과정입니다. 축소(차원 축소), 변환(단위 정규화), 이상값 제거까지 포함합니다.
데이터는 일반적으로 분석보다 전처리에 더 많은 시간이 걸립니다.
현업 데이터 사이언티스트들도 동일한 말을 합니다. 전체 분석 시간의 70~80%가 전처리에 쓰인다는 연구 결과도 있습니다. 반도체 공정 데이터는 특히 더합니다. 여러 장비에서 나온 데이터가 서로 다른 형식으로 쌓이고, 결측값, 중복값, 단위 불일치 등이 빈번합니다.
4.2. 공정 Input 전처리
공정 Input은 실험에서 제어한 변수들입니다. 온도, 압력, 가스 유량, 시간 등 엔지니어가 의도적으로 바꾼 파라미터들입니다.
전처리 방법 : Split table(실험 계획표)을 보고, 어떤 변수가 변경됐는지 확인하여 해당되는 것만 남긴다.
여기서 핵심 원칙은
- 실험 간에 변하는 변수 → 분석 대상 Input으로 유지
- 모든 실험에서 고정된 변수 → 분석에서 제외 (상수이므로 설명력이 없음)
입니다.
예를 들어 온도를 400/450/500°C로 바꾸면서 실험했다면 온도는 Input 변수로 유지합니다. 반면 모든 실험에서 압력이 동일하게 10 Torr였다면 압력은 분석에서 제외해도 됩니다. 이는 다중공선성 회피와 모델 단순화를 위해 중요합니다.
4.3. 공정 Output 전처리
공정 Output은 실험 후 계측한 결과 데이터입니다. 막 두께, 식각률, 균일도(Uniformity), 파티클 수 등이 포함됩니다.
Output 데이터는 크게 두 종류로 나뉩니다.
| 구분 | 설명 | 데이터 범위 |
| Tracking Data | 장비가 자동으로 기록하는 공정 로그 | 모든 웨이퍼의 전체 데이터 |
| 계측 데이터 | 별도 계측 장비로 측정한 결과 | 일부 웨이퍼만 선택 |
Tracking 데이터는 한 Lot의 모든 웨이퍼에 대해 데이터가 존재하지만, 계측 데이터는 보통 Lot 내 몇 장(대표 웨이퍼)만 계측합니다. 따라서 계측 데이터는 Tracking 데이터와 묶어 분석해야 합니다.
이 과정이 바로 병합(Merge) 입니다. 계측된 웨이퍼의 Tracking 값과 계측값을 동일한 식별자(Lot ID + Wafer ID)로 매칭합니다.

4.4. 엑셀 VLOOKUP과 두 개 Index 문제
엑셀로 전처리할 때는 VLOOKUP 함수를 남용해선 안됩니다.
=VLOOKUP(찾을값, 범위, 열번호, 0)
데이터를 매칭하려면 Lot ID와 Wafer ID, 두 개의 Index 를 동시에 기준으로 써야 합니다. 그런데 기본 VLOOKUP은 하나의 기준값만 지원합니다. 따라서 두 Index를 하나로 합친 새로운 Column을 만들어 VLOOKUP의 기준으로 사용합니다.
이렇게 하면 Lot ID와 Wafer ID 조합이 완전히 일치하는 행끼리만 매칭되어, 계측값을 Tracking 데이터에 정확하게 붙일 수 있습니다. Python/pandas로 처리한다면 merge(on=['Lot_ID', 'Wafer_ID']) 한 줄이지만, 엑셀 환경에서는 이 복합 Key 기법이 가장 실용적인 해결책입니다.
5. 강의 외의 추가 서칭
- GoF 모니터링은 SPC의 일부
GoF를 단순히 측정이 잘 됐는지 확인하는 지표로만 보면 그 가치가 반감됩니다. GoF 트렌드를 SPC(Statistical Process Control) 차트로 관리하면, 공정 이상을 계측 결과가 나오기 전에 조기에 감지할 수 있습니다. GoF가 서서히 나빠지고 있다면, 계측 장비의 램프 열화, 광학계 오염, 혹은 하부 막질 공정의 드리프트를 의심해야 합니다. - 전처리 품질이 분석 결론을 바꾼다
"Garbage in, Garbage out." 데이터 분석에서 가장 유명한 격언입니다. GoF가 낮은 계측값을 걸러내지 않고 분석에 넣으면, 최적 공정 조건으로 도출된 결과 자체가 왜곡됩니다. 잘못된 공정 조건으로 양산에 들어가면 수율 손실로 이어집니다. 전처리를 귀찮은 준비 작업이 아닌 분석의 핵심 역량으로 다뤄야 하는 이유입니다. - 파이썬을 사용할 시
복합 Key VLOOKUP은 실무에서 유용하지만, 데이터 규모가 커지면 한계가 있습니다. 만약 Python(pandas)을 다룬다면, pd.merge(df_tracking, df_measurement, on=['Lot_ID', 'Wafer_ID'], how='left') 형태로 처리하는 것이 훨씬 빠르고 오류가 없습니다. 엑셀의 개념을 완전히 이해한 뒤 코드로 전환하는 연습이 실력 향상의 지름길입니다.
6. Insight
배우면서 계속 반복해서 배운것과 들은 생각은 기존의 통계와 분석법을 반도체에 오롯이 적용하기는 어렵다는 것입니다. 데이터가 웨이퍼 한장 또는 Lot 하나일 수도 있기 때문에 극한의 적은 데이터를 가지고 어떻게 분석을 해야 올바를지 직관과 경험을 통해 분석하는 것이 중요합니다.
캡스톤이나 공모전을 나갈 때 적은 데이터를 합리적인 기준을 세워 분석해보는 것을 해보면 좋겠다는 생각을 하였습니다.
힘들게 실험한 데이터를 헛되이 쓰지 않도록 데이터를 분석하는 역량이 굉장히 중요해 보입니다.
'Semiconductor (외부 교육)' 카테고리의 다른 글
| [렛유인 KDC 교육] 반도체 공정설비 데이터분석 8차시 : DOE, 실험을 설계한다는 것의 의미 (0) | 2026.04.02 |
|---|---|
| [렛유인 KDC 교육] 반도체 공정설비 데이터분석 7차시 : Wafer Profile 분석, 시각화, 그리고 상관성 분석 (0) | 2026.03.23 |
| [렛유인 KDC 교육] 반도체 공정설비 데이터분석 5차시 : 공정 Split 분석과 데이터 시각화 실전 (0) | 2026.03.11 |
| [렛유인 KDC 교육] 반도체 공정설비 데이터분석 4차시 : FDC의 원리와 설비 데이터를 다루는 법 (0) | 2026.03.11 |
| [렛유인 KDC 교육] 반도체 공정설비 데이터분석 3차시 : 설비 Raw Data의 분류와 공정-설비의 관계 (0) | 2026.03.07 |