Dataset

FakeDataset

class FakeDataset(tokenizer, vocab, window_size, max_word_len) [SOURCE]

낚시성 데이터 주제 분리 탐지를 위한 base Dataset

Parameters:

load_dataset(datadir, split)

학습 전 데이터 경로와 파일을 미리 불러오는 함수

Parameters:

preprocessor()

학습을 위한 데이터 구조로 변환하는 함수. 기존 뉴스 문서를 사전에 정의한 window_size에 맞추어 문장 단위로 데이터를 구성한 후 labeling 수행

split_doc_into_sents(doc, src, fake_label, window_size)

모든 뉴스 본문을 받아온 후 각 문서를 window_size로 나누어 데이터 구성. Label 또한 구성된 데이터에 맞춰서 구성.

Parameters:

Returns:

length_processing(src)

입력 데이터의 token 개수가 max_word_len을 넘는 경우 뒤에서부터 자르는 것이 아닌 문장별 최대 길이를 제한하여 처리

Parameters:

Returns:

pad(data, pad_idx)

max_word_len 보다 작은 입력 데이터에 대한 padding

Parameters:

Returns:

padding_bert(src_token_ids, segments_ids, cls_ids)

KoBERT의 모든 입력 데이터에 대한 padding 함수

Parameters:

Returns:

get_token_type_ids(src_token)

입력 데이터 내 문장 별 segment ids를 계산하기 위한 함수

Parameters:

Returns:

get_cls_index(src_doc)

입력 데이터 내 cls token의 위치를 나타내는 cls index 함수

Parameters:

Returns:


BTSDataset

class BTSDataset(*window_size, tokenizer, vocab, max_word_len) [SOURCE]

BTS 모델을 위한 데이터셋

Parameters:

sing_preprocessor(doc)

하나의 문서에 대한 데이터 구성을 위한 전처리 함수

Parameters:

Returns:

tokenize(src)

입력 데이터 구성을 위한 데이터 전처리 함수

Parameters:

Returns:

__getitem__(i, return_txt, return_fake_label)

Parameters:

Returns:


KoBERTSegDataset

class KoBERTSegDataset(window_size, tokenizer, vocab, max_word_len) [SOURCE]

KoBERTSeg 모델을 위한 데이터셋

Parameters:

single_preprocessor(doc)

하나의 문서에 대한 데이터 구성을 위한 전처리 함수

Parameters:

Returns:

tokenize(src)

입력 데이터 구성을 위한 데이터 전처리 함수

Parameters:

Returns:

__getitem__(i, return_txt, return_fake_label)

Parameters:

Returns:


factory

create_dataset(name, data_path, split, tokenizer, vocab, kwargs) [SOURCE]

Parameters:

Returns:

Dataset

create_dataloader(dataset, batch_size, num_workers, shuffle) [SOURCE]

Parameters:

Returns:

DataLoader


Models

BERT(BERT for Topic Segmentation)

bts(hparams)

Parameters:

Returns:

BTS

class BTS(finetune_bert) [SOURCE]

BTS: 한국어 BERT를 사용한 텍스트 세그멘테이션에서 제안한 BTS 모델 사용. 모델 설명은 여기에서 확인할 수 있습니다.

Parameters:

forward(src, segs, mask_src)

Parameters:

Returns:


KoBERTSeg

kobertseg(hparams)

Parameters

Returns:

KoBERTSeg

class KoBERTSeg(finetune_bert, window_size) [SOURCE]

KoBERTSEG: 한국어 BERT를 이용한 Local Context 기반 주제 분리 방법론에서 제안한 KoBERTSeg 사용. 모델 설명은 여기에서 확인할 수 있습니다.

Parameters:

forward(src, segs, clss, mask_src, mask_cls)

Parameters:

Returns:


factory

create_model(modelname, hparams, checkpoint_path) [SOURCE]

모델 생성을 위한 함수

Parameters:

Returns:

Model