Dataset

FakeDataset

class FakeDataset(tokenizer) [SOURCE]

낚시성 데이터 제목 본문 간 불일치 탐지를 위한 base Dataset

Parameters:

load_dataset(*data_dir, split, saved_data_path=False)

뉴스 기사 데이터 불러오기

Parameters:


FNDNetDataset

class FNDNetDataset(tokenizer, max_word_len) [SOURCE]

FNDNet 모델을 위한 데이터셋

Parameters:

transform(title, text)

뉴스 기사 제목과 본문을 통해 입력 tokens 반환

Parameters:

Returns:

padding(doc)

max_word_len 보다 작은 입력 데이터에 대한 padding

Parameters:

Returns:


HANDDataset

class HANDDataset(tokenizer, max_word_len, max_sent_len) [SOURCE]

HAND 모델을 위한 데이터셋

Parameters:

transform(title, text)

뉴스 기사 제목과 본문을 통해 입력 tokens 반환

Parameters:

Returns:

padding(doc)

max_word_lenmax_sent_len 보다 작은 입력 데이터에 대한 padding

Parameters:

Returns:


BERTDataset

class BERTDataset(tokenizer, max_word_len) [SOURCE]

BERT 모델을 위한 Fake News Detection Dataset

Parameters:

transform(title, text)

Parameters:

뉴스 기사 제목과 본문을 통해 입력 tokens 반환

Parameters:

Returns:

tokenize(src)

입력 데이터 구성을 위한 데이터 전처리 함수

Parameters:

Returns:

length_precessing(src)

입력 데이터의 token 개수가 max_word_len을 넘는 경우 뒤에서부터 자르는 것이 아닌 문장별 최대 길이를 제한하여 처리

Parameters:

Returns:

pad(data, pad_idx)

max_word_len 보다 작은 입력 데이터에 대한 padding

Parameters:

Returns:

padding_bert(input_ids, token_type_ids)

KoBERT의 모든 입력 데이터에 대한 padding 함수

Parameters:

Returns:

get_token_type_ids(input_ids)

입력 데이터 내 문장 별 segment ids를 계산하기 위한 함수

Parameters:

Returns:


FNDTokenizer

class FNDTokenizer(vocab, tokenizer, special_tokens) [SOURCE]

학습된 word embedding의 vocabulary와 Mecab 형태소 분석시를 활용하여 구성한 Fake News Tokenizer

Parameters:

encode(sentence)

텍스트를 학습에 사용한 vocab의 id로 변환

Parameters:

Returns:

batch_encode(b_sentence)

Batch 단위로 encode을 수행

Parameters:

Returns:

decode(input_ids)

token ids를 vocab을 통해 다시 텍스트로 반환

Parameters:

Returns:

batch_decode(b_input_ids)

Batch 단위로 decode을 수행

Parameters:

Returns:

add_tokens(name)

special token을 추가하는 함수

Parameters:


factory

extract_word_embedding(vocab_path, max_vocab_size) [SOURCE]

학습된 word embedding의 vocabulary와 word embedding weights 추출

Parameters:

Returns:

create_tokenizer(name, vocab_path, max_vocab_size) [SOURCE]

사용할 모델에 맞는 Tokenizer 반환

Parameters:

Returns:

create_dataset(name, data_path, split, tokenizer, saved_data_path, kwargs) [SOURCE]

사용할 모델에 맞는 Dataset 반환

Parameters:

Returns:

Dataset

create_dataloader(dataset, batch_size, num_workers, shuffle) [SOURCE]

Parameters:

Returns:

DataLoader


Models

BERT

bert(hparams)

Parameters:

Returns:

class BERT(pretrained_name, config, num_classes) [SOURCE]

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding에서 제안한 BERT 모델 사용. 모델 설명은 여기에서 확인할 수 있습니다.

Parameters:

forward(input_ids, attention_mask, token_type_ids, position_ids, head_mask, inputs_embeds, output_attention, output_hidden_states)

Parameters:

Returns:


FNDNet

fndnet(hparams)

Parameters:

Returns:

FNDNet

class FNDNet(dims, num_classes, dropout, vocab_len, embed_dims) [SOURCE]

FNDNet–a deep convolutional neural network for fake news detection에서 제안한 FNDNet 모델 사용. 모델 설명은 여기에서 확인할 수 있습니다.

Parameters:

init_w2e(weights, nb_special_tokens)

word embedding weights 초기화

Parameters:

freeze_w2e()

word embedding weights를 freeze 할지 여부

forward(input_ids)

Parameters:

Returns:


HAND

hand(hparams)

Parameters:

Returns:

HAND

class HierAttNet(*word_dims, sent_dims, dropout, num_classes, vocab_len, embed_dims) [SOURCE]

Hierarchical Attention Networks for Document Classification에서 제안한 HAND 모델 사용. 모델 설명은 여기에서 확인할 수 있습니다.

Parameters:

init_w2e(weights, nb_special_tokens)

word embedding weights 초기화

Parameters:

freeze_w2e()

word embedding weights를 freeze 할지 여부

forward(input_ids, output_attentions)

Parameters:

Returns:

class WordAttnNet(vocab_len, embed_dims, word_dims, dropout) [SOURCE]

Parameters:

forward(input_ids)

Parameters:

Returns:

class SentAttnNet(word_dims, sent_dims, dropout) [SOURCE]

Parameters:

forward(words_embed)

Parameters:

Returns:


factory

create_model(modelname, hparams, word_embed, tokenizer, freeze_word_embed, use_pretrained_word_embed, checkpoint_path) [SOURCE]

Parameters:

Returns:

Model