Merge branch 'full_adj_mx'

MegamindHenry · MegamindHenry · commit 1755e5e53fa5 · 2021-02-04T09:39:02.000+01:00
diff --git a/docs/src/man/make_adjacency_matrix.md b/docs/src/man/make_adjacency_matrix.md
@@ -7,4 +7,5 @@ CurrentModule = JudiLing
 ```@docs
   make_adjacency_matrix
   make_adjacency_matrix(::Dict)
+  make_combined_adjacency_matrix(::DataFrame, ::DataFrame)
 ```
diff --git a/src/make_adjacency_matrix.jl b/src/make_adjacency_matrix.jl
@@ -74,4 +74,61 @@ function make_adjacency_matrix(
   end
 
   sparse(I, J, V, n_ngrams, n_ngrams, *)
+end
+
+"""
+    make_combined_adjacency_matrix(::DataFrame, ::DataFrame) -> ::SparseMatrixCSC
+
+Make combined adjacency matrix.
+
+...
+# Obligatory Arguments
+- `data_train::DataFrame`: training dataset
+- `data_val::DataFrame`: validation dataset
+
+# Optional Arguments
+- `grams=3`: the number of grams for cues 
+- `target_col=:Words`: the column name for target strings
+- `tokenized=false`:if true, the dataset target is assumed to be tokenized
+- `sep_token=nothing`: separator
+- `keep_sep=false`: if true, keep separators in cues
+- `start_end_token="#"`: start and end token in boundary cues
+- `verbose=false`: if true, more information is printed
+
+# Examples
+```julia
+JudiLing.make_combined_adjacency_matrix(
+  latin_train,
+  latin_val,
+  grams=3,
+  target_col=:Word,
+  tokenized=false,
+  keep_sep=false
+  )
+```
+...
+"""
+function make_combined_adjacency_matrix(
+  data_train::DataFrame,
+  data_val::DataFrame;
+  grams=3,
+  target_col=:Words,
+  tokenized=false,
+  sep_token=nothing,
+  keep_sep=false,
+  start_end_token="#",
+  verbose=false)
+
+  t, v = make_combined_cue_matrix(
+    data_train,
+    data_val;
+    grams=grams,
+    target_col=target_col,
+    tokenized=tokenized,
+    sep_token=sep_token,
+    keep_sep=keep_sep,
+    start_end_token=start_end_token,
+    verbose=verbose)
+
+  t.A
 end
diff --git a/test/make_adjacency_matrix_tests.jl b/test/make_adjacency_matrix_tests.jl
@@ -1,12 +1,40 @@
 using JudiLing
+using CSV
 using Test
 
-@testset "make cue matrix for latin" begin
+@testset "make full adjacency matrix" begin
   try
     i2f = Dict([(1, "#ab"), (2, "abc"), (3, "bc#"), (4, "#bc"), (5, "ab#")])
     JudiLing.make_adjacency_matrix(i2f)
     @test true
   catch e
     @test e == false
   end
+end
+
+@testset "make combined adjacency matrix" begin
+  try
+    latin_full = CSV.DataFrame!(CSV.File(joinpath(@__DIR__, "data", "latin_mini.csv")))
+
+    latin_train = latin_full[1:3,:]
+    latin_val = latin_full[10:15,:]
+
+    A = JudiLing.make_combined_adjacency_matrix(
+      latin_train,
+      latin_val,
+      grams=3,
+      target_col=:Word,
+      tokenized=false,
+      keep_sep=false
+      )
+
+    @test A[1,2] == 1
+    @test A[2,3] == 1
+    @test A[3,4] == 1
+    @test A[4,5] == 1
+    @test A[2,6] == 1
+    @test A[6,7] == 1
+  catch e
+    @test false
+  end
 end